Využití metod strojového učení a hmotnostní spektrometrie pro klinické aplikace v nádorové biologii
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14110%2F23%3A00134280" target="_blank" >RIV/00216224:14110/23:00134280 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Využití metod strojového učení a hmotnostní spektrometrie pro klinické aplikace v nádorové biologii
Popis výsledku v původním jazyce
S rostoucími nároky na analýzy biologických vzorků ve složitých matricích roste i zájem o vývoj a optimalizaci hmotnostně spektrometrických (MS) metod. MS analýza intaktních buněk, vzorků plazmy, ale také i ostatních biologických materiálů má velký význam pro sledování a objasňování biologických procesů v organismu a poskytuje důležité informace o pheno/genotypu organismu. Ve dvou zde prezentovaných tématech jsou představeny různé techniky, které se zabývají studii těchto biologických vzorků. MALDI MS intaktních buněk se již používá v klinické mikrobiologii a diagnostice. V posledních letech byla zavedena také do buněčné biologie, imunologie a studie nádorů. První téma se zaměřuje na klasifikaci buněk rakoviny vaječníků s různým procentuálním podílem buněčných populací s potlačenou expresí genu (TUSC3). Metoda MS byla kombinována s vícerozměrnými statistickými algoritmy a metodami strojového učení (ML), např. PLS-DA, ANN a RF. Všechny výpočetní modely byly sestaveny s využitím programovacího jazyka R. Optimalizací byla MS intaktních buněk spojena s metodami ML pro sledování změn TUSC3 genu. Data získaná z hmotnostních spekter byla analyzována pomocí vyvinutého skriptu v jazyce R. Byla popsána metodika pro předzpracovaní dat, která vedla ke snížení technické variability datasetu. Metodika byla popsána s využitím souboru dat čítajícím 175 hmotnostních spekter. Celkem bylo vytvořeno a porovnáno 5 klasifikátorů založených na různých algoritmech, které byly dále optimalizovány. Jako model s nejlepší klasifikační schopností se 100% přesností (95% interval spolehlivosti, Cl = 94,7-100 %) pro validační data byla určena diskriminační analýza částečných nejmenších čtverců (PLS-DA). Výše popsaná metoda byla použita i pro další studie, například pro sledování diferenciace hESC do ELEP. Zde byla provedena vizualizace diferenciační trajektorie pouze na základě spektrálních dat a odhalili jsme také některé fenotypové abnormality související s počtem pasáží a zástupně s aneuploidním stavem hESC. Druhým tématem je vývoj metody pro analýzu vzorků lidské plazmy pomocí MALDI MS. Cílem je vyvinutí metody pro rozlišení pacientů s mnohočetným myelomem (MM) a pacienty s plazmocelulární leukémii (PCL) a extramedulárním onemocněním (EMD). Pro analýzu vzorků byl vyvinut dvoustupňový protokol extrakce proteinů. Intenzita v celém použitém rozsahu m/z se při použití extrakčního protokolu zvýšila přibližně 50× (v porovnání s neupravenými vzorky plazmy). Klasifikace pomocí ML algoritmů (RF, PLS-DA a ANN) dosáhla přesnosti 80-90 % pro trénovací soubor dat a 79-87 % pro testovací soubor dat. Tato zjištění mohou pomoci urychlit integraci MALDI MS do klinického použití a zpřesnit diagnózu těchto onemocnění. Podpořeno Masarykovou univerzitou projekt č.: MUNI/A/1298/2022, MUNI/A/1301/2022, MUNI/11/ACC/3/2022, ministerstvem zdravotnictví ČR projekt č.: NU21-03-00076 a grantovou agentura České republiky projekt č.: GA23-06675S.
Název v anglickém jazyce
Using machine learning and mass spectrometry for clinical applications in cancer biology
Popis výsledku anglicky
With increasing demands for analysis of biological samples in complex matrices, there is also a growing interest in the development and optimization of mass spectrometric (MS) methods. MS analysis of intact cells, plasma samples, and other biological materials is important for monitoring and elucidating biological processes in the organism and provides important information about the phenotype/genotype of the organism. Various techniques that deal with the study of these biological samples are presented in two topics. MALDI MS of intact cells is already used in clinical microbiology and diagnosis and has also been introduced into cell biology, immunology, and tumor studies in recent years. The first topic focuses on the classification of ovarian cancer cells with different percentages of cell populations with suppressed gene expression (TUSC3). The MS method was combined with multidimensional statistical algorithms and machine learning methods (ML), such as PLS-DA, ANN, and RF. All computational models were built using the R programming language. The optimization of MS of intact cells was combined with ML methods to monitor changes in the TUSC3 gene. Data obtained from mass spectra were analyzed using a developed script in the R language. A methodology for data preprocessing was described, which led to a reduction in the technical variability of the dataset. The methodology was described using a dataset of 175 mass spectra. A total of 5 classifiers based on different algorithms were created and compared, which were further optimized. Discriminant analysis of partial least squares (PLS-DA) was determined as the model with the best classification ability with 100% accuracy (95% confidence interval, Cl = 94.7-100%) for validation data. The above-described method was also used for other studies, such as monitoring the differentiation of hESC into ELEP. Here, the differentiation trajectory was visualized based solely on spectral data, and some phenotypic abnormalities related to the number of passages and aneuploid state of hESC were also revealed. The second topic is the development of a method for analyzing human plasma samples using MALDI MS. The aim is to develop a method for distinguishing patients with multiple myeloma (MM) and patients with plasma cell leukemia (PCL) and extramedullary disease (EMD). A two-step protocol for protein extraction was developed for sample analysis. The intensity in the entire used m/z range increased by approximately 50 times (compared to unmodified plasma samples) when using the extraction protocol. Classification using ML algorithms (RF, PLS-DA, and ANN) achieved an accuracy of 80-90% for the training dataset and 79-87% for the testing dataset. These findings can help accelerate the integration of MALDI MS into clinical use and improve the diagnosis of these diseases. Supported by Masaryk University project no.: MUNI/A/1298/2022, MUNI/A/1301/2022, MUNI/11/ACC/3/2022, the Ministry of Health of the Czech Republic project no.: NU21-03-00076, and the Grant Agency of the Czech Republic project no.: GA23-06675S.
Klasifikace
Druh
O - Ostatní výsledky
CEP obor
—
OECD FORD obor
30400 - Medical biotechnology
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2023
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů