Detekce kryptických aktivních míst proteinů pomocí strojového učení
Cíle projektu
Znalost vazebných míst (VM) je jedna z prerekvizit racionálního vývoje léčiv. Bohužel, tradiční přístupy k detekci VM nejsou schopny identifkovat kryptická vazebná místa (KVM), tj. místa která po napojení ligandu mění svoji strukturu. Ačkoli existuje několik metod pro detekci KVM, všechny vyžadují znalost proteinové struktury, a tedy nejsou schopny detekovat velké množství VM, které jsou detekovatelné v dostupných proteinových sekvencích. Proto navrhujeme sekvenční přístup k detekci KVM založený na hlubokém učení využívající strukturní data pouze ve fázi učení. Navržené řešení bude postaveno na architektuře grafové neuronové sítě, která bude na vstupu přijímat graf odvozený z proteinové sekvence kódující významné vztahy mezi residui. Za účelem natrénování modelu vytvoříme databázi (DB) experimentálních a predikovaných strukturních stavů proteinů. DB bude zdrojem prvního benchmarku svého druhu pro detekci KVM, který bude významným příspěvkem jak v oblasti bioinformatiky, tak strojového učení. Řešení bude integrováno do stávajícího frameworku pro detekci VM ze struktury.
Klíčová slova
machine learningdeep learninggraph neural networkproteinbinding sitedetection
Veřejná podpora
Poskytovatel
Grantová agentura České republiky
Program
Standardní projekty
Veřejná soutěž
SGA0202300001
Hlavní účastníci
Univerzita Karlova / Matematicko-fyzikální fakulta
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
23-07349S
Alternativní jazyk
Název projektu anglicky
Targeting protein cryptic binding sites with machine learning
Anotace anglicky
Knowledge of binding sites (BSs) is one of the prerequisites of rational drug design. However, traditional BS detection approaches fail to identify cryptic BSs (CBSs), i.e., sites that change conformation upon ligand binding. Although several methods for CBS detection exist, they are all restricted to protein structure, missing a great number of BSs detectable in the available protein sequences. Therefore, we propose a sequence-based deep learning solution for CBS detection which uses structural data only in the training phase. The solution will be based on a graph neural network architecture, taking as its input a protein sequence graph representation that will encode important residue relationships. To train the model, we will develop a knowledge base (KB) of experimental and predicted protein structure states. The KB will serve as the source for the first-of-its-kind benchmark dataset for CBS detection, a substantial contribution to both bioinformatics and machine learning research. The solution will be integrated into an existing framework for structure-based BS detection.
Vědní obory
Kategorie VaV
ZV - Základní výzkum
OECD FORD - hlavní obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - vedlejší obor
—
OECD FORD - další vedlejší obor
—
CEP - odpovídající obory
(dle převodníku)AF - Dokumentace, knihovnictví, práce s informacemi
BC - Teorie a systémy řízení
BD - Teorie informace
IN - Informatika
Termíny řešení
Zahájení řešení
1. 3. 2023
Ukončení řešení
31. 12. 2025
Poslední stav řešení
K - Končící víceletý projekt
Poslední uvolnění podpory
28. 3. 2024
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP25-GA0-GA-R
Datum dodání záznamu
21. 2. 2025
Finance
Celkové uznané náklady
7 346 tis. Kč
Výše podpory ze státního rozpočtu
6 860 tis. Kč
Ostatní veřejné zdroje financování
486 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč
Základní informace
Uznané náklady
7 346 tis. Kč
Statní podpora
6 860 tis. Kč
93%
Poskytovatel
Grantová agentura České republiky
OECD FORD
Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Doba řešení
01. 03. 2023 - 31. 12. 2025