Targeting protein cryptic binding sites with machine learning
Project goals
Knowledge of binding sites (BSs) is one of the prerequisites of rational drug design. However, traditional BS detection approaches fail to identify cryptic BSs (CBSs), i.e., sites that change conformation upon ligand binding. Although several methods for CBS detection exist, they are all restricted to protein structure, missing a great number of BSs detectable in the available protein sequences. Therefore, we propose a sequence-based deep learning solution for CBS detection which uses structural data only in the training phase. The solution will be based on a graph neural network architecture, taking as its input a protein sequence graph representation that will encode important residue relationships. To train the model, we will develop a knowledge base (KB) of experimental and predicted protein structure states. The KB will serve as the source for the first-of-its-kind benchmark dataset for CBS detection, a substantial contribution to both bioinformatics and machine learning research. The solution will be integrated into an existing framework for structure-based BS detection.
Keywords
machine learningdeep learninggraph neural networkproteinbinding sitedetection
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
SGA0202300001
Main participants
Univerzita Karlova / Matematicko-fyzikální fakulta
Contest type
VS - Public tender
Contract ID
23-07349S
Alternative language
Project name in Czech
Detekce kryptických aktivních míst proteinů pomocí strojového učení
Annotation in Czech
Znalost vazebných míst (VM) je jedna z prerekvizit racionálního vývoje léčiv. Bohužel, tradiční přístupy k detekci VM nejsou schopny identifkovat kryptická vazebná místa (KVM), tj. místa která po napojení ligandu mění svoji strukturu. Ačkoli existuje několik metod pro detekci KVM, všechny vyžadují znalost proteinové struktury, a tedy nejsou schopny detekovat velké množství VM, které jsou detekovatelné v dostupných proteinových sekvencích. Proto navrhujeme sekvenční přístup k detekci KVM založený na hlubokém učení využívající strukturní data pouze ve fázi učení. Navržené řešení bude postaveno na architektuře grafové neuronové sítě, která bude na vstupu přijímat graf odvozený z proteinové sekvence kódující významné vztahy mezi residui. Za účelem natrénování modelu vytvoříme databázi (DB) experimentálních a predikovaných strukturních stavů proteinů. DB bude zdrojem prvního benchmarku svého druhu pro detekci KVM, který bude významným příspěvkem jak v oblasti bioinformatiky, tak strojového učení. Řešení bude integrováno do stávajícího frameworku pro detekci VM ze struktury.
Scientific branches
R&D category
ZV - Basic research
OECD FORD - main branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - secondary branch
—
OECD FORD - another secondary branch
—
AF - Documentation, librarianship, work with information
BC - Theory and management systems
BD - Information theory
IN - Informatics
Solution timeline
Realization period - beginning
Mar 1, 2023
Realization period - end
Dec 31, 2025
Project status
K - Ending multi-year project
Latest support payment
Mar 28, 2024
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP25-GA0-GA-R
Data delivery date
Feb 21, 2025
Finance
Total approved costs
7,346 thou. CZK
Public financial support
6,860 thou. CZK
Other public sources
486 thou. CZK
Non public and foreign sources
0 thou. CZK
Basic information
Recognised costs
7 346 CZK thou.
Public support
6 860 CZK thou.
93%
Provider
Czech Science Foundation
OECD FORD
Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Solution period
01. 03. 2023 - 31. 12. 2025