All
All

What are you looking for?

All
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Targeting protein cryptic binding sites with machine learning

Project goals

Knowledge of binding sites (BSs) is one of the prerequisites of rational drug design. However, traditional BS detection approaches fail to identify cryptic BSs (CBSs), i.e., sites that change conformation upon ligand binding. Although several methods for CBS detection exist, they are all restricted to protein structure, missing a great number of BSs detectable in the available protein sequences. Therefore, we propose a sequence-based deep learning solution for CBS detection which uses structural data only in the training phase. The solution will be based on a graph neural network architecture, taking as its input a protein sequence graph representation that will encode important residue relationships. To train the model, we will develop a knowledge base (KB) of experimental and predicted protein structure states. The KB will serve as the source for the first-of-its-kind benchmark dataset for CBS detection, a substantial contribution to both bioinformatics and machine learning research. The solution will be integrated into an existing framework for structure-based BS detection.

Keywords

machine learningdeep learninggraph neural networkproteinbinding sitedetection

Public support

  • Provider

    Czech Science Foundation

  • Programme

    Standard projects

  • Call for proposals

    SGA0202300001

  • Main participants

    Univerzita Karlova / Matematicko-fyzikální fakulta

  • Contest type

    VS - Public tender

  • Contract ID

    23-07349S

Alternative language

  • Project name in Czech

    Detekce kryptických aktivních míst proteinů pomocí strojového učení

  • Annotation in Czech

    Znalost vazebných míst (VM) je jedna z prerekvizit racionálního vývoje léčiv. Bohužel, tradiční přístupy k detekci VM nejsou schopny identifkovat kryptická vazebná místa (KVM), tj. místa která po napojení ligandu mění svoji strukturu. Ačkoli existuje několik metod pro detekci KVM, všechny vyžadují znalost proteinové struktury, a tedy nejsou schopny detekovat velké množství VM, které jsou detekovatelné v dostupných proteinových sekvencích. Proto navrhujeme sekvenční přístup k detekci KVM založený na hlubokém učení využívající strukturní data pouze ve fázi učení. Navržené řešení bude postaveno na architektuře grafové neuronové sítě, která bude na vstupu přijímat graf odvozený z proteinové sekvence kódující významné vztahy mezi residui. Za účelem natrénování modelu vytvoříme databázi (DB) experimentálních a predikovaných strukturních stavů proteinů. DB bude zdrojem prvního benchmarku svého druhu pro detekci KVM, který bude významným příspěvkem jak v oblasti bioinformatiky, tak strojového učení. Řešení bude integrováno do stávajícího frameworku pro detekci VM ze struktury.

Scientific branches

  • R&D category

    ZV - Basic research

  • OECD FORD - main branch

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

  • OECD FORD - secondary branch

  • OECD FORD - another secondary branch

  • AF - Documentation, librarianship, work with information
    BC - Theory and management systems
    BD - Information theory
    IN - Informatics

Solution timeline

  • Realization period - beginning

    Mar 1, 2023

  • Realization period - end

    Dec 31, 2025

  • Project status

    K - Ending multi-year project

  • Latest support payment

    Mar 28, 2024

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP25-GA0-GA-R

  • Data delivery date

    Feb 21, 2025

Finance

  • Total approved costs

    7,346 thou. CZK

  • Public financial support

    6,860 thou. CZK

  • Other public sources

    486 thou. CZK

  • Non public and foreign sources

    0 thou. CZK

Basic information

Recognised costs

7 346 CZK thou.

Public support

6 860 CZK thou.

93%


Provider

Czech Science Foundation

OECD FORD

Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Solution period

01. 03. 2023 - 31. 12. 2025