Revealing data leakage in protein interaction benchmarks

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F61388963%3A_____%2F24%3A00585960" target="_blank" >RIV/61388963:_____/24:00585960 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/68407700:21730/24:00380615
Výsledek na webu
<a href="https://openreview.net/forum?id=ORMXYUK5IY" target="_blank" >https://openreview.net/forum?id=ORMXYUK5IY</a>
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
angličtina
Název v původním jazyce
Revealing data leakage in protein interaction benchmarks
Popis výsledku v původním jazyce
In recent years, there has been remarkable progress in machine learning for protein-protein interactions. However, prior work has predominantly focused on improving learning algorithms, with less attention paid to evaluation strategies and data preparation. Here, we demonstrate that further development of machine learning methods may be hindered by the quality of existing train-test splits. Specifically, we find that commonly used splitting strategies for protein complexes, based on protein sequence or metadata similarity, introduce major data leakage. This may result in overoptimistic evaluation of generalization, as well as unfair benchmarking of the models, biased towards assessing their overfitting capacity rather than practical utility. To overcome the data leakage, we recommend constructing data splits based on 3D structural similarity of protein-protein interfaces and suggest corresponding algorithms. We believe that addressing the data leakage problem is critical for further progress in this research area.
Název v anglickém jazyce
Revealing data leakage in protein interaction benchmarks
Popis výsledku anglicky
In recent years, there has been remarkable progress in machine learning for protein-protein interactions. However, prior work has predominantly focused on improving learning algorithms, with less attention paid to evaluation strategies and data preparation. Here, we demonstrate that further development of machine learning methods may be hindered by the quality of existing train-test splits. Specifically, we find that commonly used splitting strategies for protein complexes, based on protein sequence or metadata similarity, introduce major data leakage. This may result in overoptimistic evaluation of generalization, as well as unfair benchmarking of the models, biased towards assessing their overfitting capacity rather than practical utility. To overcome the data leakage, we recommend constructing data splits based on 3D structural similarity of protein-protein interfaces and suggest corresponding algorithms. We believe that addressing the data leakage problem is critical for further progress in this research area.

Klasifikace

Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10620 - Other biological topics

Návaznosti výsledku

Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace

Ostatní

Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Název statě ve sborníku
GEM-2024. ICLR 2024 Workshop on Generative and Experimental Perspectives for Biomolecular Design
ISBN
9781713898658
ISSN
—
e-ISSN
—
Počet stran výsledku
13
Strana od-do
—
Název nakladatele
ICLR
Místo vydání
—
Místo konání akce
Vídeň
Datum konání akce
7. 5. 2024
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—

Podobné výsledky(10)

Revealing data leakage in protein interaction benchmarks An evaluation methodology for machine learning-based tandem mass spectra similarity prediction Stream-based machine learning for network security and anomaly detection

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Revealing data leakage in protein interaction benchmarks

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)