Efektivní indexování velkých kolekcí genomů pomocí maskovaných nadřetězců k-merů
Veřejná podpora
Poskytovatel
Ministerstvo školství, mládeže a tělovýchovy
Program
Podpora mobility výzkumných pracovníků a pracovnic v rámci mezinárodní spolupráce ve VaVaI
Veřejná soutěž
—
Hlavní účastníci
Univerzita Karlova / Matematicko-fyzikální fakulta
Druh soutěže
M2 - Mezinárodní spolupráce
Číslo smlouvy
-
Alternativní jazyk
Název projektu anglicky
Efficient Indexing of Large Genome Collections via Masked Superstrings of k-Mers
Anotace anglicky
Building on our concept of masked superstrings (Sladký, Veselý, and Břinda 2023, 2024), the goal of this project is to significantly extend our preliminary results and address the main challenges in processing and analyzing large k-mer sets, possibly subjected to sampling or sketching. In particular, we have the following specific research aims: Aim 1: Develop a mathematical measure for quantifying the compactness of k-mer sets, so called „Spectrum-Like Quotient“ (SLQ). Aim 2: Develop a SLQ-based parameterization of k-mer sets and k-mer-based algorithms. Aim 3: Develop techniques for indexing large collections of multiple k-mer sets via masked superstrings. Aim 4: Develop streaming algorithms for efficient comparisons of masked superstring. The results of the collaboration will be presented at international conferences, seminars, and colloquia, as well as at both collaborating institutions. Involved students will participate in international workshops and internships, which will broaden their professional horizons and help them prepare for a career in scientific research. All software created as part of this project will be available on GitHub under the MIT license and will also be archived at Zenodo. All papers will initially be published as preprints on servers such as ArXiv, bioRxiv, and HAL.science. We will then prepare the papers for publication in prestigious journals in the field, including Genome Research, Genome Biology, or Bioinformatics.
Vědní obory
Kategorie VaV
ZV - Základní výzkum
OECD FORD - hlavní obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - vedlejší obor
—
OECD FORD - další vedlejší obor
—
CEP - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
AF - Dokumentace, knihovnictví, práce s informacemi<br>BC - Teorie a systémy řízení<br>BD - Teorie informace<br>IN - Informatika
Termíny řešení
Zahájení řešení
1. 1. 2025
Ukončení řešení
31. 12. 2026
Poslední stav řešení
Z - Začínající víceletý projekt
Poslední uvolnění podpory
—
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP25-MSM-8J-R
Datum dodání záznamu
11. 2. 2025
Finance
Celkové uznané náklady
194 tis. Kč
Výše podpory ze státního rozpočtu
194 tis. Kč
Ostatní veřejné zdroje financování
0 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč