Text and Tree Structures Processing and Their Applications
Project goals
The project deals with four topics which are closely related: Arbology, Data Compression for natural languages, and selected topics of Stringology and Bioinformatics. In Arbology we research new indexing and pattern matching algorithms on trees. In Bioinformatics we work on problems of mapping millions of short reads to genomic sequences and their indexing. In Data Compression we focus on efficient algorithms for natural languages based on knowledge of the source language and on algorithms allowing fast compression and decompression as well as efficient search. In Stringology we work on 2D text indexing and on algorithms for identifying cribbed texts and source codes, which may be compressed.
Keywords
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
Standardní projekty 17 (SGA0201300005)
Main participants
České vysoké učení technické v Praze / Fakulta informačních technologií
Contest type
VS - Public tender
Contract ID
13-03253S
Alternative language
Project name in Czech
Zpracování textových a stromových struktur a jejich aplikace
Annotation in Czech
Projekt se zabývá výzkumem čtyř relativně úzce propojených oblastí: arbologií, kompresí přirozených jazyků a vybranými tématy ze stringologie a bioinformatiky. V oblasti arbologie zkoumáme nové indexovací a vyhledávací algoritmy na stromech. V bioinformatice pracujeme na řešení rychlého mapování miliónů krátkých sekvencí na DNA řetězec a indexování DNA řetězců. V oblasti komprese dat se zaměřujeme na výkonné algoritmy pro rychlou kompresi a dekompresi textu přirozeného jazyka a algoritmy pro rychlé vyhledávání v komprimovaném textu. Ve stringologii pracujeme na indexování 2D textu a na algoritmech pro identifikaci opsaných textů a zdrojových kódů, které mohou být navíc komprimované.
Scientific branches
Completed project evaluation
Provider evaluation
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Project results evaluation
New algorithms for searching and compression of tree and text structures have been developed including new ways of indexing and multidimensional search. Grant results were presented at suitable international fora including 2 journals with impact factor and 4 contributions at the leading Data Compression Conference. Financial means were used accoring to the plan with minor errors in reports.
Solution timeline
Realization period - beginning
Feb 1, 2013
Realization period - end
Dec 31, 2015
Project status
U - Finished project
Latest support payment
Mar 26, 2015
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP16-GA0-GA-U/01:1
Data delivery date
Sep 25, 2017
Finance
Total approved costs
4,910 thou. CZK
Public financial support
4,910 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK
Recognised costs
4 910 CZK thou.
Public support
4 910 CZK thou.
0%
Provider
Czech Science Foundation
CEP
IN - Informatics
Solution period
01. 02. 2013 - 31. 12. 2015