Text processing and analysis
Project goals
Results of the pattern matching research are used everyday by all computer users that use a text editor or search on the Internet. The starting point for our work are our latest results in the area of a text processing and analysis. In the area of a textanalysis our current research is focused mainly on parallel translations, where there are no integrated solutions. Our solutions in the area of text processing use a unified model of all known pattern matching problems, therefore we can look at present algorithms from a different point of view and possibly find new ones. Goals of our research consist of the problems we work on and new problems arising from other research fields like image processing or DNA analysis. Now we work on: e.g. LL and LR syntactic and parallel syntactic analysis; searching for exact and approximate repetitions, 2D matching, construction and using factor automata (DAWG, CDAWG) and suffix arrays and searching in compressed texts. Problems we are willing to open: compiler
Keywords
textparallel LL and LR analysisfinite automatonpattern matching automatonexactapproximate
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
Standardní projekty 9 (SGA02006GA-ST)
Main participants
—
Contest type
VS - Public tender
Contract ID
201/06/1039
Alternative language
Project name in Czech
Analýza a zpracování textu
Annotation in Czech
S výsledky z výzkumu v oblasti vyhledávání v textu se setkávají denně všichni uživatelé počítačů používající textový editor nebo vyhledávající informace na Internetu. Výchozím bodem naší práce budou aktuální výsledky našeho výzkumu v oblasti vyhledávánía analýzy textu. V oblasti analýzy textu se nyní soustředíme na paralelní překlady, kde nejsou dosud známá ucelená řešení. Dosažené výsledky v oblasti vyhledávání se opírají o jednotný obecný pohled na všechny dosud známé druhy vyhledávacích problémů, což nám často umožňuje odhalit nové vlastnosti a algoritmy též pro další kategorie vyhledávacích problémů. Cíle našeho výzkumu lze rozdělit na ty, na jejichž řešení již pracujeme, a na problémy nové, vyvstávající z oblastí jako zpracování obrazu či analýzaDNA. Mezi řešené problémy patří např.: LL a LR syntaktická a paralelní syntaktická analýza; přesné a přibližné vyhledávání opakování v textu, vyhledávání v obrázcích, konstrukce a použití faktorových automatů (DAWG, CDAWG) a sufixových polí a
Scientific branches
Completed project evaluation
Provider evaluation
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Project results evaluation
Our project has opened and solved several interesting problems we have proposed to solve: our research in LL parallel syntactic analysis resulted in a deterministic LLP* parser; moreover classes of formal translations that can be done using deterministic
Solution timeline
Realization period - beginning
Jan 1, 2006
Realization period - end
Dec 31, 2008
Project status
U - Finished project
Latest support payment
Apr 25, 2008
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP09-GA0-GA-U/02:2
Data delivery date
Oct 22, 2009
Finance
Total approved costs
1,494 thou. CZK
Public financial support
1,494 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK
Basic information
Recognised costs
1 494 CZK thou.
Public support
1 494 CZK thou.
100%
Provider
Czech Science Foundation
CEP
IN - Informatics
Solution period
01. 01. 2006 - 31. 12. 2008