Methods for efficient searching in large collections of semi-structured data
Project goals
The mark-up language XML (Extensible Mark-up Language) has become a standard for description of the semi-structured data. The XML is a tool for exchange of data, presentation of documents on the Web and so on. From database point of view XML is recentlyunderstood as a new approach to data modelling. Implementation of a system enabling us to store and query XML documents efficiently (so called native XML databases) requires a development of new techniques. An XML document is usually modelled as a graphthe nodes of which correspond to XML elements and attributes. To obtain specified data from an XML database a number of special query languages have been developed. A common feature of these languages is a possibility to formulate paths in the XML graph.Conventional approaches through the conventional database languages SQL or OQL fail or they are not too efficient. Recently there are several approaches to indexing XML or, more general, semi-structured data. The most of the approaches solve only small
Keywords
Public support
Provider
Czech Science Foundation
Programme
Post-graduate (doctorate) grants
Call for proposals
Postdoktorandské granty 6 (SGA02006GA1PD)
Main participants
—
Contest type
VS - Public tender
Contract ID
201/06/P113
Alternative language
Project name in Czech
Metody pro efektivní vyhledávání v rozsáhlých kolekcích slabě strukturovaných dat
Annotation in Czech
Značkovací jazyk XML (Extensible Markup Language) přinesl formalizovaný nástroj pro popis slabě strukturovaných dat. XML může sloužit jako prostředek pro výměnu dat, prezentaci dokumentů v prostředí Internetu apod. Z pohledu databázové technologie můžemeXML chápat jako jazyk pro modelování dat. Implementace systémů vhodných pro efektivní uložení a dotazování XML dokumentů (tzv. nativní XML databáze) vyžaduje vývoj nových technik. XML dokument může být modelován jako graf a XML dotazovací jazyky umožňujíprocházet tímto grafem zadáním výrazu cesty. Jelikož cesty je možné specifikovat regulárním výrazem, popř. mohou být použity další komplikovanější dotazy, je použití stávajících databázových přístupů pro vykonávání takových dotazů neefektivní. V současnosti bylo vyvinuto několik přístupů pro indexování XML dat. Většina přístupů se snaží efektivně vykonávat poměrně malou část zvoleného dotazovacího jazyka, navíc některé přístupy nelze použít pro indexování velkých objemů XML dat. Cílem
Scientific branches
Completed project evaluation
Provider evaluation
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Project results evaluation
The main task of this project was a development of methods for searching XML data. Results were published at five international conferences: two conferences with proceedings in ACM, one in Springer, one in IEEE CS, one in IADIS digital library, and more
Solution timeline
Realization period - beginning
Jan 1, 2006
Realization period - end
Dec 31, 2008
Project status
U - Finished project
Latest support payment
Apr 25, 2008
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP09-GA0-GP-U/03:3
Data delivery date
Jan 22, 2015
Finance
Total approved costs
693 thou. CZK
Public financial support
693 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK
Basic information
Recognised costs
693 CZK thou.
Public support
693 CZK thou.
100%
Provider
Czech Science Foundation
CEP
IN - Informatics
Solution period
01. 01. 2006 - 31. 12. 2008