Hierarchies in HTML Documents: Linking Text to Concepts
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F04%3APU49210" target="_blank" >RIV/00216305:26230/04:PU49210 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
angličtina
Original language name
Hierarchies in HTML Documents: Linking Text to Concepts
Original language description
For the successful setting of the Semantic Web, it is necessary to provide tools for linking the large amounts of data that are currently available in HTML documents to the Semantic Web ontologies. Due to the enormous variability of the HTML code, it isvery limiting to define direct bindings between patterns of the HTML code and the concepts. We propose an approach based on modeling the visual part of the rendered document and describing the key characteristics of the data presentation in a general wayy. As a next step, we propose the way for using this model for locating the instances of the concepts in the document using the approximate tree matching algorithms and regular expressions.
Czech name
Hierarchie v HTML dokumentech: Přiřazování textu ke konceptům
Czech description
Pro úspěšné nasazení sémantického webu je nezbytné zajistit nástroje pro přiřazování velkých objemů dat, která jsou v současnosti dostupná v dokumentech HTML, k ontologiím sémantického webu. Vzhledem ke značné variabilitě kódu HTML je velmi omezující definovat přímé vazby mezi konkrétními vzory HTML kódu a jednotlivými koncepty. Navrhujeme proto přístup založený na modelování vizuální stránky dokumentů a na obecném popisu klíčových charakteristik vizuální prezentace dat. Jako další krok navrhujeme způsoob využití tohoto modelu pro vyhledávání instancí konceptů v dokumentech s použitím algoritmů pro přibližné vyhledávání podstromů a regulárních výrazů.
Classification
Type
D - Article in proceedings
CEP classification
JC - Computer hardware and software
OECD FORD branch
—
Result continuities
Project
—
Continuities
Z - Vyzkumny zamer (s odkazem do CEZ)
Others
Publication year
2004
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Article name in the collection
15th International Workshop on Database and Expert Systems Applications
ISBN
0-7695-2195-9
ISSN
—
e-ISSN
—
Number of pages
5
Pages from-to
186-190
Publisher name
IEEE Computer Society
Place of publication
Zaragoza
Event location
Zaragoza
Event date
Aug 30, 2004
Type of event by nationality
WRD - Celosvětová akce
UT code for WoS article
—