HTML Document Analysis for Information Extraction
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F02%3APU36205" target="_blank" >RIV/00216305:26230/02:PU36205 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
angličtina
Original language name
HTML Document Analysis for Information Extraction
Original language description
The today's World Wide Web contains a vast amount of information stored in HTML documents. However, the HTML language primarily describes the look of the documents and it doesn't contain facilities for the description of contained data structure. In thispaper we propose a model of a Web site that describes logical structure of contained data. Furthermore, we propose methods for creating such a model by analyzing the look and the structure of HTML documents.
Czech name
Analýza HTML dokumentů pro extrakci informace
Czech description
Současný World Wide Web obsahuje obrovské množství informací obsažených v dokumentech HTML. Jazyk HTML ovšem popisuje především vzhled dokumentů a neobsahuje prostředky pro popis struktury obsažených dat. V tomto příspěvku navrhujeme model webového místa, který popisuje logickou strukturu obsahu. Dále navrhujeme metody pro vytvoření tohoto modelu na základě analýzy vzhledu a struktury HTML dokumentů.
Classification
Type
D - Article in proceedings
CEP classification
JC - Computer hardware and software
OECD FORD branch
—
Result continuities
Project
—
Continuities
Z - Vyzkumny zamer (s odkazem do CEZ)
Others
Publication year
2002
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Article name in the collection
Proceedings of 8th EEICT conference
ISBN
80-214-2116-9
ISSN
—
e-ISSN
—
Number of pages
5
Pages from-to
426-430
Publisher name
Faculty of Information Technology BUT
Place of publication
Brno
Event location
FEKT VUT Brno
Event date
Apr 25, 2002
Type of event by nationality
CST - Celostátní akce
UT code for WoS article
—