Information Extraction from WWW based on the data structure knowledge
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F03%3APU42508" target="_blank" >RIV/00216305:26230/03:PU42508 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Extrakce informace z WWW na základě znalosti struktury dat
Original language description
S rostoucím množstvím dat, která jsou přístupná prostředictvím WWW je stále aktuálnější problém jejich dalšího zpracování, například za účelem jejich integrace do většího informačního celku, nebo za účelem získávání znalostí z těchto dat. Současné techniky automatické extrakce informace z HTML dokumentů ve většině případů vycházejí z předpokladu, že existuje množina dokumentů generovaných stejným způsobem ze společné báze dat. Na základě analýzy této množiny jsou pomocí různých postupů, ať již za asisteence uživatele či automaticky, určena pravidla pro extrakci konkrétních dat z HTML dokumentu. V praxi však tento předpoklad často není splněn, mnoho dokumentů se buď vyskytuje pouze v jedné instanci (např. osobní stránky) nebo podobné dokumenty nejsou generovány zcela identickým způsobem. V tomto příspěvku navrhujeme nový přístup, který je založen na popisu logické struktury obsahu HTML dokumentu pomocí XML. Dále navrhujeme způsob extrakce dat z tohoto popisu pomocí XSL transformace na z
Czech name
Extrakce informace z WWW na základě znalosti struktury dat
Czech description
—
Classification
Type
D - Article in proceedings
CEP classification
JC - Computer hardware and software
OECD FORD branch
—
Result continuities
Project
—
Continuities
Z - Vyzkumny zamer (s odkazem do CEZ)
Others
Publication year
2003
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Article name in the collection
Sborník příspěvků 2. ročníku konference Znalosti 2003
ISBN
80-248-0229-5
ISSN
—
e-ISSN
—
Number of pages
10
Pages from-to
271-280
Publisher name
Fakulta elektrotechniky a informatiky, VŠB Technická univerzita Ostrava
Place of publication
Ostrava
Event location
Ostrava
Event date
Feb 19, 2003
Type of event by nationality
CST - Celostátní akce
UT code for WoS article
—