Extrakce informace z WWW na základě znalosti struktury dat

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F03%3APU42508" target="_blank" >RIV/00216305:26230/03:PU42508 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
čeština
Název v původním jazyce
Extrakce informace z WWW na základě znalosti struktury dat
Popis výsledku v původním jazyce
S rostoucím množstvím dat, která jsou přístupná prostředictvím WWW je stále aktuálnější problém jejich dalšího zpracování, například za účelem jejich integrace do většího informačního celku, nebo za účelem získávání znalostí z těchto dat. Současné techniky automatické extrakce informace z HTML dokumentů ve většině případů vycházejí z předpokladu, že existuje množina dokumentů generovaných stejným způsobem ze společné báze dat. Na základě analýzy této množiny jsou pomocí různých postupů, ať již za asisteence uživatele či automaticky, určena pravidla pro extrakci konkrétních dat z HTML dokumentu. V praxi však tento předpoklad často není splněn, mnoho dokumentů se buď vyskytuje pouze v jedné instanci (např. osobní stránky) nebo podobné dokumenty nejsou generovány zcela identickým způsobem. V tomto příspěvku navrhujeme nový přístup, který je založen na popisu logické struktury obsahu HTML dokumentu pomocí XML. Dále navrhujeme způsob extrakce dat z tohoto popisu pomocí XSL transformace na z
Název v anglickém jazyce
Information Extraction from WWW based on the data structure knowledge
Popis výsledku anglicky
This paper deals with the matter of modelling the logical structure of a Web site and using such model for information extraction. It proposes an algorithm for creating a site model based on the HTML code analysis and a XML/XSL based system for information extraction from this model. Furthermore, the possibility of the usage of tree matching algorithms for automating the extraction process is discussed.

Klasifikace

Druh
D - Stať ve sborníku
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—

Návaznosti výsledku

Projekt
—
Návaznosti
Z - Vyzkumny zamer (s odkazem do CEZ)

Ostatní

Rok uplatnění
2003
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Název statě ve sborníku
Sborník příspěvků 2. ročníku konference Znalosti 2003
ISBN
80-248-0229-5
ISSN
—
e-ISSN
—
Počet stran výsledku
10
Strana od-do
271-280
Název nakladatele
Fakulta elektrotechniky a informatiky, VŠB Technická univerzita Ostrava
Místo vydání
Ostrava
Místo konání akce
Ostrava
Datum konání akce
19. 2. 2003
Typ akce podle státní příslušnosti
CST - Celostátní akce
Kód UT WoS článku
—

Podobné výsledky(10)

Automatické získávání informací o budově z BIM pro moderní řídící algoritmy 3D Polygonal Model Curvature Approximation Based on Local Projections Method Informed FastICA: Semi-Blind Minimum Variance Distortionless Beamformer

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Extrakce informace z WWW na základě znalosti struktury dat

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)