Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Extrakce informace z WWW na základě znalosti struktury dat

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F03%3APU42508" target="_blank" >RIV/00216305:26230/03:PU42508 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Extrakce informace z WWW na základě znalosti struktury dat

  • Popis výsledku v původním jazyce

    S rostoucím množstvím dat, která jsou přístupná prostředictvím WWW je stále aktuálnější problém jejich dalšího zpracování, například za účelem jejich integrace do většího informačního celku, nebo za účelem získávání znalostí z těchto dat. Současné techniky automatické extrakce informace z HTML dokumentů ve většině případů vycházejí z předpokladu, že existuje množina dokumentů generovaných stejným způsobem ze společné báze dat. Na základě analýzy této množiny jsou pomocí různých postupů, ať již za asisteence uživatele či automaticky, určena pravidla pro extrakci konkrétních dat z HTML dokumentu. V praxi však tento předpoklad často není splněn, mnoho dokumentů se buď vyskytuje pouze v jedné instanci (např. osobní stránky) nebo podobné dokumenty nejsou generovány zcela identickým způsobem. V tomto příspěvku navrhujeme nový přístup, který je založen na popisu logické struktury obsahu HTML dokumentu pomocí XML. Dále navrhujeme způsob extrakce dat z tohoto popisu pomocí XSL transformace na z

  • Název v anglickém jazyce

    Information Extraction from WWW based on the data structure knowledge

  • Popis výsledku anglicky

    This paper deals with the matter of modelling the logical structure of a Web site and using such model for information extraction. It proposes an algorithm for creating a site model based on the HTML code analysis and a XML/XSL based system for information extraction from this model. Furthermore, the possibility of the usage of tree matching algorithms for automating the extraction process is discussed.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    JC - Počítačový hardware a software

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

  • Návaznosti

    Z - Vyzkumny zamer (s odkazem do CEZ)

Ostatní

  • Rok uplatnění

    2003

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Sborník příspěvků 2. ročníku konference Znalosti 2003

  • ISBN

    80-248-0229-5

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    10

  • Strana od-do

    271-280

  • Název nakladatele

    Fakulta elektrotechniky a informatiky, VŠB Technická univerzita Ostrava

  • Místo vydání

    Ostrava

  • Místo konání akce

    Ostrava

  • Datum konání akce

    19. 2. 2003

  • Typ akce podle státní příslušnosti

    CST - Celostátní akce

  • Kód UT WoS článku