AgentMat: Framework for Data Scraping and Semantization
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F09%3A00207431" target="_blank" >RIV/00216208:11320/09:00207431 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
AgentMat: Framework for Data Scraping and Semantization
Popis výsledku v původním jazyce
Most of the enormous amount of information from the internet is available just like web pages made for a human reader. They don?t have any common interface for accessing, searching or browsing the data. Hence, it?s hard to extract the semantic data fromthe web, categorize them and keep them updated. For this purpose we have designed and implemented a system called AgentMat. This system is designed for efficient extraction of large amount of data from the web pages. AgentMat processing is based on an XML-based language describing the given extraction task in a declarative way. Thanks to this scraping system the raw contents from the irregularly updated and unstructured web pages can be kept categorized and accessed together with the semantic metadata.
Název v anglickém jazyce
AgentMat: Framework for Data Scraping and Semantization
Popis výsledku anglicky
Most of the enormous amount of information from the internet is available just like web pages made for a human reader. They don?t have any common interface for accessing, searching or browsing the data. Hence, it?s hard to extract the semantic data fromthe web, categorize them and keep them updated. For this purpose we have designed and implemented a system called AgentMat. This system is designed for efficient extraction of large amount of data from the web pages. AgentMat processing is based on an XML-based language describing the given extraction task in a declarative way. Thanks to this scraping system the raw contents from the irregularly updated and unstructured web pages can be kept categorized and accessed together with the semantic metadata.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—
Návaznosti výsledku
Projekt
—
Návaznosti
Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2009
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
3rd International Conference on Research Challenges in Information Science
ISBN
978-1-4244-2864-9
ISSN
—
e-ISSN
—
Počet stran výsledku
12
Strana od-do
—
Název nakladatele
IEEE Computer Society Press
Místo vydání
Fez, Morocco
Místo konání akce
Fez, Morocco
Datum konání akce
1. 1. 2009
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000271860800025