AgentMat - framework for data scraping and semantization
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F09%3A00207514" target="_blank" >RIV/00216208:11320/09:00207514 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
AgentMat - framework for data scraping and semantization
Popis výsledku v původním jazyce
Most of the enormous amount of information from the internet is available just like web pages made for a human reader. They don?t have any common interface for accessing, searching or browsing the data. Hence, it?s hard to extract the semantic data fromthe web, categorize them and keep them updated. For this purpose we have designed and implemented a system called AgentMat. This system is designed for efficient extraction of large amount of data from the web pages. AgentMat processing is based on an XML-based language describing the given extraction task in a declarative way. Thanks to this scraping system the raw contents from the irregularly updated and unstructured web pages can be kept categorized and accessed together with the semantic metadata.
Název v anglickém jazyce
AgentMat - framework for data scraping and semantization
Popis výsledku anglicky
Most of the enormous amount of information from the internet is available just like web pages made for a human reader. They don?t have any common interface for accessing, searching or browsing the data. Hence, it?s hard to extract the semantic data fromthe web, categorize them and keep them updated. For this purpose we have designed and implemented a system called AgentMat. This system is designed for efficient extraction of large amount of data from the web pages. AgentMat processing is based on an XML-based language describing the given extraction task in a declarative way. Thanks to this scraping system the raw contents from the irregularly updated and unstructured web pages can be kept categorized and accessed together with the semantic metadata.
Klasifikace
Druh
R - Software
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—
Návaznosti výsledku
Projekt
—
Návaznosti
Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2009
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
KSI-2009-03R
Technické parametry
Neuveden
Ekonomické parametry
—
IČO vlastníka výsledku
00216208
Název vlastníka
MFF