Deep Neural Networks for Web Page Information Extraction
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F16%3A00303112" target="_blank" >RIV/68407700:21230/16:00303112 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/68407700:21730/16:00303112
Výsledek na webu
<a href="http://link.springer.com/chapter/10.1007/978-3-319-44944-9_14" target="_blank" >http://link.springer.com/chapter/10.1007/978-3-319-44944-9_14</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-319-44944-9_14" target="_blank" >10.1007/978-3-319-44944-9_14</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Deep Neural Networks for Web Page Information Extraction
Popis výsledku v původním jazyce
Web wrappers are systems for extracting structured information from web pages. Currently, wrappers need to be adapted to a particular website template before they can start the extraction process. In this work we present a new method, which uses convolutional neural networks to learn a wrapper that can extract information from previously unseen templates. Therefore, this wrapper does not need any site-specific initialization and is able to extract information from a single web page. We also propose a method for spatial text encoding, which allows us to encode visual and textual content of a web page into a single neural net. The first experiments with product information extraction showed very promising results and suggest that this approach can lead to a general site-independent web wrapper.
Název v anglickém jazyce
Deep Neural Networks for Web Page Information Extraction
Popis výsledku anglicky
Web wrappers are systems for extracting structured information from web pages. Currently, wrappers need to be adapted to a particular website template before they can start the extraction process. In this work we present a new method, which uses convolutional neural networks to learn a wrapper that can extract information from previously unseen templates. Therefore, this wrapper does not need any site-specific initialization and is able to extract information from a single web page. We also propose a method for spatial text encoding, which allows us to encode visual and textual content of a web page into a single neural net. The first experiments with product information extraction showed very promising results and suggest that this approach can lead to a general site-independent web wrapper.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—
Návaznosti výsledku
Projekt
—
Návaznosti
S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2016
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Artificial Intelligence Applications and Innovations
ISBN
978-3-319-44943-2
ISSN
1868-4238
e-ISSN
—
Počet stran výsledku
10
Strana od-do
154-163
Název nakladatele
Springer International Publishing
Místo vydání
Cham
Místo konání akce
Thessaloniki
Datum konání akce
16. 9. 2016
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000392413700014