Obecné čištění webových stránek
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F16%3A43929926" target="_blank" >RIV/49777513:23520/16:43929926 - isvavai.cz</a>
Výsledek na webu
<a href="http://hdl.handle.net/11025/21385" target="_blank" >http://hdl.handle.net/11025/21385</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Obecné čištění webových stránek
Popis výsledku v původním jazyce
Webové stránky představují velmi bohatý zdroj dat v podobě textu, jenž může být dále využit na různé úlohy NLP (přirozeného zpracování jazyka) a to hlavně na jazykové modelování. Největším problémem tohoto zdroje je, že webové stránky obsahují kromě pro nás užitečného textu i velké množství šumu (např. odkazy, obrázky). Bylo by velmi vhodné, kdyby se daly tyto data získat automaticky, protože pro člověka je to sice triviální úkol, ale s množstvím webových stránek zároveň i velmi časově náročný (spíše nemožný). Pro tento úkol byl navržen obecný čistící algoritmus jenž bude pracovat automaticky. U toho algoritmu se probere též pokrok oproti minulému roku a bude porovnán s již hotovým algoritmem.
Název v anglickém jazyce
General cleaning of websites
Popis výsledku anglicky
Websites represent a very rich source of data in the form of text, which can be further used for various NLP (natural language processing) tasks, mainly for language modeling. The biggest problem with this resource is that the website contains a lot of noise (eg links, images) in addition to useful text for us. It would be very convenient if this data could be obtained automatically, because it is a trivial task for a human, but at the same time very time-consuming (rather impossible) with the number of websites. A general cleaning algorithm was designed for this task, which will work automatically. For that algorithm, the progress compared to last year will also be discussed and will be compared with the already completed algorithm.
Klasifikace
Druh
O - Ostatní výsledky
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
—
Návaznosti
S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2016
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů