Čištění zpravodajských webových stránek
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F15%3A43926589" target="_blank" >RIV/49777513:23520/15:43926589 - isvavai.cz</a>
Výsledek na webu
<a href="http://hdl.handle.net/11025/21321" target="_blank" >http://hdl.handle.net/11025/21321</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Čištění zpravodajských webových stránek
Popis výsledku v původním jazyce
Nejvíce používaná možnost publikování informací jsou webové stránky, kde je obsaženo ohromné množství snadno dostupného gramaticky správného textu. Hlavní důvod, proč čistit zpravodajské webové stránky, je vytvořit jazykové modely. Samozřejmě aby se jazykové modely nemuseli vytvářet manuálně, je vhodné tento proces zautomatizovat. Tedy bude uvedena jedna možnost (algoritmus) pro automatické čištění. Dále také dvě možnosti ohodnocení výsledků tohoto algoritmu.
Název v anglickém jazyce
Cleaning news websites
Popis výsledku anglicky
The most widely used option for publishing information is web pages, which contain a vast amount of easily accessible, grammatically correct text. The main reason to clean news websites is to create language models. Of course, so that language models do not have to be created manually, it is advisable to automate this process. Thus, one option (algorithm) for automatic cleaning will be presented. There are also two options for evaluating the results of this algorithm.
Klasifikace
Druh
O - Ostatní výsledky
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
—
Návaznosti
S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2015
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů