Cleaning news websites
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F15%3A43926589" target="_blank" >RIV/49777513:23520/15:43926589 - isvavai.cz</a>
Result on the web
<a href="http://hdl.handle.net/11025/21321" target="_blank" >http://hdl.handle.net/11025/21321</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Čištění zpravodajských webových stránek
Original language description
Nejvíce používaná možnost publikování informací jsou webové stránky, kde je obsaženo ohromné množství snadno dostupného gramaticky správného textu. Hlavní důvod, proč čistit zpravodajské webové stránky, je vytvořit jazykové modely. Samozřejmě aby se jazykové modely nemuseli vytvářet manuálně, je vhodné tento proces zautomatizovat. Tedy bude uvedena jedna možnost (algoritmus) pro automatické čištění. Dále také dvě možnosti ohodnocení výsledků tohoto algoritmu.
Czech name
Čištění zpravodajských webových stránek
Czech description
Nejvíce používaná možnost publikování informací jsou webové stránky, kde je obsaženo ohromné množství snadno dostupného gramaticky správného textu. Hlavní důvod, proč čistit zpravodajské webové stránky, je vytvořit jazykové modely. Samozřejmě aby se jazykové modely nemuseli vytvářet manuálně, je vhodné tento proces zautomatizovat. Tedy bude uvedena jedna možnost (algoritmus) pro automatické čištění. Dále také dvě možnosti ohodnocení výsledků tohoto algoritmu.
Classification
Type
O - Miscellaneous
CEP classification
—
OECD FORD branch
20205 - Automation and control systems
Result continuities
Project
—
Continuities
S - Specificky vyzkum na vysokych skolach
Others
Publication year
2015
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů