All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

General cleaning of websites

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F16%3A43929926" target="_blank" >RIV/49777513:23520/16:43929926 - isvavai.cz</a>

  • Result on the web

    <a href="http://hdl.handle.net/11025/21385" target="_blank" >http://hdl.handle.net/11025/21385</a>

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    čeština

  • Original language name

    Obecné čištění webových stránek

  • Original language description

    Webové stránky představují velmi bohatý zdroj dat v podobě textu, jenž může být dále využit na různé úlohy NLP (přirozeného zpracování jazyka) a to hlavně na jazykové modelování. Největším problémem tohoto zdroje je, že webové stránky obsahují kromě pro nás užitečného textu i velké množství šumu (např. odkazy, obrázky). Bylo by velmi vhodné, kdyby se daly tyto data získat automaticky, protože pro člověka je to sice triviální úkol, ale s množstvím webových stránek zároveň i velmi časově náročný (spíše nemožný). Pro tento úkol byl navržen obecný čistící algoritmus jenž bude pracovat automaticky. U toho algoritmu se probere též pokrok oproti minulému roku a bude porovnán s již hotovým algoritmem.

  • Czech name

    Obecné čištění webových stránek

  • Czech description

    Webové stránky představují velmi bohatý zdroj dat v podobě textu, jenž může být dále využit na různé úlohy NLP (přirozeného zpracování jazyka) a to hlavně na jazykové modelování. Největším problémem tohoto zdroje je, že webové stránky obsahují kromě pro nás užitečného textu i velké množství šumu (např. odkazy, obrázky). Bylo by velmi vhodné, kdyby se daly tyto data získat automaticky, protože pro člověka je to sice triviální úkol, ale s množstvím webových stránek zároveň i velmi časově náročný (spíše nemožný). Pro tento úkol byl navržen obecný čistící algoritmus jenž bude pracovat automaticky. U toho algoritmu se probere též pokrok oproti minulému roku a bude porovnán s již hotovým algoritmem.

Classification

  • Type

    O - Miscellaneous

  • CEP classification

  • OECD FORD branch

    20205 - Automation and control systems

Result continuities

  • Project

  • Continuities

    S - Specificky vyzkum na vysokych skolach

Others

  • Publication year

    2016

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů