Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Obecné čištění webových stránek

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F16%3A43929926" target="_blank" >RIV/49777513:23520/16:43929926 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://hdl.handle.net/11025/21385" target="_blank" >http://hdl.handle.net/11025/21385</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Obecné čištění webových stránek

  • Popis výsledku v původním jazyce

    Webové stránky představují velmi bohatý zdroj dat v podobě textu, jenž může být dále využit na různé úlohy NLP (přirozeného zpracování jazyka) a to hlavně na jazykové modelování. Největším problémem tohoto zdroje je, že webové stránky obsahují kromě pro nás užitečného textu i velké množství šumu (např. odkazy, obrázky). Bylo by velmi vhodné, kdyby se daly tyto data získat automaticky, protože pro člověka je to sice triviální úkol, ale s množstvím webových stránek zároveň i velmi časově náročný (spíše nemožný). Pro tento úkol byl navržen obecný čistící algoritmus jenž bude pracovat automaticky. U toho algoritmu se probere též pokrok oproti minulému roku a bude porovnán s již hotovým algoritmem.

  • Název v anglickém jazyce

    General cleaning of websites

  • Popis výsledku anglicky

    Websites represent a very rich source of data in the form of text, which can be further used for various NLP (natural language processing) tasks, mainly for language modeling. The biggest problem with this resource is that the website contains a lot of noise (eg links, images) in addition to useful text for us. It would be very convenient if this data could be obtained automatically, because it is a trivial task for a human, but at the same time very time-consuming (rather impossible) with the number of websites. A general cleaning algorithm was designed for this task, which will work automatically. For that algorithm, the progress compared to last year will also be discussed and will be compared with the already completed algorithm.

Klasifikace

  • Druh

    O - Ostatní výsledky

  • CEP obor

  • OECD FORD obor

    20205 - Automation and control systems

Návaznosti výsledku

  • Projekt

  • Návaznosti

    S - Specificky vyzkum na vysokych skolach

Ostatní

  • Rok uplatnění

    2016

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů