Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Internet jako jazykový korpus

Veřejná podpora

  • Poskytovatel

    Grantová agentura České republiky

  • Program

    Standardní projekty

  • Veřejná soutěž

    Standardní projekty 12 (SGA02009GA-ST)

  • Hlavní účastníci

  • Druh soutěže

    VS - Veřejná soutěž

  • Číslo smlouvy

    405/09/0278

Alternativní jazyk

  • Název projektu anglicky

    Internet as a language corpus

  • Anotace anglicky

    Sufficient amounts of language data (text corpora) are absolutely essential for methods of computational linguistics and natural language processing. Rapid development of computer technology allows processing of much larger datasets than before. However,such data is not available. Currently, the largest Czech corpora contaion at most hundreds of millions of tokens (Czech national corpus), which is for many methods not sufficient. Building text corpora is time-consuming and expensive process and can notpossibly satisfy needs of current research in the field. The proposed project aims to build a text corpus at least ten times larger than currently available corpora with incomparably lower expenses. The corpus will be build from data publicly availableon the internet. Automatically downloaded data will be filtered, cleaned up and linguistically processed. Language quality of such corpus will be, due to completely automatic processing, lower compared to quality of classical corpora, but its significantadvantage will be size.

Vědní obory

  • Kategorie VaV

    ZV - Základní výzkum

  • CEP - hlavní obor

    JD - Využití počítačů, robotika a její aplikace

  • CEP - vedlejší obor

    IN - Informatika

  • CEP - další vedlejší obor

  • OECD FORD - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)<br>20204 - Robotics and automatic control<br>20205 - Automation and control systems

Hodnocení dokončeného projektu

  • Hodnocení poskytovatelem

    V - Vynikající výsledky projektu (s mezinárodním významem atd.)

  • Zhodnocení výsledků projektu

    Řešení projektu proběhlo výtečně, jak z hlediska odborného tak i z hlediska čerpání finančních prostředků.

Termíny řešení

  • Zahájení řešení

    1. 1. 2009

  • Ukončení řešení

    31. 12. 2011

  • Poslední stav řešení

    U - Ukončený projekt

  • Poslední uvolnění podpory

    16. 4. 2011

Dodání dat do CEP

  • Důvěrnost údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Systémové označení dodávky dat

    CEP12-GA0-GA-U/02:2

  • Datum dodání záznamu

    2. 5. 2016

Finance

  • Celkové uznané náklady

    2 608 tis. Kč

  • Výše podpory ze státního rozpočtu

    2 608 tis. Kč

  • Ostatní veřejné zdroje financování

    0 tis. Kč

  • Neveřejné tuz. a zahr. zdroje finan.

    0 tis. Kč