Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Velké jazykové korpusy a jejich automatická analýza

Veřejná podpora

  • Poskytovatel

    Grantová agentura České republiky

  • Program

    Standardní projekty

  • Veřejná soutěž

    Standardní projekty 2 (SGA02003GA-ST)

  • Hlavní účastníci

    Univerzita Karlova / Matematicko-fyzikální fakulta

  • Druh soutěže

    VS - Veřejná soutěž

  • Číslo smlouvy

Alternativní jazyk

  • Název projektu anglicky

    Very Large Language Corpora and Their Automatic Analysis

  • Anotace anglicky

    Language corpora are an indispensable part of current linguistic research. They are used for various purposes, from simple lookup for particular words to sophisticated use for automatic computer training in statistical language modeling or automaticanalysis at various levels performed fully automatically on a computer. Usability of both monolingual as well as multilingual and spoken language corpora is substantially enhanced if the language material contained in them is linguistically analyzed.Annotation can reflect both the form and the function of linguistic units in their context. The primary goal of the project is to enhance our understanding of the natural language system in general and Czech in particular, and to develop and/or enhancestatisticalmachine learning and symbolical methods (and their combinations) in order to be able to automatically analyze large quantities of naturally occurring texts, whether they are written or spoken. Results of previous projects in the field will be

Vědní obory

  • Kategorie VaV

    ZV - Základní výzkum

  • CEP - hlavní obor

    AI - Jazykověda

  • CEP - vedlejší obor

    JD - Využití počítačů, robotika a její aplikace

  • CEP - další vedlejší obor

  • OECD FORD - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)

    20204 - Robotics and automatic control<br>20205 - Automation and control systems<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics

Hodnocení dokončeného projektu

  • Hodnocení poskytovatelem

    V - Vynikající výsledky projektu (s mezinárodním významem atd.)

  • Zhodnocení výsledků projektu

    Cíle projektu byly beze zbytku splněny. Výsledkem projektu je kromě více než 25 publikací řada softwarových nástrojů pro zpracování textových korpusů. Tyto textové korpusy jsou veřejně přístupné. Jde o korpusy češtiny i dalších jazyků, a to včetně parale

Termíny řešení

  • Zahájení řešení

    1. 1. 2003

  • Ukončení řešení

    1. 1. 2005

  • Poslední stav řešení

    U - Ukončený projekt

  • Poslední uvolnění podpory

Dodání dat do CEP

  • Důvěrnost údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Systémové označení dodávky dat

    CEP06-GA0-GA-U/07:6

  • Datum dodání záznamu

    15. 1. 2009

Finance

  • Celkové uznané náklady

    13 362 tis. Kč

  • Výše podpory ze státního rozpočtu

    6 982 tis. Kč

  • Ostatní veřejné zdroje financování

    6 380 tis. Kč

  • Neveřejné tuz. a zahr. zdroje finan.

    0 tis. Kč