Velké jazykové korpusy a jejich automatická analýza
Veřejná podpora
Poskytovatel
Grantová agentura České republiky
Program
Standardní projekty
Veřejná soutěž
Standardní projekty 2 (SGA02003GA-ST)
Hlavní účastníci
Univerzita Karlova / Matematicko-fyzikální fakulta
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
—
Alternativní jazyk
Název projektu anglicky
Very Large Language Corpora and Their Automatic Analysis
Anotace anglicky
Language corpora are an indispensable part of current linguistic research. They are used for various purposes, from simple lookup for particular words to sophisticated use for automatic computer training in statistical language modeling or automaticanalysis at various levels performed fully automatically on a computer. Usability of both monolingual as well as multilingual and spoken language corpora is substantially enhanced if the language material contained in them is linguistically analyzed.Annotation can reflect both the form and the function of linguistic units in their context. The primary goal of the project is to enhance our understanding of the natural language system in general and Czech in particular, and to develop and/or enhancestatisticalmachine learning and symbolical methods (and their combinations) in order to be able to automatically analyze large quantities of naturally occurring texts, whether they are written or spoken. Results of previous projects in the field will be
Vědní obory
Kategorie VaV
ZV - Základní výzkum
CEP - hlavní obor
AI - Jazykověda
CEP - vedlejší obor
JD - Využití počítačů, robotika a její aplikace
CEP - další vedlejší obor
—
OECD FORD - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
20204 - Robotics and automatic control<br>20205 - Automation and control systems<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Hodnocení dokončeného projektu
Hodnocení poskytovatelem
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Zhodnocení výsledků projektu
Cíle projektu byly beze zbytku splněny. Výsledkem projektu je kromě více než 25 publikací řada softwarových nástrojů pro zpracování textových korpusů. Tyto textové korpusy jsou veřejně přístupné. Jde o korpusy češtiny i dalších jazyků, a to včetně parale
Termíny řešení
Zahájení řešení
1. 1. 2003
Ukončení řešení
1. 1. 2005
Poslední stav řešení
U - Ukončený projekt
Poslední uvolnění podpory
—
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP06-GA0-GA-U/07:6
Datum dodání záznamu
15. 1. 2009
Finance
Celkové uznané náklady
13 362 tis. Kč
Výše podpory ze státního rozpočtu
6 982 tis. Kč
Ostatní veřejné zdroje financování
6 380 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč