Velké jazykové korpusy a jejich automatická analýza

Název projektu anglicky
Very Large Language Corpora and Their Automatic Analysis
Anotace anglicky
Language corpora are an indispensable part of current linguistic research. They are used for various purposes, from simple lookup for particular words to sophisticated use for automatic computer training in statistical language modeling or automaticanalysis at various levels performed fully automatically on a computer. Usability of both monolingual as well as multilingual and spoken language corpora is substantially enhanced if the language material contained in them is linguistically analyzed.Annotation can reflect both the form and the function of linguistic units in their context. The primary goal of the project is to enhance our understanding of the natural language system in general and Czech in particular, and to develop and/or enhancestatisticalmachine learning and symbolical methods (and their combinations) in order to be able to automatically analyze large quantities of naturally occurring texts, whether they are written or spoken. Results of previous projects in the field will be

Kategorie VaV
ZV - Základní výzkum
CEP - hlavní obor
AI - Jazykověda
CEP - vedlejší obor
JD - Využití počítačů, robotika a její aplikace
CEP - další vedlejší obor
—
OECD FORD - odpovídající obory (dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
20204 - Robotics and automatic control 20205 - Automation and control systems 60201 - General language studies 60202 - Specific languages 60203 - Linguistics

Hodnocení poskytovatelem
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Zhodnocení výsledků projektu
Cíle projektu byly beze zbytku splněny. Výsledkem projektu je kromě více než 25 publikací řada softwarových nástrojů pro zpracování textových korpusů. Tyto textové korpusy jsou veřejně přístupné. Jde o korpusy češtiny i dalších jazyků, a to včetně parale

Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP06-GA0-GA-U/07:6
Datum dodání záznamu
15. 1. 2009

Podobné projekty(10)