Centrum komputační lingvistiky
Cíle projektu
Centrum se bude věnovat výzkumu češtiny na docela nové úrovni, tj. na základě Českého závislostního korpusu, ve kterém už je k dispozici poloautomatická analýza desítek tisíc vět z textů různého druhu (vypracovaná v Laboratoři pro zprac. jazykových datpři ÚFAL MFF UK), na několika úrovních mluvnické stavby. Jde o výzkum teoretických i aplikačních aspektů komputační lingvistiky se zaměřením na češtinu v podobě psané i mluvené s využitím mimořádně rozsáhlých dat pro podrobný gramatický, sémantický alexikální rozbor a popis češtiny na základě strukturních a statistických postupů (matematické a výpočetní základy, metody a algoritmy komputační lingvistiky, metody učení z dat, stochastické i založené na pravidlech). Pozornost bude věnována i zpracovánívíce jazyků pro vyhled. informací ve vícejaz. textech a strojový překlad. Mezinárodní dlouhodobá spolupráce: John Hopkins Univ., Baltimore, Univ. of Pennsylvania, Phil., USA, univerzity v Hamburku, v Saarbrückenu, v Pise, v Edinburghu a INALCO v Paříži.
Klíčová slova
formal and computational linguisticsCzech Dependency Corpusnatural language processingwritten and spoken languagestochastic methodsrule-based methodsmachine learningmachine translation
Veřejná podpora
Poskytovatel
Ministerstvo školství, mládeže a tělovýchovy
Program
Výzkumná centra
Veřejná soutěž
SMSM0031008
Hlavní účastníci
Univerzita Karlova / Matematicko-fyzikální fakulta
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
—
Alternativní jazyk
Název projektu anglicky
Centre of Computational Linguistics
Anotace anglicky
The aim of the Centre is research of written and spoken Czech on a quite new level, made possible by the Czech Dependency Bank, in which the Language Data Laboratory at MFF UK has prepared a manysided semi-automatic analysis of tens of thousands sentences form texts of different kinds. This research, aiming at theoretical and applicational aspects of Computational Linguistics, based on extraordinary large data set, aims at a detailed grammatical, semantic and lexical analysis and description of Czech, using structural and statistical procedures (mathematical and computational foundations, methods and algorithms, machine learning on stochastic and other principles). The results are aplicable in human-computer communication, data mining in multilanguagetexts, machine translation, etc. Longterm international cooperation concerns John Hopkins University (Baltimore), University of Pennsylvania (Philadelfia), universities in Hamburg, Saarbrücken, Pisa, Edinburgh, and INALCO (Paris).
Vědní obory
Kategorie VaV
NV - Neprůmyslový výzkum (aplikovaný výzkum s výjimkou průmyslového)
CEP - hlavní obor
AI - Jazykověda
CEP - vedlejší obor
AF - Dokumentace, knihovnictví, práce s informacemi
CEP - další vedlejší obor
BD - Teorie informace
OECD FORD - odpovídající obory
(dle převodníku)10102 - Applied mathematics
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
50803 - Information science (social aspects)
50804 - Library science
60201 - General language studies
60202 - Specific languages
60203 - Linguistics
Hodnocení dokončeného projektu
Hodnocení poskytovatelem
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Zhodnocení výsledků projektu
Centrum komputacni lingvistiky integrovalo lidske a technicke zdroje pro pocitacove zpracovani mluveneho i psaneho jazyka, vyvinulo databaze, algoritmy a pocitacovy software pro analyzu a syntezu cestiny, anglictiny i další
Termíny řešení
Zahájení řešení
1. 1. 2000
Ukončení řešení
1. 1. 2004
Poslední stav řešení
U - Ukončený projekt
Poslední uvolnění podpory
—
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP/2005/MSM/MSM5LN/U/N/4:2
Datum dodání záznamu
28. 5. 2008
Finance
Celkové uznané náklady
132 626 tis. Kč
Výše podpory ze státního rozpočtu
97 895 tis. Kč
Ostatní veřejné zdroje financování
0 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
34 731 tis. Kč
Základní informace
Uznané náklady
132 626 tis. Kč
Statní podpora
97 895 tis. Kč
73%
Poskytovatel
Ministerstvo školství, mládeže a tělovýchovy
CEP
AI - Jazykověda
Doba řešení
01. 01. 2000 - 01. 01. 2004