Integrace jazykových zdrojů za účelem extrakce informací z přirozených textů
Veřejná podpora
Poskytovatel
Akademie věd České republiky
Program
Informační společnost (Národní program výzkumu)
Veřejná soutěž
Informační společnost 2 (SAV02005-IS)
Hlavní účastníci
—
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
1ET101120503
Alternativní jazyk
Název projektu anglicky
Integration of language resources for information extraction from natural texts
Anotace anglicky
The project "Integration of Language Resources for Information Extraction from Natural Texts" focuses on the problem of current heterogeneity of language data intended for linguistic research. The result of the project will be a unified system for storing and using language resources together with robust tools enabling effective text processing. All the available language resources will be converted into the new system. The project is concerned also with detection and classification of "named entities"in Czech texts, a subject not yet resolved for the Czech language. Its inclusion into the unified data system will improve results of automatic language processing, especially in the field of information retrieval from large text databases.
Vědní obory
Kategorie VaV
NV - Neprůmyslový výzkum (aplikovaný výzkum s výjimkou průmyslového)
CEP - hlavní obor
AI - Jazykověda
CEP - vedlejší obor
IN - Informatika
CEP - další vedlejší obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)<br>20204 - Robotics and automatic control<br>20205 - Automation and control systems<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Hodnocení dokončeného projektu
Hodnocení poskytovatelem
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Zhodnocení výsledků projektu
Rozpoznávač pojmenovaných entit; ručně anotované korpusy pro vývoj a testování; digitalizace lístkového katalogu onomastického archivu ÚJČ; návrh obecného jednotného formátu PML na ukládání lingvistických dat; implementace dotazovacího systému nad PML.
Termíny řešení
Zahájení řešení
1. 1. 2005
Ukončení řešení
31. 12. 2009
Poslední stav řešení
U - Ukončený projekt
Poslední uvolnění podpory
11. 3. 2009
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP10-AV0-1E-U/01:1
Datum dodání záznamu
15. 4. 2010
Finance
Celkové uznané náklady
20 713 tis. Kč
Výše podpory ze státního rozpočtu
20 713 tis. Kč
Ostatní veřejné zdroje financování
0 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč