Integration of language resources for information extraction from natural texts
Public support
Provider
Academy of Sciences of the Czech Republic
Programme
Information society (National programme of research)
Call for proposals
Informační společnost 2 (SAV02005-IS)
Main participants
—
Contest type
VS - Public tender
Contract ID
1ET101120503
Alternative language
Project name in Czech
Integrace jazykových zdrojů za účelem extrakce informací z přirozených textů
Annotation in Czech
Projekt aplikovaného výzkumu "Integrace jazykových zdrojů za účelem extrakce informací z přirozených textů" řeší problém nekompatibility současných jazykových dat určených k lingvistickému výzkumu. Výsledkem bude jednotný systém pro uchovávání a všestranné využívání jazykových zdrojů opatřený robustními nástroji pro efektivní práci s texty. Do nového systému budou převedeny veškeré dostupné jazykové zdroje pro český jazyk. Současně se projekt zabývá detekcí a klasifikací tzv. pojmenovaných entit v českých textech, které zatím nebyly zpracovány a jejichž zahrnutí do jednotného systému dat zlepší výsledky automatického zpracování jazyka, zejména v oblasti vyhledávání informací z velkých textových databází.
Scientific branches
R&D category
NV - Nonindustrial research (Applied research excluded Industrial research)
CEP classification - main branch
AI - Linguistics
CEP - secondary branch
IN - Informatics
CEP - another secondary branch
JD - Use of computers, robotics and its application
OECD FORD - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)<br>20204 - Robotics and automatic control<br>20205 - Automation and control systems<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Completed project evaluation
Provider evaluation
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Project results evaluation
Named entity recognizer; manually annotated corpora for development and testing; digitalization of card catalogue of the ÚJČ onomastic archive; design of general unique format PML for storing linguistic data; implementation of querry system in PML.
Solution timeline
Realization period - beginning
Jan 1, 2005
Realization period - end
Dec 31, 2009
Project status
U - Finished project
Latest support payment
Mar 11, 2009
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP10-AV0-1E-U/01:1
Data delivery date
Apr 15, 2010
Finance
Total approved costs
20,713 thou. CZK
Public financial support
20,713 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK