From a Natural Language to Knowledge and the Semantic Web
Public support
Provider
Academy of Sciences of the Czech Republic
Programme
Information society (National programme of research)
Call for proposals
Informační společnost 2 (SAV02005-IS)
Main participants
—
Contest type
VS - Public tender
Contract ID
1ET201120505
Alternative language
Project name in Czech
Od jazyka ke znalostem a sémantickému webu
Annotation in Czech
Projekt "Od jazyka ke znalostem a sématickému webu" řeší propojení jazykové a obsahové analýzy (popř. syntézy) textu. Navazuje na hloubkovou jazykovou analýzu, popsanou a datově zachycenou v tzv. Pražském závislostním korpusu. Cílem projektu je navrhnouta implementovat takovou reprezentaci znalostí obsažených v běžném textu, která dokáže formálně-logickým způsobem zachytit obsah sdělení, a to v celé šíři přirozeného jazyka. Přirozeným požadavkem na takovou reprezentaci je to, aby byla jako systém jazykově nezávislá. Jazykově závislé části budou přesně vymezeny a budou definovány vztahy a implementovány "konverze" mezi reprezentacemi téhož obsahu mezi různými přirozenými jazyky. Projekt bude proto zaměřen nejméně na dva jazyky (češtinu a angličtinu). Metody analýzy a syntézy potřebují dostatečné množství anotovaných dat pro strojové učení, která budou rovněž připravena. Výsledky budou využitelné jak pro extrakci informací a znalostí, tak i pro automatický překlad mezi jazyky.
Scientific branches
R&D category
NV - Nonindustrial research (Applied research excluded Industrial research)
CEP classification - main branch
JD - Use of computers, robotics and its application
CEP - secondary branch
AI - Linguistics
CEP - another secondary branch
BD - Information theory
OECD FORD - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
10102 - Applied mathematics<br>10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)<br>20204 - Robotics and automatic control<br>20205 - Automation and control systems<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Completed project evaluation
Provider evaluation
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Project results evaluation
Properties of formal semantic representation of natural language utterances (in English, Czech, Russian, Hindi) have been investigated, resulting in 70+ publications. Annotation editor and annotated corpora (incl. parallel ones) are publicly available.
Solution timeline
Realization period - beginning
Jan 1, 2005
Realization period - end
Dec 31, 2009
Project status
U - Finished project
Latest support payment
Mar 11, 2009
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP10-AV0-1E-U/01:1
Data delivery date
Apr 15, 2010
Finance
Total approved costs
16,061 thou. CZK
Public financial support
16,061 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK