From a Natural Language to Knowledge and the Semantic Web
Project goals
The project "From a Natural Language to Knowledge and the Semantic Web" focuses on the interlinking linguistic and content analysis (and synthesis). It is based on deep syntax analysis as captured in the Prague Dependency Treebank. The project objectiveis to design and implement such representation of knowledge contained in common text that can formally and logically capture the content of a message in natural language. Natural demand for this knowledge representation is language independence. Unavoidable language-dependent phenomena will be exactly determined, language relations defined, and conversions between representations of the same knowledge in different languages will be implemented. The Project will be focused at least on two languages (Czech and English). A sufficient amount of linguistically annotated data necessary for machine learning methods will be also prepared. Project results will be utilizable for information extraction as well as for automatic machine translation.
Keywords
natural language processingknowledge representationformal and lexical semanticsinformation extractioncomputational linguisticslanguage corpora
Public support
Provider
Academy of Sciences of the Czech Republic
Programme
Information society (National programme of research)
Call for proposals
Informační společnost 2 (SAV02005-IS)
Main participants
—
Contest type
VS - Public tender
Contract ID
1ET201120505
Alternative language
Project name in Czech
Od jazyka ke znalostem a sémantickému webu
Annotation in Czech
Projekt "Od jazyka ke znalostem a sématickému webu" řeší propojení jazykové a obsahové analýzy (popř. syntézy) textu. Navazuje na hloubkovou jazykovou analýzu, popsanou a datově zachycenou v tzv. Pražském závislostním korpusu. Cílem projektu je navrhnouta implementovat takovou reprezentaci znalostí obsažených v běžném textu, která dokáže formálně-logickým způsobem zachytit obsah sdělení, a to v celé šíři přirozeného jazyka. Přirozeným požadavkem na takovou reprezentaci je to, aby byla jako systém jazykově nezávislá. Jazykově závislé části budou přesně vymezeny a budou definovány vztahy a implementovány "konverze" mezi reprezentacemi téhož obsahu mezi různými přirozenými jazyky. Projekt bude proto zaměřen nejméně na dva jazyky (češtinu a angličtinu). Metody analýzy a syntézy potřebují dostatečné množství anotovaných dat pro strojové učení, která budou rovněž připravena. Výsledky budou využitelné jak pro extrakci informací a znalostí, tak i pro automatický překlad mezi jazyky.
Scientific branches
R&D category
NV - Nonindustrial research (Applied research excluded Industrial research)
CEP classification - main branch
JD - Use of computers, robotics and its application
CEP - secondary branch
AI - Linguistics
CEP - another secondary branch
BD - Information theory
10102 - Applied mathematics
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
20204 - Robotics and automatic control
20205 - Automation and control systems
60201 - General language studies
60202 - Specific languages
60203 - Linguistics
Completed project evaluation
Provider evaluation
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Project results evaluation
Properties of formal semantic representation of natural language utterances (in English, Czech, Russian, Hindi) have been investigated, resulting in 70+ publications. Annotation editor and annotated corpora (incl. parallel ones) are publicly available.
Solution timeline
Realization period - beginning
Jan 1, 2005
Realization period - end
Dec 31, 2009
Project status
U - Finished project
Latest support payment
Mar 11, 2009
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP10-AV0-1E-U/01:1
Data delivery date
Apr 15, 2010
Finance
Total approved costs
16,061 thou. CZK
Public financial support
16,061 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK
Basic information
Recognised costs
16 061 CZK thou.
Public support
16 061 CZK thou.
100%
Provider
Academy of Sciences of the Czech Republic
CEP
JD - Use of computers, robotics and its application
Solution period
01. 01. 2005 - 31. 12. 2009