All
All

What are you looking for?

All
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

From a Natural Language to Knowledge and the Semantic Web

Project goals

The project "From a Natural Language to Knowledge and the Semantic Web" focuses on the interlinking linguistic and content analysis (and synthesis). It is based on deep syntax analysis as captured in the Prague Dependency Treebank. The project objectiveis to design and implement such representation of knowledge contained in common text that can formally and logically capture the content of a message in natural language. Natural demand for this knowledge representation is language independence. Unavoidable language-dependent phenomena will be exactly determined, language relations defined, and conversions between representations of the same knowledge in different languages will be implemented. The Project will be focused at least on two languages (Czech and English). A sufficient amount of linguistically annotated data necessary for machine learning methods will be also prepared. Project results will be utilizable for information extraction as well as for automatic machine translation.

Keywords

natural language processingknowledge representationformal and lexical semanticsinformation extractioncomputational linguisticslanguage corpora

Public support

  • Provider

    Academy of Sciences of the Czech Republic

  • Programme

    Information society (National programme of research)

  • Call for proposals

    Informační společnost 2 (SAV02005-IS)

  • Main participants

  • Contest type

    VS - Public tender

  • Contract ID

    1ET201120505

Alternative language

  • Project name in Czech

    Od jazyka ke znalostem a sémantickému webu

  • Annotation in Czech

    Projekt "Od jazyka ke znalostem a sématickému webu" řeší propojení jazykové a obsahové analýzy (popř. syntézy) textu. Navazuje na hloubkovou jazykovou analýzu, popsanou a datově zachycenou v tzv. Pražském závislostním korpusu. Cílem projektu je navrhnouta implementovat takovou reprezentaci znalostí obsažených v běžném textu, která dokáže formálně-logickým způsobem zachytit obsah sdělení, a to v celé šíři přirozeného jazyka. Přirozeným požadavkem na takovou reprezentaci je to, aby byla jako systém jazykově nezávislá. Jazykově závislé části budou přesně vymezeny a budou definovány vztahy a implementovány "konverze" mezi reprezentacemi téhož obsahu mezi různými přirozenými jazyky. Projekt bude proto zaměřen nejméně na dva jazyky (češtinu a angličtinu). Metody analýzy a syntézy potřebují dostatečné množství anotovaných dat pro strojové učení, která budou rovněž připravena. Výsledky budou využitelné jak pro extrakci informací a znalostí, tak i pro automatický překlad mezi jazyky.

Scientific branches

  • R&D category

    NV - Nonindustrial research (Applied research excluded Industrial research)

  • CEP classification - main branch

    JD - Use of computers, robotics and its application

  • CEP - secondary branch

    AI - Linguistics

  • CEP - another secondary branch

    BD - Information theory

  • 10102 - Applied mathematics
    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
    20204 - Robotics and automatic control
    20205 - Automation and control systems
    60201 - General language studies
    60202 - Specific languages
    60203 - Linguistics

Completed project evaluation

  • Provider evaluation

    V - Vynikající výsledky projektu (s mezinárodním významem atd.)

  • Project results evaluation

    Properties of formal semantic representation of natural language utterances (in English, Czech, Russian, Hindi) have been investigated, resulting in 70+ publications. Annotation editor and annotated corpora (incl. parallel ones) are publicly available.

Solution timeline

  • Realization period - beginning

    Jan 1, 2005

  • Realization period - end

    Dec 31, 2009

  • Project status

    U - Finished project

  • Latest support payment

    Mar 11, 2009

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP10-AV0-1E-U/01:1

  • Data delivery date

    Apr 15, 2010

Finance

  • Total approved costs

    16,061 thou. CZK

  • Public financial support

    16,061 thou. CZK

  • Other public sources

    0 thou. CZK

  • Non public and foreign sources

    0 thou. CZK

Basic information

Recognised costs

16 061 CZK thou.

Public support

16 061 CZK thou.

100%


Provider

Academy of Sciences of the Czech Republic

CEP

JD - Use of computers, robotics and its application

Solution period

01. 01. 2005 - 31. 12. 2009