Vše
Vše

Co hledáte?

Vše
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”
ME10018

K počítačové analýze struktury textu

Cíle projektu

Cílem projektu je ve vzájemné spolupráci vytvořit ucelené počítačové zachycení textových vztahů jako podklad pro další automatické zpracování přirozeného jazyka a experimentálně ověřit kvalitu tohoto zpracování a odpovídajících počítačových nástrojů.

Klíčová slova

Computational linguisticstheoretical linguisticsautomatic text (discourse) analysisautomatic text summarizationinformation retrievallinguistic annotationinformation scienceannotated corporaPenn Discourse TreeBank

Veřejná podpora

  • Poskytovatel

    Ministerstvo školství, mládeže a tělovýchovy

  • Program

    KONTAKT

  • Veřejná soutěž

    KONTAKT 8 (SMSM2010ME5)

  • Hlavní účastníci

  • Druh soutěže

    VS - Veřejná soutěž

  • Číslo smlouvy

    2062/2011-320

Alternativní jazyk

  • Název projektu anglicky

    Towards a computational analysis of text structure

  • Anotace anglicky

    The project aims to create a computational model of the text structure in Czech and in English that will serve for the purposes of natural language processing (NLP). The present project is based on the data from two annotated corpora: Prague Dependency Treebank (Charles University in Prague, Czech Republic) and Penn Discourse Treebank (University of Pennsylvania, USA). In the first part of the project, the final part of the Czech annotation will be completed and the multilingual data will be used for testing and subsequent improvement of annotation systems. The results of the analysis will be available e.g. for automatic information retrieval, text summarization or computer translation.

Vědní obory

  • Kategorie VaV

    ZV - Základní výzkum

  • CEP - hlavní obor

    AI - Jazykověda

  • CEP - vedlejší obor

    IN - Informatika

  • CEP - další vedlejší obor

    BD - Teorie informace

  • OECD FORD - odpovídající obory
    (dle převodníku)

    10102 - Applied mathematics
    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
    60201 - General language studies
    60202 - Specific languages
    60203 - Linguistics

Hodnocení dokončeného projektu

  • Hodnocení poskytovatelem

    V - Vynikající výsledky projektu (s mezinárodním významem atd.)

  • Zhodnocení výsledků projektu

    Byl vytvořen ucelený návrh anotace textových vztahů pro anotaci češtiny. Na jeho základě byla zpracována data Pražského závislostního korpusu a vydána s rozsáhlou dokumentací na CD jako Pražský diskurzní korpus (PDiT). Práce proběhly za spolupráce s par?

Termíny řešení

  • Zahájení řešení

    1. 5. 2010

  • Ukončení řešení

    31. 12. 2012

  • Poslední stav řešení

    U - Ukončený projekt

  • Poslední uvolnění podpory

    16. 2. 2012

Dodání dat do CEP

  • Důvěrnost údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Systémové označení dodávky dat

    CEP13-MSM-ME-U/01:1

  • Datum dodání záznamu

    28. 6. 2013

Finance

  • Celkové uznané náklady

    1 700 tis. Kč

  • Výše podpory ze státního rozpočtu

    1 700 tis. Kč

  • Ostatní veřejné zdroje financování

    0 tis. Kč

  • Neveřejné tuz. a zahr. zdroje finan.

    0 tis. Kč

Základní informace

Uznané náklady

1 700 tis. Kč

Statní podpora

1 700 tis. Kč

100%


Poskytovatel

Ministerstvo školství, mládeže a tělovýchovy

CEP

AI - Jazykověda

Doba řešení

01. 05. 2010 - 31. 12. 2012