All
All

What are you looking for?

All
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Global Coherence of Czech Texts in the Corpus-Based Perspective

Project goals

The project aims at theoretical and corpus-based representation of global coherence in Czech written texts. Global coherence assumes a hierarchical representation of smaller (clauses, sentences) and larger text units (e.g. paragraphs) and existence of coherence relations between these units on all levels of the hierarchy. A single interconnected representation for the entire document is postulated, too. In the project, we first critically evaluate up-to-date linguistic frameworks for global coherence analysis, benefiting from our own long-term experience with describing various linguistic aspects of local coherence. Next, we will design a suitable scenario for representing global coherence with corpus methods and conduct a pilot annotation. The proposed topic combines and expands both the line of development of research on discourse and coherence at the applicant’s institute and recent advances in international discourse-oriented community. The outcomes of the project are relevant for linguists as well as for a wide range of language technologies devoted to automated text processing.

Keywords

global coherencehierarchical text structureintentional structurecorpus annotationCzechRhetorical Structure Theory

Public support

  • Provider

    Czech Science Foundation

  • Programme

    Standard projects

  • Call for proposals

    SGA0202000001

  • Main participants

    Univerzita Karlova / Matematicko-fyzikální fakulta

  • Contest type

    VS - Public tender

  • Contract ID

    20-09853S

Alternative language

  • Project name in Czech

    Globální koherence českých textů a možnosti jejího korpusového zpracování

  • Annotation in Czech

    Projekt je zaměřen na teoretický výzkum a následné korpusové zachycení globální koherence v českých psaných textech. Analýza globální koherence je založena na hierarchické strukturaci nižších a vyšších textových jednotek (klauzí a vět na jedné straně a např. odstavců na druhé) a na existenci vztahů soudržnosti mezi těmito jednotkami na všech úrovních hierarchie. Předpokládá se také jediná spojitá reprezentace pro celý dokument. V průběhu projektu nejprve kriticky zhodnotíme nejznámější současné lingvistické rámce pro globální analýzu koherence a využijeme vlastních dlouhodobých zkušeností s popisem různých jazykových aspektů tzv. koherence lokální. Poté navrhneme vhodný scénář pro zachycení globální koherence korpusovými metodami a provedeme pilotní anotaci. Navrhované téma rozšiřuje směr vývoje výzkumu textových vztahů a koherence v ústavu žadatelky a kombinuje tyto výsledky s nejnovějšími poznatky v zahraničním bádání v této oblasti. Výsledky projektu budou využitelné jak v lingvistice, tak i pro širokou škálu jazykových technologií věnovaných automatizovanému zpracování textu.

Scientific branches

  • R&D category

    ZV - Basic research

  • OECD FORD - main branch

    60203 - Linguistics

  • OECD FORD - secondary branch

  • OECD FORD - another secondary branch

  • AI - Linguistics

Solution timeline

  • Realization period - beginning

    Jan 1, 2020

  • Realization period - end

    Jun 30, 2023

  • Project status

  • Latest support payment

    Apr 1, 2023

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP24-GA0-GA-R

  • Data delivery date

    May 21, 2024

Finance

  • Total approved costs

    3,649 thou. CZK

  • Public financial support

    3,607 thou. CZK

  • Other public sources

    42 thou. CZK

  • Non public and foreign sources

    0 thou. CZK

Basic information

Recognised costs

3 649 CZK thou.

Public support

3 607 CZK thou.

98%


Provider

Czech Science Foundation

OECD FORD

Linguistics

Solution period

01. 01. 2020 - 30. 06. 2023