Global Coherence of Czech Texts in the Corpus-Based Perspective
Project goals
The project aims at theoretical and corpus-based representation of global coherence in Czech written texts. Global coherence assumes a hierarchical representation of smaller (clauses, sentences) and larger text units (e.g. paragraphs) and existence of coherence relations between these units on all levels of the hierarchy. A single interconnected representation for the entire document is postulated, too. In the project, we first critically evaluate up-to-date linguistic frameworks for global coherence analysis, benefiting from our own long-term experience with describing various linguistic aspects of local coherence. Next, we will design a suitable scenario for representing global coherence with corpus methods and conduct a pilot annotation. The proposed topic combines and expands both the line of development of research on discourse and coherence at the applicant’s institute and recent advances in international discourse-oriented community. The outcomes of the project are relevant for linguists as well as for a wide range of language technologies devoted to automated text processing.
Keywords
global coherencehierarchical text structureintentional structurecorpus annotationCzechRhetorical Structure Theory
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
SGA0202000001
Main participants
Univerzita Karlova / Matematicko-fyzikální fakulta
Contest type
VS - Public tender
Contract ID
20-09853S
Alternative language
Project name in Czech
Globální koherence českých textů a možnosti jejího korpusového zpracování
Annotation in Czech
Projekt je zaměřen na teoretický výzkum a následné korpusové zachycení globální koherence v českých psaných textech. Analýza globální koherence je založena na hierarchické strukturaci nižších a vyšších textových jednotek (klauzí a vět na jedné straně a např. odstavců na druhé) a na existenci vztahů soudržnosti mezi těmito jednotkami na všech úrovních hierarchie. Předpokládá se také jediná spojitá reprezentace pro celý dokument. V průběhu projektu nejprve kriticky zhodnotíme nejznámější současné lingvistické rámce pro globální analýzu koherence a využijeme vlastních dlouhodobých zkušeností s popisem různých jazykových aspektů tzv. koherence lokální. Poté navrhneme vhodný scénář pro zachycení globální koherence korpusovými metodami a provedeme pilotní anotaci. Navrhované téma rozšiřuje směr vývoje výzkumu textových vztahů a koherence v ústavu žadatelky a kombinuje tyto výsledky s nejnovějšími poznatky v zahraničním bádání v této oblasti. Výsledky projektu budou využitelné jak v lingvistice, tak i pro širokou škálu jazykových technologií věnovaných automatizovanému zpracování textu.
Scientific branches
Solution timeline
Realization period - beginning
Jan 1, 2020
Realization period - end
Jun 30, 2023
Project status
—
Latest support payment
Apr 1, 2023
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP24-GA0-GA-R
Data delivery date
May 21, 2024
Finance
Total approved costs
3,649 thou. CZK
Public financial support
3,607 thou. CZK
Other public sources
42 thou. CZK
Non public and foreign sources
0 thou. CZK
Basic information
Recognised costs
3 649 CZK thou.
Public support
3 607 CZK thou.
98%
Provider
Czech Science Foundation
OECD FORD
Linguistics
Solution period
01. 01. 2020 - 30. 06. 2023