Metody pro rychlou diskurzní anotaci ve vybraných korpusech
Veřejná podpora
Poskytovatel
Grantová agentura České republiky
Program
Standardní projekty
Veřejná soutěž
SGA0202200004
Hlavní účastníci
Univerzita Karlova / Matematicko-fyzikální fakulta
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
22-03269S
Alternativní jazyk
Název projektu anglicky
Methods for rapid discourse annotation in selected corpora
Anotace anglicky
The project aims at research and development of methods for cost-effective discourse annotation in various types of text corpora available in the Prague Dependency Treebank - Consolidated 1.0 (PDT-C). We will use and further develop existing methods for automatic pre-annotation of the data and, within the limits of this small project, perform the most important manual corrections of the pre-annotated data, thus creating a unique text-type diversified discourse annotated corpus in Czech. The project will deal with explicit discourse relations marked by so-called primary discourse connectives. Research effort will be dedicated to making the results (both theoretical and practical) available to the international scientific community, including transformation and publication of the data in a widely used Penn Discourse Treebank (PDTB) format and taxonomy. The outcomes will contribute both to theoretical knowledge about discourse relations in various types of texts in Czech, newly especially in spoken and translated data, and to natural language processing related to discourse relations.
Vědní obory
Kategorie VaV
ZV - Základní výzkum
OECD FORD - hlavní obor
60203 - Linguistics
OECD FORD - vedlejší obor
—
OECD FORD - další vedlejší obor
—
CEP - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
AI - Jazykověda
Termíny řešení
Zahájení řešení
1. 1. 2022
Ukončení řešení
31. 12. 2024
Poslední stav řešení
K - Končící víceletý projekt
Poslední uvolnění podpory
10. 3. 2023
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP24-GA0-GA-R
Datum dodání záznamu
19. 2. 2024
Finance
Celkové uznané náklady
2 992 tis. Kč
Výše podpory ze státního rozpočtu
2 992 tis. Kč
Ostatní veřejné zdroje financování
0 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč