Automatic Genre Classification of Czech Texts Based on Syntactic Functions
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F61988987%3A17250%2F24%3AA25038JG" target="_blank" >RIV/61988987:17250/24:A25038JG - isvavai.cz</a>
Výsledek na webu
<a href="https://link.springer.com/chapter/10.1007/978-3-031-55917-4_13" target="_blank" >https://link.springer.com/chapter/10.1007/978-3-031-55917-4_13</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-031-55917-4_13" target="_blank" >10.1007/978-3-031-55917-4_13</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Automatic Genre Classification of Czech Texts Based on Syntactic Functions
Popis výsledku v původním jazyce
Although there has been research conducted on text classification based on syntactic features for decades, the recent development of accurate automatic syntactic taggers has enabled scholars to apply the methods to much larger and more diverse datasets than before. This study aims to classify various text types in Czech language using relative frequencies of syntactic functions (as they are defined in the Prague Dependency Treebank (PDT)). A large balanced corpus of contemporary written Czech SYN2020 is used as the language material. The distances between texts are calculated by the Cosine Delta method and then hierarchical cluster analysis is performed. The results indicate that syntactic functions can contribute to automatic genre classification based on large empirical language data.
Název v anglickém jazyce
Automatic Genre Classification of Czech Texts Based on Syntactic Functions
Popis výsledku anglicky
Although there has been research conducted on text classification based on syntactic features for decades, the recent development of accurate automatic syntactic taggers has enabled scholars to apply the methods to much larger and more diverse datasets than before. This study aims to classify various text types in Czech language using relative frequencies of syntactic functions (as they are defined in the Prague Dependency Treebank (PDT)). A large balanced corpus of contemporary written Czech SYN2020 is used as the language material. The distances between texts are calculated by the Cosine Delta method and then hierarchical cluster analysis is performed. The results indicate that syntactic functions can contribute to automatic genre classification based on large empirical language data.
Klasifikace
Druh
C - Kapitola v odborné knize
CEP obor
—
OECD FORD obor
60203 - Linguistics
Návaznosti výsledku
Projekt
<a href="/cs/project/GA22-20632S" target="_blank" >GA22-20632S: Kvantitativní syntaktická stylistika současné psané češtiny</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název knihy nebo sborníku
New Frontiers in Textual Data Analysis
ISBN
978-3-031-55916-7
Počet stran výsledku
10
Strana od-do
163-172
Počet stran knihy
396
Název nakladatele
Springer
Místo vydání
Cham
Kód UT WoS kapitoly
—