Beyond Content: Discriminatory Power of Function Words in Text Type Classification
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F61989592%3A15210%2F24%3A73624593" target="_blank" >RIV/61989592:15210/24:73624593 - isvavai.cz</a>
Výsledek na webu
<a href="https://academic.oup.com/dsh/article/39/2/765/7634746?login=true" target="_blank" >https://academic.oup.com/dsh/article/39/2/765/7634746?login=true</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1093/llc/fqae013" target="_blank" >10.1093/llc/fqae013</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Beyond Content: Discriminatory Power of Function Words in Text Type Classification
Popis výsledku v původním jazyce
Our work aims to evaluate the strength of the association between function words and several text types: novels, poems, academic articles, reviews and blog posts, and the accuracy of their classification to these categories, through machine-learning and statistical methods. The principal conclusion is that the types of texts are distinguishable based only on the function words, either by vocabulary or vocabulary diversity. Such findings may impact the techniques of authorship attribution based on function words and text clustering techniques since some function words add information about the text types/genres, in addition to content words.
Název v anglickém jazyce
Beyond Content: Discriminatory Power of Function Words in Text Type Classification
Popis výsledku anglicky
Our work aims to evaluate the strength of the association between function words and several text types: novels, poems, academic articles, reviews and blog posts, and the accuracy of their classification to these categories, through machine-learning and statistical methods. The principal conclusion is that the types of texts are distinguishable based only on the function words, either by vocabulary or vocabulary diversity. Such findings may impact the techniques of authorship attribution based on function words and text clustering techniques since some function words add information about the text types/genres, in addition to content words.
Klasifikace
Druh
J<sub>imp</sub> - Článek v periodiku v databázi Web of Science
CEP obor
—
OECD FORD obor
60203 - Linguistics
Návaznosti výsledku
Projekt
—
Návaznosti
S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Digital Scholarship in the Humanities
ISSN
2055-7671
e-ISSN
2055-768X
Svazek periodika
2024
Číslo periodika v rámci svazku
39
Stát vydavatele periodika
GB - Spojené království Velké Británie a Severního Irska
Počet stran výsledku
25
Strana od-do
"765–789"
Kód UT WoS článku
001190166500001
EID výsledku v databázi Scopus
2-s2.0-85196621827