Automatic Adaptation of Author's Stylometric Features to Document Types
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F14%3A00073237" target="_blank" >RIV/00216224:14330/14:00073237 - isvavai.cz</a>
Výsledek na webu
<a href="http://dx.doi.org/10.1007/978-3-319-10816-2_7" target="_blank" >http://dx.doi.org/10.1007/978-3-319-10816-2_7</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-319-10816-2_7" target="_blank" >10.1007/978-3-319-10816-2_7</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Automatic Adaptation of Author's Stylometric Features to Document Types
Popis výsledku v původním jazyce
Many Internet users face the problem of anonymous documents and texts with a counterfeit authorship. The number of questionable documents exceeds the capacity of human experts, therefore a universal automated authorship identification system supporting all types of documents is needed. In this paper, five predominant document types are analysed in the context of the authorship verification: books, blogs, discussions, comments and tweets. A method of an automatic selection of authors? stylometric features using a double-layer machine learning is proposed and evaluated. Experiments are conducted on ten disjunct train and test sets and a method of an efficient training of large number of machine learning models is introduced (163,700 models were trained).
Název v anglickém jazyce
Automatic Adaptation of Author's Stylometric Features to Document Types
Popis výsledku anglicky
Many Internet users face the problem of anonymous documents and texts with a counterfeit authorship. The number of questionable documents exceeds the capacity of human experts, therefore a universal automated authorship identification system supporting all types of documents is needed. In this paper, five predominant document types are analysed in the context of the authorship verification: books, blogs, discussions, comments and tweets. A method of an automatic selection of authors? stylometric features using a double-layer machine learning is proposed and evaluated. Experiments are conducted on ten disjunct train and test sets and a method of an efficient training of large number of machine learning models is introduced (163,700 models were trained).
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/VF20102014003" target="_blank" >VF20102014003: Analýza přirozeného jazyka v prostředí internetu</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2014
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Text, Speech, and Dialogue - 17th International Conference
ISBN
9783319108155
ISSN
0302-9743
e-ISSN
—
Počet stran výsledku
9
Strana od-do
53-61
Název nakladatele
Springer International Publishing
Místo vydání
Switzerland
Místo konání akce
Brno
Datum konání akce
8. 9. 2014
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—