Style Markers Based on Stop-word List
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F14%3A00077516" target="_blank" >RIV/00216224:14330/14:00077516 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Style Markers Based on Stop-word List
Popis výsledku v původním jazyce
The analysis of author?s characteristic writing style and vocabulary has been used to uncover the identity of authors of documents by both manual linguistic approaches and automatic algorithmic methods. The revealing of the gender, name, or age can helpto expose pedophiles in social networks, false product reviews on the Internet servers, or machine translations submitted as manually translated texts. These problems are predominantly solved by a combination of stylometry and machine learning techniques. Since the stylometry focuses on the author?s style, word n-grams cannot be used as a style marker. Stop words are not influenced by a topic of documents, therefore they can be used to create style markers. In this paper, we present a guidance on how toimplement stop-word extraction and to include stop-words based style markers into a multilingual classification system based on the stylometry.
Název v anglickém jazyce
Style Markers Based on Stop-word List
Popis výsledku anglicky
The analysis of author?s characteristic writing style and vocabulary has been used to uncover the identity of authors of documents by both manual linguistic approaches and automatic algorithmic methods. The revealing of the gender, name, or age can helpto expose pedophiles in social networks, false product reviews on the Internet servers, or machine translations submitted as manually translated texts. These problems are predominantly solved by a combination of stylometry and machine learning techniques. Since the stylometry focuses on the author?s style, word n-grams cannot be used as a style marker. Stop words are not influenced by a topic of documents, therefore they can be used to create style markers. In this paper, we present a guidance on how toimplement stop-word extraction and to include stop-words based style markers into a multilingual classification system based on the stylometry.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/LM2010013" target="_blank" >LM2010013: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2014
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Eighth Workshop on Recent Advances in Slavonic Natural Language Processing
ISBN
—
ISSN
2336-4289
e-ISSN
—
Počet stran výsledku
5
Strana od-do
85-89
Název nakladatele
Tribun EU
Místo vydání
Brno
Místo konání akce
Brno
Datum konání akce
1. 1. 2014
Typ akce podle státní příslušnosti
CST - Celostátní akce
Kód UT WoS článku
—