Determining Window Size from Plagiarism Corpus for Stylometric Features
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F15%3A00084706" target="_blank" >RIV/00216224:14330/15:00084706 - isvavai.cz</a>
Výsledek na webu
<a href="http://link.springer.com/chapter/10.1007%2F978-3-319-24027-5_31" target="_blank" >http://link.springer.com/chapter/10.1007%2F978-3-319-24027-5_31</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-319-24027-5_31" target="_blank" >10.1007/978-3-319-24027-5_31</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Determining Window Size from Plagiarism Corpus for Stylometric Features
Popis výsledku v původním jazyce
The sliding window concept is a common method for computing a profile of a document with unknown structure. This paper outlines an experiment with stylometric word-based feature in order to determine an optimal size of the sliding window. It was conducted for a vocabulary richness method called average word frequency class? using the PAN 2015 source retrieval training corpus for plagiarism detection. The paper shows the pros and cons of the stop words removal for the sliding window document profiling and discusses the utilization of the selected feature for intrinsic plagiarism detection. The experiment resulted in the recommendation of setting the sliding windows to around 100 words in length for computing the text profile using the average word frequency class stylometric feature.
Název v anglickém jazyce
Determining Window Size from Plagiarism Corpus for Stylometric Features
Popis výsledku anglicky
The sliding window concept is a common method for computing a profile of a document with unknown structure. This paper outlines an experiment with stylometric word-based feature in order to determine an optimal size of the sliding window. It was conducted for a vocabulary richness method called average word frequency class? using the PAN 2015 source retrieval training corpus for plagiarism detection. The paper shows the pros and cons of the stop words removal for the sliding window document profiling and discusses the utilization of the selected feature for intrinsic plagiarism detection. The experiment resulted in the recommendation of setting the sliding windows to around 100 words in length for computing the text profile using the average word frequency class stylometric feature.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/LG13010" target="_blank" >LG13010: Zastoupení ČR v European Research Consortium for Informatics and Mathematics</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach<br>I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2015
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Experimental IR Meets Multilinguality, Multimodality, and Interaction
ISBN
9783319240268
ISSN
0302-9743
e-ISSN
—
Počet stran výsledku
7
Strana od-do
293-299
Název nakladatele
Springer International Publishing
Místo vydání
Toulouse, France
Místo konání akce
Toulouse, France
Datum konání akce
8. 9. 2015
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—