Porovnání technik předzpracování textu pro detekci plagiátů
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F09%3A00502219" target="_blank" >RIV/49777513:23520/09:00502219 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Porovnání technik předzpracování textu pro detekci plagiátů
Popis výsledku v původním jazyce
Tento článek se zabývá technikami předzpracování textu a jejich vlivem na detekci plagiátů v psaném textu. V našich experimentech zkoumáme stop slova, lemmatizaci, nahrazování synonym a jejich vzájemné kombinace. Dále navrhujeme pokročilou normalizaci slov s využitím hyperonym z WordNet tezauru. Testy jsme provedli na českém korpusu plagiátů čítajícím 950 dokumentů o politice, vytvořeném z ČTK korpusu. Pro experimenty používáme metodu postavenou na RFM, prostém srovnání - gramů s Jaccard-Tanimoto koeficientem a metodu pracující na principu singulární dekompozice vztahů frází.
Název v anglickém jazyce
Comparison of Pre-processing Techniques for Plagiarism Detection
Popis výsledku anglicky
This paper deals with the comparison of stop word removal, lemmatization, synonym replacement, and number replacement techniques for plagiarism detection. Further, we propose advanced word normalization with the use of hyperonyms. We examine the influence of different pre processing on plagiarism detection methods and recommend the best one solution.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/2C06009" target="_blank" >2C06009: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2009
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Znalosti 2009
ISBN
978-80-227-3015-0
ISSN
—
e-ISSN
—
Počet stran výsledku
4
Strana od-do
—
Název nakladatele
Slovenská technická univerzita
Místo vydání
Bratislava
Místo konání akce
Brno
Datum konání akce
6. 2. 2009
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—