Využití techniky náhodného indexování v oblasti detekce plagiátů

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F09%3A00502260" target="_blank" >RIV/49777513:23520/09:00502260 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
čeština
Název v původním jazyce
Využití techniky náhodného indexování v oblasti detekce plagiátů
Popis výsledku v původním jazyce
Rostoucí snaha plagiovat cizí práce, především v oblasti školství, zapříčinila vývoj nových a lepších metod, které by těmto intrikám čelily. Tento článek rozvíjí myšlenku aplikace Latentní sémantické analýzy (LSA) v oblasti detekce plagiátů a navrhuje nová vylepšení. Hlavním diskutovaným předmětem je aplikace kompresní techniky tzv. náhodného indexování, která transformuje data do alternativního zmenšeného prostoru. Kromě toho se článek zabývá normalizací podobností mezi dokumenty a přináší novou asymetrickou normalizační formuli. Experimenty byly provedeny na manuálně vytvořeném korpusu českých plagiátů, který obsahuje 1500 dokumentů o politice. Dosažené výsledky indikují, že kompresní technika dokáže významně snížit časové požadavky pro LSA. Aplikacínové normalizační formule lze navíc dosáhnout i vyšší přesnosti detekce plagiátů při současně nižších časových požadavcích.
Název v anglickém jazyce
The Use of Random Indexing in the Field of Plagiarism Detection
Popis výsledku anglicky
Plagiarism is a wide spread problem that is of great interest these days because of the ease with which electronic documents can be copied. This paper extends the idea of the Latent Semantic Analysis (LSA) application in the field of plagiarism detectionand proposes new improvements. The main subject of this paper is the application of a feature compression technique to overcome the problem of processing large amounts of data. Another issue to be discussed is document similarity normalization. A Czechcorpus of 1,500 text documents about politics was employed for the experiments. This corpus included documents that had been manually plagiarized by students. The results indicate that the proposed compression technique is able to essentially decrease time execution requirements. Moreover, it has been proved that the new proposed document similarity normalization formula increases the accuracy of plagiarism detection.

Klasifikace

Druh
D - Stať ve sborníku
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—

Návaznosti výsledku

Projekt
<a href="/cs/project/2C06009" target="_blank" >2C06009: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

Rok uplatnění
2009
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Název statě ve sborníku
Informačné Technológie - Aplikácie a Teória
ISBN
978-80-970179-1-0
ISSN
—
e-ISSN
—
Počet stran výsledku
4
Strana od-do
—
Název nakladatele
PONT s.r.o.
Místo vydání
Seňa
Místo konání akce
Králova studňa
Datum konání akce
29. 9. 2009
Typ akce podle státní příslušnosti
EUR - Evropská akce
Kód UT WoS článku
—

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Využití techniky náhodného indexování v oblasti detekce plagiátů

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)