Vše
Vše

Co hledáte?

Vše
Projekty
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Porovnání technik předzpracování textu pro detekci plagiátů

Popis výsledku

Tento článek se zabývá technikami předzpracování textu a jejich vlivem na detekci plagiátů v psaném textu. V našich experimentech zkoumáme stop slova, lemmatizaci, nahrazování synonym a jejich vzájemné kombinace. Dále navrhujeme pokročilou normalizaci slov s využitím hyperonym z WordNet tezauru. Testy jsme provedli na českém korpusu plagiátů čítajícím 950 dokumentů o politice, vytvořeném z ČTK korpusu. Pro experimenty používáme metodu postavenou na RFM, prostém srovnání - gramů s Jaccard-Tanimoto koeficientem a metodu pracující na principu singulární dekompozice vztahů frází.

Klíčová slova

Plagiarismstop-wordslemmatizationsynonymyhyperonyms

Identifikátory výsledku

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Porovnání technik předzpracování textu pro detekci plagiátů

  • Popis výsledku v původním jazyce

    Tento článek se zabývá technikami předzpracování textu a jejich vlivem na detekci plagiátů v psaném textu. V našich experimentech zkoumáme stop slova, lemmatizaci, nahrazování synonym a jejich vzájemné kombinace. Dále navrhujeme pokročilou normalizaci slov s využitím hyperonym z WordNet tezauru. Testy jsme provedli na českém korpusu plagiátů čítajícím 950 dokumentů o politice, vytvořeném z ČTK korpusu. Pro experimenty používáme metodu postavenou na RFM, prostém srovnání - gramů s Jaccard-Tanimoto koeficientem a metodu pracující na principu singulární dekompozice vztahů frází.

  • Název v anglickém jazyce

    Comparison of Pre-processing Techniques for Plagiarism Detection

  • Popis výsledku anglicky

    This paper deals with the comparison of stop word removal, lemmatization, synonym replacement, and number replacement techniques for plagiarism detection. Further, we propose advanced word normalization with the use of hyperonyms. We examine the influence of different pre processing on plagiarism detection methods and recommend the best one solution.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    JC - Počítačový hardware a software

  • OECD FORD obor

Návaznosti výsledku

Ostatní

  • Rok uplatnění

    2009

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Znalosti 2009

  • ISBN

    978-80-227-3015-0

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    4

  • Strana od-do

  • Název nakladatele

    Slovenská technická univerzita

  • Místo vydání

    Bratislava

  • Místo konání akce

    Brno

  • Datum konání akce

    6. 2. 2009

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku

Druh výsledku

D - Stať ve sborníku

D

CEP

JC - Počítačový hardware a software

Rok uplatnění

2009