Determining Authorship of Anonymous Texts Based on Automatically Discovered Characteristic Features
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F11%3A00073205" target="_blank" >RIV/00216224:14330/11:00073205 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Určování autorství anonymních textů na základě automaticky nalezených charakteristických znaků
Original language description
Magisterská diplomová práce. V práci vycházíme z řady osvědčených postupů pro určování autorství anonymních dokumentů a vytváříme nové. Již existující a používané techniky kombinujeme, optimalizujeme a inovujeme pro tři hlavní úlohy: Automatické přiřazení autora podle dané množiny autorských dokumentů, Verifikace autorství daného dokumentu vybraným autorem, Shlukování dokumentů podle autorství. Námi implementované algoritmy jsou testovány na češtině, systém je však navržen modulárně a pokud vypustíme činahradíme několik jazykově závislých komponent, lze v tuto chvíli pracovat s dokumenty napsanými v libovolném jazyce. Vše je naprogramováno ve skriptovacím jazyce Python. Součástí systému jsou i nástroje pro předzpracování vstupních dat pro češtinu a jejich správu v databázi PostgreSQL. Dalším přínosem práce kromě vývoje systému pro řešení tří zmíněných úloh jsou empiricky podložená pozorování, jak se chovají nejpoužívanější algoritmy na určování autorství dokumentů na dokumentech v češ
Czech name
Určování autorství anonymních textů na základě automaticky nalezených charakteristických znaků
Czech description
Magisterská diplomová práce. V práci vycházíme z řady osvědčených postupů pro určování autorství anonymních dokumentů a vytváříme nové. Již existující a používané techniky kombinujeme, optimalizujeme a inovujeme pro tři hlavní úlohy: Automatické přiřazení autora podle dané množiny autorských dokumentů, Verifikace autorství daného dokumentu vybraným autorem, Shlukování dokumentů podle autorství. Námi implementované algoritmy jsou testovány na češtině, systém je však navržen modulárně a pokud vypustíme činahradíme několik jazykově závislých komponent, lze v tuto chvíli pracovat s dokumenty napsanými v libovolném jazyce. Vše je naprogramováno ve skriptovacím jazyce Python. Součástí systému jsou i nástroje pro předzpracování vstupních dat pro češtinu a jejich správu v databázi PostgreSQL. Dalším přínosem práce kromě vývoje systému pro řešení tří zmíněných úloh jsou empiricky podložená pozorování, jak se chovají nejpoužívanější algoritmy na určování autorství dokumentů na dokumentech v češ
Classification
Type
O - Miscellaneous
CEP classification
IN - Informatics
OECD FORD branch
—
Result continuities
Project
Result was created during the realization of more than one project. More information in the Projects tab.
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach
Others
Publication year
2011
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů