Určování autorství anonymních textů na základě automaticky nalezených charakteristických znaků
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F11%3A00073205" target="_blank" >RIV/00216224:14330/11:00073205 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Určování autorství anonymních textů na základě automaticky nalezených charakteristických znaků
Popis výsledku v původním jazyce
Magisterská diplomová práce. V práci vycházíme z řady osvědčených postupů pro určování autorství anonymních dokumentů a vytváříme nové. Již existující a používané techniky kombinujeme, optimalizujeme a inovujeme pro tři hlavní úlohy: Automatické přiřazení autora podle dané množiny autorských dokumentů, Verifikace autorství daného dokumentu vybraným autorem, Shlukování dokumentů podle autorství. Námi implementované algoritmy jsou testovány na češtině, systém je však navržen modulárně a pokud vypustíme činahradíme několik jazykově závislých komponent, lze v tuto chvíli pracovat s dokumenty napsanými v libovolném jazyce. Vše je naprogramováno ve skriptovacím jazyce Python. Součástí systému jsou i nástroje pro předzpracování vstupních dat pro češtinu a jejich správu v databázi PostgreSQL. Dalším přínosem práce kromě vývoje systému pro řešení tří zmíněných úloh jsou empiricky podložená pozorování, jak se chovají nejpoužívanější algoritmy na určování autorství dokumentů na dokumentech v češ
Název v anglickém jazyce
Determining Authorship of Anonymous Texts Based on Automatically Discovered Characteristic Features
Popis výsledku anglicky
Master's thesis. The work is based on the most successful methods for determining authorship of anonymous documents. We combine, optimize and revise these methods and create new techniques for three main tasks: Automatic assignment of the authorship withthe given set of documents, Verification of the authorship of the document by selected author, Clustering of documents according to their authorships. Our implemented algorithms are tested on the Czech documents, but system is modular and if we remove or replace some language-dependent components, we can process documents written in any language. Everything is coded in the Python. The system contains tools for preprocessing of Czech data and for management of stored documents in the PostgreSQL database. The thesis also makes empirical observations of performance of the most popular methods for determining authorship of Czech documents.
Klasifikace
Druh
O - Ostatní výsledky
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2011
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů