K efektivitě manuální a poloautomatické excerpce neologismů
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F19%3A10392654" target="_blank" >RIV/00216208:11210/19:10392654 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/68378092:_____/19:00504724
Výsledek na webu
<a href="https://verso.is.cuni.cz/pub/verso.fpl?fname=obd_publikace_handle&handle=hCu7kS4zSG" target="_blank" >https://verso.is.cuni.cz/pub/verso.fpl?fname=obd_publikace_handle&handle=hCu7kS4zSG</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
K efektivitě manuální a poloautomatické excerpce neologismů
Popis výsledku v původním jazyce
Článek prezentuje jednoduchou metodu poloautomatické excerpce neologismů: jednoduchý skript v jazyce Python zpracuje textový soubor, přičemž využije český morfologický tagger, a všechna slova, která tagger nerozezná, označí jako potenciální neologismy. Seznam potenciálních neologismů musí být zkontrolován ručně. Tato metoda byla aplikována na soubor textů, které byly rovněž vyexcerpovány ručně, tj. v současnosti uplatňovanou metodou, při níž excerptor pročítá text a označuje výrazy, které považuje za potenciální neologismy. Srovnání výsledků ruční a poloautomatické excerpce jasně ukazuje, že skript pro poloautomatickou excerpci vykazuje výrazně lepší výsledky než excerpce ruční, a to jak z hlediska rychlosti práce, tak z hlediska její efektivity.
Název v anglickém jazyce
On the efficiency of manual and semi-automatic detection of neologisms
Popis výsledku anglicky
The paper presents a simple semi-automatic neologism detection procedure: a trivial Python script processes a text file, making use of a Czech morphological tagger, and extracts all words unrecognized by the tagger as potential neologisms. The list of these candidates has to be checked by a human (hence semi-automatic). This method was applied to a set of texts that were also analyzed in a more traditional way, by the "reading and marking" technique (i.e. the current prac-tice). The comparison of the two methods has revealed that the semi-automatic procedure clear-ly outperforms the current practice both in speed and in efficiency.
Klasifikace
Druh
J<sub>ost</sub> - Ostatní články v recenzovaných periodicích
CEP obor
—
OECD FORD obor
60203 - Linguistics
Návaznosti výsledku
Projekt
—
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2019
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Naše řeč
ISSN
0027-8203
e-ISSN
—
Svazek periodika
102
Číslo periodika v rámci svazku
1
Stát vydavatele periodika
CZ - Česká republika
Počet stran výsledku
12
Strana od-do
64-75
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—