K efektivitě manuální a poloautomatické excerpce neologismů
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68378092%3A_____%2F19%3A00504724" target="_blank" >RIV/68378092:_____/19:00504724 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/00216208:11210/19:10392654
Výsledek na webu
<a href="https://www.ceeol.com/search/article-detail?id=761574" target="_blank" >https://www.ceeol.com/search/article-detail?id=761574</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
K efektivitě manuální a poloautomatické excerpce neologismů
Popis výsledku v původním jazyce
Text představuje jednoduchou proceduru pro poloautomatické vyhledávání neologismů v textech: jednoduchý skript v jazyce Python zpracuje textový soubor s použitím morfologického taggeru a vyextrahuje všechna slova, která tagger nepoznal, jakožto potenciální neologismy. Seznam potenciálních neologismů musí být zkontrolován ručně. Tato metoda poloautomatické excerpce byla použita na soubor textů, které byly zpracovány i tradiční, ruční excerpcí. Srovnání ruční a poloautomatické excerpce ukázalo, že poloautomatická procedura je výrazně rychlejší, efektivnější a úspěšnější než ruční excerpce.
Název v anglickém jazyce
On the efficiency of manual and semi-automatic detection of neologisms
Popis výsledku anglicky
The paper presents a simple semi-automatic neologism detection procedure: a trivial Python script processes a text file, making use of a Czech morphological tagger, and extracts all words unrecognized by the tagger as potential neologisms. The list of these candidates has to be checked by a human (hence the label semi-automatic). This method was applied to a set of texts that were also analyzed in a more traditional way, by the “reading and marking” technique (i.e. the current practice). The comparison of the two methods has revealed that the semi-automatic procedure clearly outperforms the current practice both in speed and in efficiency.
Klasifikace
Druh
J<sub>ost</sub> - Ostatní články v recenzovaných periodicích
CEP obor
—
OECD FORD obor
60203 - Linguistics
Návaznosti výsledku
Projekt
—
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2019
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Naše řeč
ISSN
0027-8203
e-ISSN
—
Svazek periodika
102
Číslo periodika v rámci svazku
1/2
Stát vydavatele periodika
CZ - Česká republika
Počet stran výsledku
12
Strana od-do
64-75
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—