K efektivitě manuální a poloautomatické excerpce neologismů

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F19%3A10392654" target="_blank" >RIV/00216208:11210/19:10392654 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/68378092:_____/19:00504724
Výsledek na webu
<a href="https://verso.is.cuni.cz/pub/verso.fpl?fname=obd_publikace_handle&handle=hCu7kS4zSG" target="_blank" >https://verso.is.cuni.cz/pub/verso.fpl?fname=obd_publikace_handle&handle=hCu7kS4zSG</a>
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
čeština
Název v původním jazyce
K efektivitě manuální a poloautomatické excerpce neologismů
Popis výsledku v původním jazyce
Článek prezentuje jednoduchou metodu poloautomatické excerpce neologismů: jednoduchý skript v jazyce Python zpracuje textový soubor, přičemž využije český morfologický tagger, a všechna slova, která tagger nerozezná, označí jako potenciální neologismy. Seznam potenciálních neologismů musí být zkontrolován ručně. Tato metoda byla aplikována na soubor textů, které byly rovněž vyexcerpovány ručně, tj. v současnosti uplatňovanou metodou, při níž excerptor pročítá text a označuje výrazy, které považuje za potenciální neologismy. Srovnání výsledků ruční a poloautomatické excerpce jasně ukazuje, že skript pro poloautomatickou excerpci vykazuje výrazně lepší výsledky než excerpce ruční, a to jak z hlediska rychlosti práce, tak z hlediska její efektivity.
Název v anglickém jazyce
On the efficiency of manual and semi-automatic detection of neologisms
Popis výsledku anglicky
The paper presents a simple semi-automatic neologism detection procedure: a trivial Python script processes a text file, making use of a Czech morphological tagger, and extracts all words unrecognized by the tagger as potential neologisms. The list of these candidates has to be checked by a human (hence semi-automatic). This method was applied to a set of texts that were also analyzed in a more traditional way, by the "reading and marking" technique (i.e. the current prac-tice). The comparison of the two methods has revealed that the semi-automatic procedure clear-ly outperforms the current practice both in speed and in efficiency.

Klasifikace

Druh
J<sub>ost</sub> - Ostatní články v recenzovaných periodicích
CEP obor
—
OECD FORD obor
60203 - Linguistics

Návaznosti výsledku

Projekt
—
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace

Ostatní

Rok uplatnění
2019
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Název periodika
Naše řeč
ISSN
0027-8203
e-ISSN
—
Svazek periodika
102
Číslo periodika v rámci svazku
1
Stát vydavatele periodika
CZ - Česká republika
Počet stran výsledku
12
Strana od-do
64-75
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—

Podobné výsledky(10)

K efektivitě manuální a poloautomatické excerpce neologismů K (polo)automatické excerpci neologismů Part-of-Speech and Morphological Tagging of Algerian Judeo-Arabic

Co hledáte?

Rychlé hledání

Chytré vyhledávání

K efektivitě manuální a poloautomatické excerpce neologismů

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)