Enriching Word Embeddings with Global Information and Testing on Highly Inflected language
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F19%3A43956619" target="_blank" >RIV/49777513:23520/19:43956619 - isvavai.cz</a>
Výsledek na webu
<a href="https://www.cys.cic.ipn.mx/ojs/index.php/CyS/article/view/3268" target="_blank" >https://www.cys.cic.ipn.mx/ojs/index.php/CyS/article/view/3268</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.13053/CyS-23-3-3268" target="_blank" >10.13053/CyS-23-3-3268</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Enriching Word Embeddings with Global Information and Testing on Highly Inflected language
Popis výsledku v původním jazyce
In this paper we evaluate our new approach based on the Continuous Bag-of-Words and Skip-gram models enriched with global context information on highly inflected Czech language and compare it with English results. As a source of information we use Wikipedia, where articles are organized in a hierarchy of categories. These categories provide useful topical information about each article. Both models are evaluated on standard word similarity and word analogy datasets. Proposed models outperform other word representation methods when similar size of training data is used. Model provide similar performance especially with methods trained on much larger datasets.
Název v anglickém jazyce
Enriching Word Embeddings with Global Information and Testing on Highly Inflected language
Popis výsledku anglicky
In this paper we evaluate our new approach based on the Continuous Bag-of-Words and Skip-gram models enriched with global context information on highly inflected Czech language and compare it with English results. As a source of information we use Wikipedia, where articles are organized in a hierarchy of categories. These categories provide useful topical information about each article. Both models are evaluated on standard word similarity and word analogy datasets. Proposed models outperform other word representation methods when similar size of training data is used. Model provide similar performance especially with methods trained on much larger datasets.
Klasifikace
Druh
J<sub>SC</sub> - Článek v periodiku v databázi SCOPUS
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
—
Návaznosti
S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2019
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Computación y Systemas
ISSN
1405-5546
e-ISSN
—
Svazek periodika
23
Číslo periodika v rámci svazku
3
Stát vydavatele periodika
MX - Spojené státy mexické
Počet stran výsledku
11
Strana od-do
773-783
Kód UT WoS článku
—
EID výsledku v databázi Scopus
2-s2.0-85076634219