Neural Networks for Multi-lingual Multi-label Document Classification
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F18%3A43952541" target="_blank" >RIV/49777513:23520/18:43952541 - isvavai.cz</a>
Výsledek na webu
<a href="http://dx.doi.org/10.1007/978-3-030-01418-6_8" target="_blank" >http://dx.doi.org/10.1007/978-3-030-01418-6_8</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-030-01418-6_8" target="_blank" >10.1007/978-3-030-01418-6_8</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Neural Networks for Multi-lingual Multi-label Document Classification
Popis výsledku v původním jazyce
This paper proposes a novel approach for multi-lingual multilabel document classification based on neural networks. We use popular convolutional neural networks for this task with three different configurations. The first one uses static word2vec embeddings that are let as is, while the second one initializes it with word2vec and fine-tunes the embeddings while learning on the available data. The last method initializes embeddings randomly and then they are optimized to the classification task. The proposed method is evaluated on four languages, namely English, German, Spanish and Italian from the Reuters corpus. Experimental results show that the proposed approach is efficient and the best obtained F-measure reaches 84%.
Název v anglickém jazyce
Neural Networks for Multi-lingual Multi-label Document Classification
Popis výsledku anglicky
This paper proposes a novel approach for multi-lingual multilabel document classification based on neural networks. We use popular convolutional neural networks for this task with three different configurations. The first one uses static word2vec embeddings that are let as is, while the second one initializes it with word2vec and fine-tunes the embeddings while learning on the available data. The last method initializes embeddings randomly and then they are optimized to the classification task. The proposed method is evaluated on four languages, namely English, German, Spanish and Italian from the Reuters corpus. Experimental results show that the proposed approach is efficient and the best obtained F-measure reaches 84%.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/EF17_048%2F0007267" target="_blank" >EF17_048/0007267: VaV inteligentních komponent pokročilých technologií pro plzeňskou metropolitní oblast</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach<br>I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2018
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Artificial Neural Networks and Machine Learning – ICANN 2018
ISBN
978-3-030-01417-9
ISSN
0302-9743
e-ISSN
1611-3349
Počet stran výsledku
11
Strana od-do
73-83
Název nakladatele
Springer
Místo vydání
Cham
Místo konání akce
Rhodes, Greece
Datum konání akce
4. 10. 2018
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—