LemmaTag: Jointly Tagging and Lemmatizing for Morphologically Rich Languages with BRNNs
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F18%3A10390169" target="_blank" >RIV/00216208:11320/18:10390169 - isvavai.cz</a>
Výsledek na webu
<a href="http://aclweb.org/anthology/D18-1532" target="_blank" >http://aclweb.org/anthology/D18-1532</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
LemmaTag: Jointly Tagging and Lemmatizing for Morphologically Rich Languages with BRNNs
Popis výsledku v původním jazyce
We present LemmaTag, a featureless neural network architecture that jointly generates part-of-speech tags and lemmas for sentences by using bidirectional RNNs with character-level and word-level embeddings. We demonstrate that both tasks benefit from sharing the encoding part of the network, predicting tag subcategories, and using the tagger output as an input to the lemmatizer. We evaluate our model across several languages with complex morphology, which surpasses state-of-the-art accuracy in both part-of-speech tagging and lemmatization in Czech, German, and Arabic.
Název v anglickém jazyce
LemmaTag: Jointly Tagging and Lemmatizing for Morphologically Rich Languages with BRNNs
Popis výsledku anglicky
We present LemmaTag, a featureless neural network architecture that jointly generates part-of-speech tags and lemmas for sentences by using bidirectional RNNs with character-level and word-level embeddings. We demonstrate that both tasks benefit from sharing the encoding part of the network, predicting tag subcategories, and using the tagger output as an input to the lemmatizer. We evaluate our model across several languages with complex morphology, which surpasses state-of-the-art accuracy in both part-of-speech tagging and lemmatization in Czech, German, and Arabic.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/LM2015071" target="_blank" >LM2015071: Jazyková výzkumná infrastruktura v České republice</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2018
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the Conference on Empirical Methods in Natural Language Processing EMNLP 2018
ISBN
978-1-948087-84-1
ISSN
—
e-ISSN
neuvedeno
Počet stran výsledku
8
Strana od-do
4921-4928
Název nakladatele
Association for Computational Linguistics
Místo vydání
Stroudsburg, PA, USA
Místo konání akce
Bruxelles, Belgium
Datum konání akce
31. 10. 2018
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—