Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F14%3A10289420" target="_blank" >RIV/00216208:11320/14:10289420 - isvavai.cz</a>
Výsledek na webu
<a href="http://www.aclweb.org/anthology/P/P14/P14-5003.pdf" target="_blank" >http://www.aclweb.org/anthology/P/P14/P14-5003.pdf</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition
Popis výsledku v původním jazyce
We present two recently released open-source taggers: NameTag is a free software for named entity recognition (NER) which achieves state-of-the-art performance on Czech; MorphoDiTa (Morphological Dictionary and Tagger) performs morphological analysis (with lemmatization), morphological generation, tagging and tokenization with state-of-the-art results for Czech and a throughput around 10-200K words per second. The taggers can be trained for any language for which annotated data exist, but they are specifically designed to be efficient for inflective languages. Both tools are free software under LGPL license and are distributed along with trained linguistic models which are free for non-commercial use under the CC BY-NC-SA license. The releases includestandalone tools, C++ libraries with Java, Python and Perl bindings and web services.
Název v anglickém jazyce
Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition
Popis výsledku anglicky
We present two recently released open-source taggers: NameTag is a free software for named entity recognition (NER) which achieves state-of-the-art performance on Czech; MorphoDiTa (Morphological Dictionary and Tagger) performs morphological analysis (with lemmatization), morphological generation, tagging and tokenization with state-of-the-art results for Czech and a throughput around 10-200K words per second. The taggers can be trained for any language for which annotated data exist, but they are specifically designed to be efficient for inflective languages. Both tools are free software under LGPL license and are distributed along with trained linguistic models which are free for non-commercial use under the CC BY-NC-SA license. The releases includestandalone tools, C++ libraries with Java, Python and Perl bindings and web services.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/LM2010013" target="_blank" >LM2010013: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2014
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations
ISBN
978-1-941643-00-6
ISSN
—
e-ISSN
—
Počet stran výsledku
6
Strana od-do
13-18
Název nakladatele
Association for Computational Linguistics
Místo vydání
Stroudsburg, PA, USA
Místo konání akce
Baltimore, MD, USA
Datum konání akce
23. 6. 2014
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—