An Improved Bulgarian Natural Language Processing Pipeline
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F23%3A7JMFCF9C" target="_blank" >RIV/00216208:11320/23:7JMFCF9C - isvavai.cz</a>
Výsledek na webu
<a href="https://www.researchgate.net/profile/Melania-Berbatova/publication/371081880_An_Improved_Bulgarian_Natural_Language_Processing_Pipeline/links/64787b68b3dfd73b7758815e/An-Improved-Bulgarian-Natural-Language-Processing-Pipeline.pdf" target="_blank" >https://www.researchgate.net/profile/Melania-Berbatova/publication/371081880_An_Improved_Bulgarian_Natural_Language_Processing_Pipeline/links/64787b68b3dfd73b7758815e/An-Improved-Bulgarian-Natural-Language-Processing-Pipeline.pdf</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.60063/gsu.fmi.110.37-50" target="_blank" >10.60063/gsu.fmi.110.37-50</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
An Improved Bulgarian Natural Language Processing Pipeline
Popis výsledku v původním jazyce
"In this paper, we present a language pipeline for processing Bulgarian language data. The pipeline consistsnof the following steps: tokenization, sentence splitting, part-of-speech tagging, dependency parsing,nnamed entity recognition, lemmatization, and word sense disambiguation. The rst two components arenbased on rules and lists of words specic to the Bulgarian language, while the rest of the components usenmachine learning algorithms trained on universal dependency data and pretrained word vectors. Thenpipeline is implemented in the Python library spaCy and achieves signicant results on all the includednsubtasks. The pipeline is open source and is available on Github for use by researchers and developersnfor a variety of natural language processing and text analysis tasks."
Název v anglickém jazyce
An Improved Bulgarian Natural Language Processing Pipeline
Popis výsledku anglicky
"In this paper, we present a language pipeline for processing Bulgarian language data. The pipeline consistsnof the following steps: tokenization, sentence splitting, part-of-speech tagging, dependency parsing,nnamed entity recognition, lemmatization, and word sense disambiguation. The rst two components arenbased on rules and lists of words specic to the Bulgarian language, while the rest of the components usenmachine learning algorithms trained on universal dependency data and pretrained word vectors. Thenpipeline is implemented in the Python library spaCy and achieves signicant results on all the includednsubtasks. The pipeline is open source and is available on Github for use by researchers and developersnfor a variety of natural language processing and text analysis tasks."
Klasifikace
Druh
J<sub>ost</sub> - Ostatní články v recenzovaných periodicích
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
—
Návaznosti
—
Ostatní
Rok uplatnění
2023
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
"ANNUAL OF SOFIA UNIVERSITY “ST. KLIMENT OHRIDSKI”FACULTY OF MATHEMATICS AND INFORMATICS"
ISSN
1313-9215
e-ISSN
—
Svazek periodika
110
Číslo periodika v rámci svazku
2023
Stát vydavatele periodika
US - Spojené státy americké
Počet stran výsledku
14
Strana od-do
37-50
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—