Splitting and Identifying Czech Compounds: A Pilot Study
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F21%3A10440580" target="_blank" >RIV/00216208:11320/21:10440580 - isvavai.cz</a>
Výsledek na webu
<a href="http://nabil.hathout.free.fr/DeriMo2021/pdf-files/DeriMo_2021_paper_14.pdf" target="_blank" >http://nabil.hathout.free.fr/DeriMo2021/pdf-files/DeriMo_2021_paper_14.pdf</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Splitting and Identifying Czech Compounds: A Pilot Study
Popis výsledku v původním jazyce
We present pilot experiments on splitting and identifying Czech compound words. We created an algorithm measuring the linguistic similarity of two words based on finding the shortest path through a matrix of mutual estimated correspondences between two phonemic strings. Additionally, a neural compound-splitting tool (Czech Compound Splitter) was implemented by using the Marian Neural Machine Translator framework, which was trained on a data set containing 1,164 hand-annotated compounds and about 280,000 synthetically created compounds. In compound splitting, the first solution achieved an accuracy of 28% and the second solution achieved 54% on a separate validation data set. In compound identification, the Czech Compound Splitter achieved an accuracy of 91%.
Název v anglickém jazyce
Splitting and Identifying Czech Compounds: A Pilot Study
Popis výsledku anglicky
We present pilot experiments on splitting and identifying Czech compound words. We created an algorithm measuring the linguistic similarity of two words based on finding the shortest path through a matrix of mutual estimated correspondences between two phonemic strings. Additionally, a neural compound-splitting tool (Czech Compound Splitter) was implemented by using the Marian Neural Machine Translator framework, which was trained on a data set containing 1,164 hand-annotated compounds and about 280,000 synthetically created compounds. In compound splitting, the first solution achieved an accuracy of 28% and the second solution achieved 54% on a separate validation data set. In compound identification, the Czech Compound Splitter achieved an accuracy of 91%.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the Third International Workshop on Resources and Tools for Derivational Morphology (DeriMo 2021)
ISBN
978-2-9580006-0-8
ISSN
—
e-ISSN
—
Počet stran výsledku
10
Strana od-do
129-138
Název nakladatele
ATILF
Místo vydání
Nancy, France
Místo konání akce
Online
Datum konání akce
9. 9. 2021
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—