Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Splitting and Identifying Czech Compounds: A Pilot Study

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F21%3A10440580" target="_blank" >RIV/00216208:11320/21:10440580 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://nabil.hathout.free.fr/DeriMo2021/pdf-files/DeriMo_2021_paper_14.pdf" target="_blank" >http://nabil.hathout.free.fr/DeriMo2021/pdf-files/DeriMo_2021_paper_14.pdf</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Splitting and Identifying Czech Compounds: A Pilot Study

  • Popis výsledku v původním jazyce

    We present pilot experiments on splitting and identifying Czech compound words. We created an algorithm measuring the linguistic similarity of two words based on finding the shortest path through a matrix of mutual estimated correspondences between two phonemic strings. Additionally, a neural compound-splitting tool (Czech Compound Splitter) was implemented by using the Marian Neural Machine Translator framework, which was trained on a data set containing 1,164 hand-annotated compounds and about 280,000 synthetically created compounds. In compound splitting, the first solution achieved an accuracy of 28% and the second solution achieved 54% on a separate validation data set. In compound identification, the Czech Compound Splitter achieved an accuracy of 91%.

  • Název v anglickém jazyce

    Splitting and Identifying Czech Compounds: A Pilot Study

  • Popis výsledku anglicky

    We present pilot experiments on splitting and identifying Czech compound words. We created an algorithm measuring the linguistic similarity of two words based on finding the shortest path through a matrix of mutual estimated correspondences between two phonemic strings. Additionally, a neural compound-splitting tool (Czech Compound Splitter) was implemented by using the Marian Neural Machine Translator framework, which was trained on a data set containing 1,164 hand-annotated compounds and about 280,000 synthetically created compounds. In compound splitting, the first solution achieved an accuracy of 28% and the second solution achieved 54% on a separate validation data set. In compound identification, the Czech Compound Splitter achieved an accuracy of 91%.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

    Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2021

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Proceedings of the Third International Workshop on Resources and Tools for Derivational Morphology (DeriMo 2021)

  • ISBN

    978-2-9580006-0-8

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    10

  • Strana od-do

    129-138

  • Název nakladatele

    ATILF

  • Místo vydání

    Nancy, France

  • Místo konání akce

    Online

  • Datum konání akce

    9. 9. 2021

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku