Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

ÚFAL Submission for SIGTYP Supervised Cognate Detection Task

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F23%3A10476180" target="_blank" >RIV/00216208:11320/23:10476180 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://aclanthology.org/2023.sigtyp-1.14" target="_blank" >https://aclanthology.org/2023.sigtyp-1.14</a>

  • DOI - Digital Object Identifier

    <a href="http://dx.doi.org/10.18653/v1/2023.sigtyp-1.14" target="_blank" >10.18653/v1/2023.sigtyp-1.14</a>

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    ÚFAL Submission for SIGTYP Supervised Cognate Detection Task

  • Popis výsledku v původním jazyce

    In this work, I present ÚFAL submission for the supervised task of detecting cognates and derivatives. Cognates are word pairs in different languages sharing the origin in earlier attested forms in ancestral language, while derivatives come directly from another language. For the task, I developed gradient boosted tree classifier trained on linguistic and statistical features. The solution came first from two delivered systems with an 87% F1 score on the test split. This write-up gives an insight into the system and shows the importance of using linguistic features and character-level statistics for the task.

  • Název v anglickém jazyce

    ÚFAL Submission for SIGTYP Supervised Cognate Detection Task

  • Popis výsledku anglicky

    In this work, I present ÚFAL submission for the supervised task of detecting cognates and derivatives. Cognates are word pairs in different languages sharing the origin in earlier attested forms in ancestral language, while derivatives come directly from another language. For the task, I developed gradient boosted tree classifier trained on linguistic and statistical features. The solution came first from two delivered systems with an 87% F1 score on the test split. This write-up gives an insight into the system and shows the importance of using linguistic features and character-level statistics for the task.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

  • Návaznosti

    S - Specificky vyzkum na vysokych skolach

Ostatní

  • Rok uplatnění

    2023

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Proceedings of the 5th Workshop on Research in Computational Linguistic Typology and Multilingual NLP

  • ISBN

    978-1-959429-56-2

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    5

  • Strana od-do

    132-136

  • Název nakladatele

    Association for Computational Linguistics

  • Místo vydání

    Stroudsburg, PA, USA

  • Místo konání akce

    Dubrovnik, Croatia

  • Datum konání akce

    2. 5. 2023

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku