Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Piötòst Ché Niènt, Mèi Piötòst - A Manually Revised Lombard-Italian Parallel Corpus

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F22%3A00127480" target="_blank" >RIV/00216224:14330/22:00127480 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://raslan2022.nlp-consulting.net/" target="_blank" >https://raslan2022.nlp-consulting.net/</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Piötòst Ché Niènt, Mèi Piötòst - A Manually Revised Lombard-Italian Parallel Corpus

  • Popis výsledku v původním jazyce

    The Lombard language is a Gallo-Italic language spoken in the Northern Italian region of Lombardy and some surrounding areas by 3.5 million native speakers in varied spectrum of bilingual settings and fluency. However, it is currently listed as ”definitely endangered” according to UNESCO. Despite some resurging interest in documenting, revitalizing, and using the language, no Natural Language Processing resource was specifically build for Lombard. The only existing LombardItalian parallel corpus was created as part of a bigger multilingual project by scraping aligned text from Wikipedia articles. However, we found the resulting corpus to be faulty, due to noise and erroneous alignments. Our work addresses these issues by providing a cleaner, human-revised version of this resource, which could be used as a stepping stone to build future NLP tools, such as a Machine Translation system.

  • Název v anglickém jazyce

    Piötòst Ché Niènt, Mèi Piötòst - A Manually Revised Lombard-Italian Parallel Corpus

  • Popis výsledku anglicky

    The Lombard language is a Gallo-Italic language spoken in the Northern Italian region of Lombardy and some surrounding areas by 3.5 million native speakers in varied spectrum of bilingual settings and fluency. However, it is currently listed as ”definitely endangered” according to UNESCO. Despite some resurging interest in documenting, revitalizing, and using the language, no Natural Language Processing resource was specifically build for Lombard. The only existing LombardItalian parallel corpus was created as part of a bigger multilingual project by scraping aligned text from Wikipedia articles. However, we found the resulting corpus to be faulty, due to noise and erroneous alignments. Our work addresses these issues by providing a cleaner, human-revised version of this resource, which could be used as a stepping stone to build future NLP tools, such as a Machine Translation system.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

  • OECD FORD obor

    10200 - Computer and information sciences

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/EF19_073%2F0016943" target="_blank" >EF19_073/0016943: Interní grantová agentura Masarykovy univerzity</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach

Ostatní

  • Rok uplatnění

    2022

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Proceedings of the Sixteenth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2022

  • ISBN

    9788026317524

  • ISSN

    2336-4289

  • e-ISSN

  • Počet stran výsledku

    8

  • Strana od-do

    105-112

  • Název nakladatele

    Tribun EU

  • Místo vydání

    Brno

  • Místo konání akce

    Brno

  • Datum konání akce

    1. 1. 2022

  • Typ akce podle státní příslušnosti

    CST - Celostátní akce

  • Kód UT WoS článku