All
All

What are you looking for?

All
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Verb Class Analysis Accelerator for Low-Resource Languages - RoboCorp

Project goals

More than half of world's languages are endangered and expected to die out during this century. Most of such languages are typically not written but their documentation is very time consuming. Yet, the question of quantify, i.e. how much language data has to be aggregated to provide a comprehensive record of a language, has not been resolved. Low-resource languages are typically studied by a single linguist, whose observations pose challenges falsifiability, verifiability, and reproducibility. This project brings together descriptive linguistics, natural language processing, mathematical analysis and machine learning to overcome manpower and methodological challenges faced by low-resource languages. Focusing on the theoretical problem of verb classes, known for its complexity, we create a workflow for three languages of our expertise (Abui, Sawila, Indonesian) significantly accelerating the linguistic analysis of this problem and producing verifiable and reproducible results that will impact the international debate on this topic.

Keywords

endangered/low-resource languagesverb classesmachine learningnatural language processingverb classes

Public support

  • Provider

    Czech Science Foundation

  • Programme

    Standard projects

  • Call for proposals

    SGA0202000001

  • Main participants

    Univerzita Palackého v Olomouci / Filozofická fakulta

  • Contest type

    VS - Public tender

  • Contract ID

    20-18407S

Alternative language

  • Project name in Czech

    Automatizace analýzy slovesných tříd pro ohrožené jazyky - RoboCorp

  • Annotation in Czech

    Více než polovina jazyků na světě je ohrožená a očekává se, že jich velká část v tomto století vymře. Takové jazyky většinou nemají psanou formu a zároveň není jasné, kolik dat je nutno shromáždit, aby bylo možné věrohodně zachytit jejich komplexní charakter. Navíc jsou takové jazyky často studovány pouze jediným jazykovědcem, což vyvolává pochybnosti o objektivnosti vyvozených závěrů a věrohodnosti popisu. Tento projekt propojuje popisnou jazykovědu, zpracování přirozeného jazyka, matematickou analýzu a strojové učení za účelem urychlení a zkvalitnění analýzy ohrožených jazyků. V rámci tohoto projektu se zaměříme na problematiku slovesných tříd v indonéštině a dvou ohrožených papuánských jazycích abui a sawila. Svými typologickými vlastnostmí jsou tyto jazyky pro otázku slovesných tříd významné. Interdisciplinární přístup nám umožní významně urychlit řešení tohoto problému a přispět do mezinárodní debaty na dané téma.

Scientific branches

  • R&D category

    ZV - Basic research

  • OECD FORD - main branch

    50803 - Information science (social aspects)

  • OECD FORD - secondary branch

  • OECD FORD - another secondary branch

  • AF - Documentation, librarianship, work with information

Solution timeline

  • Realization period - beginning

    Jan 1, 2020

  • Realization period - end

    Jun 30, 2023

  • Project status

  • Latest support payment

    Apr 1, 2023

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP24-GA0-GA-R

  • Data delivery date

    May 21, 2024

Finance

  • Total approved costs

    3,896 thou. CZK

  • Public financial support

    3,800 thou. CZK

  • Other public sources

    96 thou. CZK

  • Non public and foreign sources

    0 thou. CZK

Basic information

Recognised costs

3 896 CZK thou.

Public support

3 800 CZK thou.

97%


Provider

Czech Science Foundation

OECD FORD

Information science (social aspects)

Solution period

01. 01. 2020 - 30. 06. 2023