Verb Class Analysis Accelerator for Low-Resource Languages - RoboCorp
Project goals
More than half of world's languages are endangered and expected to die out during this century. Most of such languages are typically not written but their documentation is very time consuming. Yet, the question of quantify, i.e. how much language data has to be aggregated to provide a comprehensive record of a language, has not been resolved. Low-resource languages are typically studied by a single linguist, whose observations pose challenges falsifiability, verifiability, and reproducibility. This project brings together descriptive linguistics, natural language processing, mathematical analysis and machine learning to overcome manpower and methodological challenges faced by low-resource languages. Focusing on the theoretical problem of verb classes, known for its complexity, we create a workflow for three languages of our expertise (Abui, Sawila, Indonesian) significantly accelerating the linguistic analysis of this problem and producing verifiable and reproducible results that will impact the international debate on this topic.
Keywords
endangered/low-resource languagesverb classesmachine learningnatural language processingverb classes
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
SGA0202000001
Main participants
Univerzita Palackého v Olomouci / Filozofická fakulta
Contest type
VS - Public tender
Contract ID
20-18407S
Alternative language
Project name in Czech
Automatizace analýzy slovesných tříd pro ohrožené jazyky - RoboCorp
Annotation in Czech
Více než polovina jazyků na světě je ohrožená a očekává se, že jich velká část v tomto století vymře. Takové jazyky většinou nemají psanou formu a zároveň není jasné, kolik dat je nutno shromáždit, aby bylo možné věrohodně zachytit jejich komplexní charakter. Navíc jsou takové jazyky často studovány pouze jediným jazykovědcem, což vyvolává pochybnosti o objektivnosti vyvozených závěrů a věrohodnosti popisu. Tento projekt propojuje popisnou jazykovědu, zpracování přirozeného jazyka, matematickou analýzu a strojové učení za účelem urychlení a zkvalitnění analýzy ohrožených jazyků. V rámci tohoto projektu se zaměříme na problematiku slovesných tříd v indonéštině a dvou ohrožených papuánských jazycích abui a sawila. Svými typologickými vlastnostmí jsou tyto jazyky pro otázku slovesných tříd významné. Interdisciplinární přístup nám umožní významně urychlit řešení tohoto problému a přispět do mezinárodní debaty na dané téma.
Scientific branches
Solution timeline
Realization period - beginning
Jan 1, 2020
Realization period - end
Jun 30, 2023
Project status
—
Latest support payment
Apr 1, 2023
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP24-GA0-GA-R
Data delivery date
May 21, 2024
Finance
Total approved costs
3,896 thou. CZK
Public financial support
3,800 thou. CZK
Other public sources
96 thou. CZK
Non public and foreign sources
0 thou. CZK
Basic information
Recognised costs
3 896 CZK thou.
Public support
3 800 CZK thou.
97%
Provider
Czech Science Foundation
OECD FORD
Information science (social aspects)
Solution period
01. 01. 2020 - 30. 06. 2023