All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”
7F14047

Harvesting big text data for under-resourced languages

Public support

  • Provider

    Ministry of Education, Youth and Sports

  • Programme

    EEA/Norwegian Financial Mechanism

  • Call for proposals

    Finanční mechanismy EHP/Norsko 1 (SMSM20147F1)

  • Main participants

    Masarykova univerzita / Fakulta informatiky

  • Contest type

    VS - Public tender

  • Contract ID

    MSMT-28477/2014

Alternative language

  • Project name in Czech

    Harvesting big text data for under-resourced languages

  • Annotation in Czech

    Cílem projektu je získat z webu velká textová data (korpusy) pro jazyky s nedostatečnými zdroji, mezi něž patří norština, zčásti čeština a také některé etiopské jazyky (amharština, afaan oromština, tigrinština, somálština). Data budou anotována, parsována tak, aby byla použitelná pro různé aplikace v oblasti počítačového zpracování přirozeného jazyka, např. extrakce informací, strojový překlad a další. Konsorcium bude tvořeno jedním norským týmem (NTNU Trondheim), který se bude věnovat zpracování vzniklých korpusů, a jedním českým týmem (MU Brno), který využije svých již existujících nástrojů pro budování korpusů z webu. Projekt bude koordinován brněnským týmem. Jedním cílem projektu bude vytvoření velkého norského korpusu čítajícího miliardy slovníchtvarů s použitím nástrojů vyvinutých v rámci spolupráce s NTNU v EU projektu PRESEMT ("PRESEMT: Pattern REcognition-based Statistically Enhanced MT", 2010-2012). Za druhé, NTNU spolupracuje s Universitou v Oslo a dvěma etiopskými universitami v projektuna podporujícím budování jazykových zdrojů a fundovaném organizací Norad ("Linguistic Capacity Building ? tools for the inclusive development of Ethiopia", NORHED 2013-2018). Je tedy přirozené propojit tyto aktivity a zahrnout zpracování čtyř velkých etiopských jazyků do předkládaného projektu: projekt HaBiT tak může podpořit a posílit projekt NORHED důkladným testováním technologií a tím adresovat témata evaluace a verifikace a také splnit společenskou výzvu pro informační technologie (ICT). Takto získáme relevantní přidanou hodnotu rovněž po politické stránce prostřednictvím kooperace s méně rozvinutou zemí. Za třetí, budou vytvořeny aplikace pro povrchové zpracování češtiny a norštiny a aspoň jednoho etiopského jazyka, umožňující vyčlenění a zkoumání mnohoznačnosti slov v korpusech, tj. indukci slovních významů a také tvorbu vícevektorových prostorů a paralelních multilinguálních prostorů pro desambiguaci významů slov při překladu.

Scientific branches

  • R&D category

    ZV - Basic research

  • CEP classification - main branch

    IN - Informatics

  • CEP - secondary branch

    AI - Linguistics

  • CEP - another secondary branch

  • OECD FORD - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics

Completed project evaluation

  • Provider evaluation

    V - Vynikající výsledky projektu (s mezinárodním významem atd.)

  • Project results evaluation

    The HABIT project has provided state-of-the-art technology for under-resourced languages, which is a major contribution both scientifically as well as socially/politically. All objectives were achieved, and the number of publications far exceeds what could be expected from a relatively short project such as this one. The networking between partners and other international scholars has been strengthened. The overall project rating is outstanding.

Solution timeline

  • Realization period - beginning

    Jul 15, 2014

  • Realization period - end

    Apr 30, 2017

  • Project status

    U - Finished project

  • Latest support payment

    Apr 13, 2017

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP18-MSM-7F-U/05:1

  • Data delivery date

    Nov 21, 2018

Finance

  • Total approved costs

    24,208 thou. CZK

  • Public financial support

    24,208 thou. CZK

  • Other public sources

    0 thou. CZK

  • Non public and foreign sources

    0 thou. CZK