Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”
7F14047

Harvesting big text data for under-resourced languages

Veřejná podpora

  • Poskytovatel

    Ministerstvo školství, mládeže a tělovýchovy

  • Program

    Finanční mechanismy EHP/Norsko

  • Veřejná soutěž

    Finanční mechanismy EHP/Norsko 1 (SMSM20147F1)

  • Hlavní účastníci

    Masarykova univerzita / Fakulta informatiky

  • Druh soutěže

    VS - Veřejná soutěž

  • Číslo smlouvy

    MSMT-28477/2014

Alternativní jazyk

  • Název projektu anglicky

    Harvesting big text data for under-resourced languages

  • Anotace anglicky

    The main goal of the project is to harvest from the Web big text data (corpora) for under-resourced languages, which includes Norwegian, partly Czech and also the major languages in Ethiopia (Amharic, Afaan Oromo, Tigrinya, Somali). The data will be annotated and parsed to make it usable in various language processing applications. The consortium will include a team from the Czech Republic (Masaryk University, Brno), which will use its existing tools for building Web corpora and coordinate the project,and a Norwegian team (NTNU, Trondheim), which will deal with processing and utilizing the compiled corpora. One of the project?s aims will be to build a multi-billion word Norwegian corpus using the tools co-developed by Masaryk University and utilized in a joint EU-funded project with NTNU ("PRESEMT: Pattern REcognition-based Statistically Enhanced MT", 2010-2012). Second, NTNU collaborate with University of Oslo and two Ethiopian universities in a project to support linguistic resource building in Ethiopia funded by Norad ("Linguistic Capacity Building ? tools for the inclusive development of Ethiopia", NORHED 2013-2018). It is natural to link these activities and to include processing of the four major languages in Ethiopia in the present project: The HaBiT project would be able to feed into and leverage on the NORHED project, thoroughly testing the technologies and thus addressing also the call topics on technology assessment, verification and testing, as well as on ICT meeting societal challenges, hence obtaining a relevant added value also in the political respect through cooperation with a less-developed country. Third, shallow processing applications for Czech and Norwegian, and at least one Ethiopian language, would be built, for investigating and separating multiple senses of the words in the corpora - for word sense induction, as well as for creating multi-sense vector spaces and parallel multilingual vector spaces for word translation disambiguation.

Vědní obory

  • Kategorie VaV

    ZV - Základní výzkum

  • CEP - hlavní obor

    IN - Informatika

  • CEP - vedlejší obor

    AI - Jazykověda

  • CEP - další vedlejší obor

  • OECD FORD - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics

Hodnocení dokončeného projektu

  • Hodnocení poskytovatelem

    V - Vynikající výsledky projektu (s mezinárodním významem atd.)

  • Zhodnocení výsledků projektu

    Projekt HABIT poskytl nejmodernější technologii pro jazyky s nedostatečnými zdroji, což je významný přínos jak vědecky, tak i sociálně / politicky. Všechny cíle byly dosaženy a počet publikací daleko přesahuje to, co lze očekávat z relativně krátkého projektu, jako je tento projekt. Bylo posíleno vytváření sítí mezi partnery a dalšími mezinárodními badateli. Celkové hodnocení projektu je vynikající.

Termíny řešení

  • Zahájení řešení

    15. 7. 2014

  • Ukončení řešení

    30. 4. 2017

  • Poslední stav řešení

    U - Ukončený projekt

  • Poslední uvolnění podpory

    13. 4. 2017

Dodání dat do CEP

  • Důvěrnost údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Systémové označení dodávky dat

    CEP18-MSM-7F-U/05:1

  • Datum dodání záznamu

    21. 11. 2018

Finance

  • Celkové uznané náklady

    24 208 tis. Kč

  • Výše podpory ze státního rozpočtu

    24 208 tis. Kč

  • Ostatní veřejné zdroje financování

    0 tis. Kč

  • Neveřejné tuz. a zahr. zdroje finan.

    0 tis. Kč