Harvesting big text data for under-resourced languages
Veřejná podpora
Poskytovatel
Ministerstvo školství, mládeže a tělovýchovy
Program
Finanční mechanismy EHP/Norsko
Veřejná soutěž
Finanční mechanismy EHP/Norsko 1 (SMSM20147F1)
Hlavní účastníci
Masarykova univerzita / Fakulta informatiky
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
MSMT-28477/2014
Alternativní jazyk
Název projektu anglicky
Harvesting big text data for under-resourced languages
Anotace anglicky
The main goal of the project is to harvest from the Web big text data (corpora) for under-resourced languages, which includes Norwegian, partly Czech and also the major languages in Ethiopia (Amharic, Afaan Oromo, Tigrinya, Somali). The data will be annotated and parsed to make it usable in various language processing applications. The consortium will include a team from the Czech Republic (Masaryk University, Brno), which will use its existing tools for building Web corpora and coordinate the project,and a Norwegian team (NTNU, Trondheim), which will deal with processing and utilizing the compiled corpora. One of the project?s aims will be to build a multi-billion word Norwegian corpus using the tools co-developed by Masaryk University and utilized in a joint EU-funded project with NTNU ("PRESEMT: Pattern REcognition-based Statistically Enhanced MT", 2010-2012). Second, NTNU collaborate with University of Oslo and two Ethiopian universities in a project to support linguistic resource building in Ethiopia funded by Norad ("Linguistic Capacity Building ? tools for the inclusive development of Ethiopia", NORHED 2013-2018). It is natural to link these activities and to include processing of the four major languages in Ethiopia in the present project: The HaBiT project would be able to feed into and leverage on the NORHED project, thoroughly testing the technologies and thus addressing also the call topics on technology assessment, verification and testing, as well as on ICT meeting societal challenges, hence obtaining a relevant added value also in the political respect through cooperation with a less-developed country. Third, shallow processing applications for Czech and Norwegian, and at least one Ethiopian language, would be built, for investigating and separating multiple senses of the words in the corpora - for word sense induction, as well as for creating multi-sense vector spaces and parallel multilingual vector spaces for word translation disambiguation.
Vědní obory
Kategorie VaV
ZV - Základní výzkum
CEP - hlavní obor
IN - Informatika
CEP - vedlejší obor
AI - Jazykověda
CEP - další vedlejší obor
—
OECD FORD - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Hodnocení dokončeného projektu
Hodnocení poskytovatelem
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Zhodnocení výsledků projektu
Projekt HABIT poskytl nejmodernější technologii pro jazyky s nedostatečnými zdroji, což je významný přínos jak vědecky, tak i sociálně / politicky. Všechny cíle byly dosaženy a počet publikací daleko přesahuje to, co lze očekávat z relativně krátkého projektu, jako je tento projekt. Bylo posíleno vytváření sítí mezi partnery a dalšími mezinárodními badateli. Celkové hodnocení projektu je vynikající.
Termíny řešení
Zahájení řešení
15. 7. 2014
Ukončení řešení
30. 4. 2017
Poslední stav řešení
U - Ukončený projekt
Poslední uvolnění podpory
13. 4. 2017
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP18-MSM-7F-U/05:1
Datum dodání záznamu
21. 11. 2018
Finance
Celkové uznané náklady
24 208 tis. Kč
Výše podpory ze státního rozpočtu
24 208 tis. Kč
Ostatní veřejné zdroje financování
0 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč