LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat

Cíle projektu

Projekt LINDAT-CLARIN je koncipován jako český uzel mezinárodní sítě Clarin (Common Language Resources and Technology Infrastructure, FP7-RI-2122230) a projektu META-NET (Technologies for the Multilingual European Information Society, NoE, 2011-2014, FP7-ICT-4-249119) pro volné sdílení jazykových dat a pokročilých technologií mezi institucemi a jednotlivci ve vědě a výzkumu. Tyto evropské projekty mají za cíl překážky volného přístupu k jazykovým datům postupně odstranit a umožnit národně distribuované,ale technologicky jednotné poskytování jazykových dat a souvisejících technologií všem zájemcům. V oblasti anotace dat je cílem projektu pořídit tato data v dostatečném rozsahu pro praktickou aplikaci statistického modelování jazyka jako nutnou podmínkupro aplikaci těchto modelů v praxi (korektory textu, automatický překlad, extrakce informací z textu, porozumění textu, dialogové systémy apod.). V oblasti distribuce dat je cílem poskytovat službu repozitáře pro úschovu, licencování a poskytování dat vrámci celoevropské sítě Clarin a META-SHARE (součást projektu META-NET). V oblasti technologické i v oblasti lidských zdrojů je cílem vybudování know-how v oblasti sběru, úschovy, tvorby a distribuce dat, které bude možno poskytovat i externím subjektům. Přitom je třeba vyškolit jazykové odborníky i odborníky z oblasti technologií (informatika, statistika, matematické modelování) tak, aby byli schopni v tomto výrazné mezioborovém projektu efektivně pracovat. Nezanedbatelným cílem projektu je vychovat další vědeckou generaci, která bude umět s jazykovými daty pracovat, správně je analyzovat a používat v národním i mezinárodním kontextu, a spolupracovat v rámci EU i mimo ni na budoucích projektech využívajících moderní jazykové technologie.

Klíčová slova

language resources langauge databases public access to scientific data langauge corpora machine translation natural language processing computational linguistics

Veřejná podpora

Poskytovatel
Ministerstvo školství, mládeže a tělovýchovy
Program
Projekty velkých výzkumných infrastruktur
Veřejná soutěž
—
Hlavní účastníci
Masarykova univerzita / Fakulta informatiky
Univerzita Karlova / Matematicko-fyzikální fakulta
Druh soutěže
VL - Schváleno vládou
Číslo smlouvy
23754/2010-320

Alternativní jazyk

Název projektu anglicky
LINDAT-CLARIN: Institute for analysis, processing and distribution of linguistic data
Anotace anglicky
The project LINDAT-CLARIN is a node of the international network Clarin (Common Language Resources and Technology Infrastructure, FP7-RI-2122230) and the EU project META-NET (Technologies for the Multilingual European Information Society, NoE, 2011-2014,FP7-ICT-4-249119) for public sharing of linguistic resources (data) and the corresponding advanced technologies among institutions and individuals involved in science, and research. These EU projects aim at diminishing or removing obstacles to truly free and easy access to linguistic resources through distributed yet technologically unified means. LINDAT-CLARIN aims at collection and annotation of sufficiently large resources to be used in statistically formulated models of natural language analysis and production, to serve in turn as a basis for future NLP applications (grammar checkers and correctors, machine translation, information extraction, language understanding, dialog systems etc.). In the area of data distribution, LINDAT-CLARIN?s aim is tocreate and service a national node for both Clarin and as part of the META-SHARE network (part of META-NET). In the area of technology and human resources, the goal is to create know-how in the area of collection, creation, annotation, archiving, licensing and distribution of linguistic resources that can be shared with others. Substantial part of this goal is to educate and train researchers in both linguistics and other technologies (computer science, mathematics and statistics) to effectively work together in this multidisciplinary area. Last but not least, the project should produce a new generation of interdisciplinary scientists and researchers able to work with linguistic resources, analyze them and use them in national and international context, and collaborate thus on a world-wide basis on future projects involving modern language technologies.

Vědní obory

Kategorie VaV
IF - Infrastruktura výzkumu, vývoje a inovací
CEP - hlavní obor
AI - Jazykověda
CEP - vedlejší obor
IN - Informatika
CEP - další vedlejší obor
—
OECD FORD - odpovídající obory
(dle převodníku)
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
60201 - General language studies
60202 - Specific languages
60203 - Linguistics

Hodnocení dokončeného projektu

Hodnocení poskytovatelem
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Zhodnocení výsledků projektu
Velká infrastruktura je velmi dobře ukotvena do mezinárodní výzkumné komunity v Evropě i zámoří. Již je využívána velkou uživatelskou komunity. To signalizuje, že infrastruktura dosáhla zralé fáze, která umožňuje ještě robustnější použití v budoucnu. Stávající portfolio služeb pokrývá sadu nástrojů potřebných pro počítačem asistované lingvistické analýzy.

Termíny řešení

Zahájení řešení
1. 1. 2010
Ukončení řešení
31. 12. 2015
Poslední stav řešení
U - Ukončený projekt
Poslední uvolnění podpory
16. 7. 2015

Dodání dat do CEP

Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP16-MSM-LM-U/02:1
Datum dodání záznamu
15. 9. 2017

Finance

Celkové uznané náklady
120 904 tis. Kč
Výše podpory ze státního rozpočtu
120 904 tis. Kč
Ostatní veřejné zdroje financování
0 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč

Základní informace

Uznané náklady

120 904 tis. Kč

Statní podpora

120 904 tis. Kč

100%

Poskytovatel

Ministerstvo školství, mládeže a tělovýchovy

CEP

AI - Jazykověda

Doba řešení

01. 01. 2010 - 31. 12. 2015

Podobné projekty(10)

Jazyková výzkumná infrastruktura v České republice (LM2015071) Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (LM2018101) Budování výzkumně-vzdělávacího týmu v oblasti modelování přírodních jevů a využití geoinformačních systémů, s vazbou na zapojení do mezinárodních sítí a programů. (EE2.3.20.0170)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Sdílet výsledky vyhledávání

LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat

Cíle projektu

Klíčová slova

Veřejná podpora

Alternativní jazyk

Vědní obory

Hodnocení dokončeného projektu

Termíny řešení

Dodání dat do CEP

Finance

Základní informace

120 904 tis. Kč

120 904 tis. Kč

100%

Podobné projekty(10)