DiENaLs: Diagnostické a evaluační nástroje pro lingvistický software
Cíle projektu
S rozvojem aplikačního softwaru zaměřeného na zpracování přirozeného jazyka se ukazují jako velmi důležité následující požadavky: vymezení oblasti českého jazyka (slovní zásoby, gramatiky a stylové správnosti), kterou by každá aplikace měla v přiměřené míře pokrývat; existence nástrojů na testování tohoto pokrytí a na vyhodnocování výsledků těchto testů. Pro češtinu neexistuje žádný jazykový zdroj či softwarový nástroj, který by tyto požadavky splňoval. Proto je cílem předkládaného projektu: definovat metodiku vytváření dostatečně obsáhlé testovací sady pro češtinu; navrhnout a implementovat databázi, která zajistí vytvoření, uložení, snadnou aplikaci, údržbu a přenositelnost této sady.
Klíčová slova
software for natural language processingproofing and evaluation toolstest suitesclassification and hierarchy of language phenomenarepresentativity of a test suitecoverage of languagecoverage of errors in language
Veřejná podpora
Poskytovatel
Akademie věd České republiky
Program
Informační společnost (Národní program výzkumu)
Veřejná soutěž
Informační společnost 1 (SAV02004-IS)
Hlavní účastníci
—
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
1ET100610409
Alternativní jazyk
Název projektu anglicky
DiENaLS: Diagnostic and Evaluation Tools for Linguistic Software
Anotace anglicky
With the ongoing development of application software for natural language processing, the following requirements gain crucial importance: the definition of a broad enough area of Czech language (lexicon, grammar, style) to be covered, to an appropriate extent, by any such application; the existence of proofing and evaluation tools for checking the quality of the coverage. For the Czech language, there exists no language source or software tool meeting these requirements. Therefore, the aim of the proposed project is: to define a methodology of the build-up of a broad-coverage test-suite for Czech; to design and implement a database serving for the creation, storing, an easy application, maintenance and portability of the test-suite.
Vědní obory
Kategorie VaV
NV - Neprůmyslový výzkum (aplikovaný výzkum s výjimkou průmyslového)
CEP - hlavní obor
AI - Jazykověda
CEP - vedlejší obor
IN - Informatika
CEP - další vedlejší obor
—
OECD FORD - odpovídající obory
(dle převodníku)10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
60201 - General language studies
60202 - Specific languages
60203 - Linguistics
Hodnocení dokončeného projektu
Hodnocení poskytovatelem
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Zhodnocení výsledků projektu
Výsledkem projektu jsou dvě rozsáhlé databáze příkladů syntaktických a lexikálních jevů češtiny, sloužící k ověřování kvality jazykového softwaru (např. spelling-checkerů a grammar-checkerů). Součástí výsledku jsou i vyhodnocovací nástroje.
Termíny řešení
Zahájení řešení
1. 7. 2004
Ukončení řešení
31. 12. 2007
Poslední stav řešení
U - Ukončený projekt
Poslední uvolnění podpory
28. 2. 2007
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP08-AV0-1E-U/02:2
Datum dodání záznamu
4. 5. 2009
Finance
Celkové uznané náklady
8 999 tis. Kč
Výše podpory ze státního rozpočtu
8 999 tis. Kč
Ostatní veřejné zdroje financování
0 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč
Základní informace
Uznané náklady
8 999 tis. Kč
Statní podpora
8 999 tis. Kč
100%
Poskytovatel
Akademie věd České republiky
CEP
AI - Jazykověda
Doba řešení
01. 07. 2004 - 31. 12. 2007