Odkaz Zelliga S. Harrise: více lingvistické informace pro distribuční lexikální analýzu angličtiny a češtiny
Veřejná podpora
Poskytovatel
Grantová agentura České republiky
Program
Standardní projekty
Veřejná soutěž
Standardní projekty 19 (SGA0201500001)
Hlavní účastníci
Univerzita Karlova / Matematicko-fyzikální fakulta
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
15-20031S
Alternativní jazyk
Název projektu anglicky
Reviving Zellig S. Harris: More linguistic information for distributional lexical analysis of English and Czech
Anotace anglicky
It is a popular truism nowadats that the distributional similarity of two words implies their semantic relatedness. This idea goes back to the American linguist Zellig S. Harris, who formulated it as the Distributional Hypothesis in the fifties, without having the computational capacity to empirically verify it. Although there are a number of working distributional semantic models, there are still many interesting problems left to solve. Based on our lexicographical experience as well as on Harris' studies on co-occurrences and transformations we hypothesize that there is still leeway for improvement in the description of the syntactic structure of a word's immediate context and want to attempt at one. We have developed a preliminary version of a rule-based tagger that explicitly records the (to our intuition) most relevant syntactic phenomena. We are ready to accomplish it and to experimentally evaluate its effect on the automatic assessment of semantic relatedness between words. We focus on English and will proceed to Czech.
Vědní obory
Kategorie VaV
ZV - Základní výzkum
CEP - hlavní obor
AI - Jazykověda
CEP - vedlejší obor
—
CEP - další vedlejší obor
—
OECD FORD - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Hodnocení dokončeného projektu
Hodnocení poskytovatelem
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Zhodnocení výsledků projektu
Řešitelka splnila vytčené cíle; byly vytvořeny datové soubory, které vědecká komunita může využívat pro svůj výzkum, stejně tak i platformu Udapi. Jedinou výtkou je, že publikační výstupy jsou sice průkazné, ale méně kvalitní, protože převažují zejména výstupy v konferenčních sbornících, což neodpovídá původnímu záměru. Po formální stránce projekt splňuje pravidla GAČR.
Termíny řešení
Zahájení řešení
1. 1. 2015
Ukončení řešení
29. 11. 2019
Poslední stav řešení
U - Ukončený projekt
Poslední uvolnění podpory
11. 4. 2017
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP20-GA0-GA-U/01:1
Datum dodání záznamu
2. 7. 2020
Finance
Celkové uznané náklady
1 979 tis. Kč
Výše podpory ze státního rozpočtu
1 979 tis. Kč
Ostatní veřejné zdroje financování
0 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč