Odkaz Zelliga S. Harrise: více lingvistické informace pro distribuční lexikální analýzu angličtiny a češtiny

Název projektu anglicky
Reviving Zellig S. Harris: More linguistic information for distributional lexical analysis of English and Czech
Anotace anglicky
It is a popular truism nowadats that the distributional similarity of two words implies their semantic relatedness. This idea goes back to the American linguist Zellig S. Harris, who formulated it as the Distributional Hypothesis in the fifties, without having the computational capacity to empirically verify it. Although there are a number of working distributional semantic models, there are still many interesting problems left to solve. Based on our lexicographical experience as well as on Harris' studies on co-occurrences and transformations we hypothesize that there is still leeway for improvement in the description of the syntactic structure of a word's immediate context and want to attempt at one. We have developed a preliminary version of a rule-based tagger that explicitly records the (to our intuition) most relevant syntactic phenomena. We are ready to accomplish it and to experimentally evaluate its effect on the automatic assessment of semantic relatedness between words. We focus on English and will proceed to Czech.

Kategorie VaV
ZV - Základní výzkum
CEP - hlavní obor
AI - Jazykověda
CEP - vedlejší obor
—
CEP - další vedlejší obor
—
OECD FORD - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics

Hodnocení poskytovatelem
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Zhodnocení výsledků projektu
Řešitelka splnila vytčené cíle; byly vytvořeny datové soubory, které vědecká komunita může využívat pro svůj výzkum, stejně tak i platformu Udapi. Jedinou výtkou je, že publikační výstupy jsou sice průkazné, ale méně kvalitní, protože převažují zejména výstupy v konferenčních sbornících, což neodpovídá původnímu záměru. Po formální stránce projekt splňuje pravidla GAČR.

Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP20-GA0-GA-U/01:1
Datum dodání záznamu
2. 7. 2020

Podobné projekty(10)