Reviving Zellig S. Harris: More linguistic information for distributional lexical analysis of English and Czech
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
Standardní projekty 19 (SGA0201500001)
Main participants
Univerzita Karlova / Matematicko-fyzikální fakulta
Contest type
VS - Public tender
Contract ID
15-20031S
Alternative language
Project name in Czech
Odkaz Zelliga S. Harrise: více lingvistické informace pro distribuční lexikální analýzu angličtiny a češtiny
Annotation in Czech
V posledních letech je všeobecně přijímaným předpokladem, že vzájemná distribuční podobnost dvou slov implikuje jejich denotativní podobnost. Tuto myšlenku matematicky formuloval Zellig S. Harris (1909-1992) jako Distribuční Hypotézu. Třebaže již vznikla řada funkčních distribučně sémantických modelů, mnoho zajímavých problémů u nich ještě přetrvává. Na základě naší lexikografické zkušenosti a Harrisových neprávem opomíjených studií o kookurenci a transformacích se domníváme, že by pomohl cílenější popis syntaktických jevů v bezprostředním kontextu cílového slova.Za účelem takového popisu jsme již vyvinuli tagger identifikující vybrané jevy. Rádi bychom tento nástroj ještě rozvinuli a efekt našeho syntaktického popisu experimentálně ověřili použitím tohoto taggeru při určování vzájemné sémantické blízkosti slov. Začínáme na angličtině a plánujeme pokračovat s češtinou.
Scientific branches
R&D category
ZV - Basic research
CEP classification - main branch
AI - Linguistics
CEP - secondary branch
—
CEP - another secondary branch
—
OECD FORD - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Completed project evaluation
Provider evaluation
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Project results evaluation
The researcher fulfilled the set goals; data sets have been created that the scientific community can use for their research as well as the Udapi platform. The only shortcoming is that although the publication outputs are conclusive, they are of a lower quality, because the outputs in conference proceedings predominate. Formally, the project meets GACR rules.
Solution timeline
Realization period - beginning
Jan 1, 2015
Realization period - end
Nov 29, 2019
Project status
U - Finished project
Latest support payment
Apr 11, 2017
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP20-GA0-GA-U/01:1
Data delivery date
Jul 2, 2020
Finance
Total approved costs
1,979 thou. CZK
Public financial support
1,979 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK