SkELL Corpora as a Part of the Language Portal Sonaveeb: Problems and Perspectives
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F19%3A00111209" target="_blank" >RIV/00216224:14330/19:00111209 - isvavai.cz</a>
Výsledek na webu
<a href="https://elex.link/elex2019/wp-content/uploads/2019/10/eLex-2019_Proceedings.pdf" target="_blank" >https://elex.link/elex2019/wp-content/uploads/2019/10/eLex-2019_Proceedings.pdf</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
SkELL Corpora as a Part of the Language Portal Sonaveeb: Problems and Perspectives
Popis výsledku v původním jazyce
The paper provides an analysis of the quality and presentation of authentic corpus sentences from Sketch Engine for Language Learning (SkELL) corpora (Baisa & Suchomel 2014), based on the example of Sonaveeb (Wordweb), a new language portal being developed in the Institute of the Estonian Language. Currently Sonaveeb contains a total of 150,000 Estonian headwords; about 70,000 of them have Russian equivalents. Authentic corpus sentences are displayed for both languages. In some cases (e.g. terms, derived forms, compounds and multi-word expressions), corpus sentences are the only source of usage examples that are available on the portal. We describe the parameters of Good Dictionary Examples (GDEX) (Kilgarriff et al., 2008) configurations for Estonian and for Russian used for the compilation of etSkELL 2018 and ruSkELL 1.6 corpora, give an overview of an evaluation of the GDEX configuration for Estonian, and outline the requirements for the user-friendly presentation of SkELL corpora as a part of the language portal.
Název v anglickém jazyce
SkELL Corpora as a Part of the Language Portal Sonaveeb: Problems and Perspectives
Popis výsledku anglicky
The paper provides an analysis of the quality and presentation of authentic corpus sentences from Sketch Engine for Language Learning (SkELL) corpora (Baisa & Suchomel 2014), based on the example of Sonaveeb (Wordweb), a new language portal being developed in the Institute of the Estonian Language. Currently Sonaveeb contains a total of 150,000 Estonian headwords; about 70,000 of them have Russian equivalents. Authentic corpus sentences are displayed for both languages. In some cases (e.g. terms, derived forms, compounds and multi-word expressions), corpus sentences are the only source of usage examples that are available on the portal. We describe the parameters of Good Dictionary Examples (GDEX) (Kilgarriff et al., 2008) configurations for Estonian and for Russian used for the compilation of etSkELL 2018 and ruSkELL 1.6 corpora, give an overview of an evaluation of the GDEX configuration for Estonian, and outline the requirements for the user-friendly presentation of SkELL corpora as a part of the language portal.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/LM2015071" target="_blank" >LM2015071: Jazyková výzkumná infrastruktura v České republice</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2019
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the 6th Biennial Conference on Electronic Lexicography
ISBN
—
ISSN
2533-5626
e-ISSN
—
Počet stran výsledku
20
Strana od-do
763-782
Název nakladatele
Lexical Computing CZ s.r.o.
Místo vydání
Brno, Czech Republic
Místo konání akce
Sintra, Portugal
Datum konání akce
1. 10. 2019
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—