Korpusové zpracování korespondenčních textů : morfologické značkování
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14210%2F13%3A00066038" target="_blank" >RIV/00216224:14210/13:00066038 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Korpusové zpracování korespondenčních textů : morfologické značkování
Popis výsledku v původním jazyce
Článek shrnuje zkušenosti s korpusovým zpracováním korespondenčních textů. Pozornost je věnována především lemmatizaci, morfologickému značkování a desambiguaci textů s vysokou frekvencí substandardních jazykových jevů. Při analýze jazyka soukromé korespondence byly také využity zkušenosti získané při morfologickém značkování Brněnského mluveného korpusu. Morfologický analyzátor ajka byl doplněn o nejfrekventovanější substandardní lemmata a slovní tvary, které se vyskytly ve zkoumaných korespondenčníchtextech. V článku jsou dále popsány nutné úpravy morfologického analyzátoru, podíl ruční anotace a získané výsledky.
Název v anglickém jazyce
Corpus processing of corresponding texts : problems of morphological tagging
Popis výsledku anglicky
This article summarizes the experience with the corpus processing of the corresponding texts. Attention is paid mainly lemmatization, morphological tagging and disambiguation of texts with a high frequency of substandard linguistic phenomena. In the language analysis of private correspondence were also used experience gained in morphological tagging of Brno spoken corpus. Morphological analyzer ajka has been supplemented by the most frequent substandard lemmas and word forms that occur in the examined corresponding texts. The procedure for necessary adjustments of morphological analyzer, the proportion of manual editing and the results obtained are specified.
Klasifikace
Druh
C - Kapitola v odborné knize
CEP obor
AI - Jazykověda
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/GAP406%2F10%2F0823" target="_blank" >GAP406/10/0823: Soukromá korespondence 20. století. Rozšíření korpusových zdrojů, nové možnosti lingvistického využití</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2013
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název knihy nebo sborníku
Soukromá korespondence jako lingvistický pramen
ISBN
9788021061408
Počet stran výsledku
13
Strana od-do
19-31
Počet stran knihy
188
Název nakladatele
Masarykova univerzita
Místo vydání
Brno
Kód UT WoS kapitoly
—