Morfologické značkování mluvených korpusů, zkušenosti a otevřené otázky
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F08%3A00024286" target="_blank" >RIV/00216224:14330/08:00024286 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Morfologické značkování mluvených korpusů, zkušenosti a otevřené otázky
Popis výsledku v původním jazyce
Cílem příspěvku je: a) Stručně shrnout zkušenosti získané při úpravách nástrojů primárně určených pro automatickou morfologickou analýzu psané češtiny s cílem rozšířit jejich použitelnost pro anotace mluvených korpusů. b) Představit nástroj upravenou verzi automatického morfologického analyzátoru ajka použitou pro automatické značkování mluvených korpusů. c) Podělit se o konkrétní zkušenosti s automatickou morfologickou analýzou a následnou ruční disambiguací automaticky označkovaných částí Brněnského mluveného korpusu (BMK) a Korpusu soukromé korespondence (KSK) oba vytvořeny v Ústavu českého jazyka FF MU. d) Na základě výše uvedených zkušeností zhodnotit klady a zápory, meze a možnosti automatické morfologické analýzy mluvených textů.
Název v anglickém jazyce
Tagging of Spoken Corpora
Popis výsledku anglicky
The aim of this paper is a) to summarize the conditions of tagging of spoken corpora, b) to project morphological tagger ajka, version for spoken czech corpora, c) to communicate the experienc of tagging and manual disambiguation of two corpora (bmk Corpus of spoken Czech in Brno and ksk Corpus of private corespondence) and d) to sum up pros and cones of authomatical morphological analysis of spoken corpora.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
AI - Jazykověda
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/1ET200610406" target="_blank" >1ET200610406: Jazyková poradna na internetu</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2008
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Čeština v mluveném korpusu
ISBN
978-80-7106-982-9
ISSN
—
e-ISSN
—
Počet stran výsledku
10
Strana od-do
—
Název nakladatele
Nakladatelství Lidové noviny/ Ústav Českého národního korpusu
Místo vydání
Praha
Místo konání akce
Praha
Datum konání akce
1. 1. 2008
Typ akce podle státní příslušnosti
CST - Celostátní akce
Kód UT WoS článku
—