Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Korpus ORAL: sestavení, lemmatizace a morfologické značkování

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F17%3A10362531" target="_blank" >RIV/00216208:11210/17:10362531 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Korpus ORAL: sestavení, lemmatizace a morfologické značkování

  • Popis výsledku v původním jazyce

    Příspěvek poskytuje přehled o struktuře a obsahu brzy dostupného mluveného korpusu ORAL, který spojuje dříve publikované korpusy (ORAL2006, ORAL2008 a ORAL2013) s nově přepsaným materiálem do jediného snadno přístupného a bohatěji anotovaného zdroje o přibližné velikosti 6 milionů slov. Nahrávky a příslušné přepisy pochází z let 2002 až 2011; většina z nich zachycuje interakce vzájemně dobře obeznámených řečníků v neformálních situacích a přirozeném prostředí. Korpus je doplněn malou částí formálních dat, většinou veřejných rozhovorů. Je taggován a lemmatizován. Doufáme, že dostupnost takového zdroje vyvolá další diskusi o morfologickém a syntaktickém rozboru mluveného jazyka, což by mohlo v budoucnu vést k radikálnějšímu značkování slovních druhů, které doposud vychází z jazykové analýzy psaného jazyka.

  • Název v anglickém jazyce

    The corpus ORAL: construction, lemmatization and morphological tagging

  • Popis výsledku anglicky

    The goal of this paper is to provide an overview of the structure and contents of the soon-to-be available ORAL corpus, which combines previously published corpora (ORAL2006, ORAL2008 and ORAL2013) with newly transcribed material into a single conveniently accessible and more richly annotated resource, about 6 million running words in length. The recordings and corresponding transcripts span a decade between 2002 and 2011; most of them capture interactions of mutually well-acquainted speakers, in informal situations and natural settings. The corpus is complemented by a marginal portion of more formal data, mostly public talks. It is tagged and lemmatized, and an effort was made to adapt existing tools (targeted at written language) to yield better results on spoken data. We hope the availability of such a resource will spawn further discussions on the morphological and syntactic analysis of spoken language, perhaps resulting in more radical departures in the future from the part-of-speech classification inherited from the linguistic analysis of written language.

Klasifikace

  • Druh

    J<sub>ost</sub> - Ostatní články v recenzovaných periodicích

  • CEP obor

  • OECD FORD obor

    60203 - Linguistics

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/LM2015044" target="_blank" >LM2015044: Český národní korpus</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2017

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název periodika

    Korpus - gramatika - axiologie

  • ISSN

    1804-137X

  • e-ISSN

  • Svazek periodika

    2017

  • Číslo periodika v rámci svazku

    15

  • Stát vydavatele periodika

    CZ - Česká republika

  • Počet stran výsledku

    21

  • Strana od-do

    47-67

  • Kód UT WoS článku

  • EID výsledku v databázi Scopus