Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

ORAL: korpus mluvené češtiny

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F17%3A10366973" target="_blank" >RIV/00216208:11210/17:10366973 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://wiki.korpus.cz/doku.php/en:cnk:oral" target="_blank" >http://wiki.korpus.cz/doku.php/en:cnk:oral</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    ORAL: korpus mluvené češtiny

  • Popis výsledku v původním jazyce

    Korpus ORAL představuje korpus transkriptů nahrávek převážně neformálních rozhovorů rodilých mluvčích češtiny z celého území ČR. Mluvčí se vzájemně dobře znali (jednalo se o přátele nebo rodinné příslušníky) a byli nahráváni ve svém přirozeném prostředí. Nahrávky byly pořizovány v průběhu deseti let, v letech 2002-2011. Korpus není vyvážený, převažují data z české části České republiky (více viz složení korpusu). Transkripce je jednoúrovňová, a pokud to bylo možné, byla spolu s tokenizací sjednocena pro všechny části korpusů. Korpus ORAL sjednocuje korpusy ORAL2006, ORAL2008, ORAL2013 a dosud nepublikované nahrávky ORAL-Z. Celková velikost korpusu je 5 368 391 slov, celkový čas nahrávek je 582 hodin. Část transkriptů není spojena se zvukem (data z korpusů ORAL2006 a ORAL2008). Korpus je lemmatizován a morfologicky označkován. Používá stejný typ morfologických značek jako současné psané korpusy.

  • Název v anglickém jazyce

    ORAL: corpus of informal spoken Czech

  • Popis výsledku anglicky

    The ORAL corpus is a corpus containing the transcribed recordings of predominantly informal conversations taking place between native speakers of Czech from all regions of the Czech Republic. The speakers knew each other very well (they were either friends or family members) and they were recorded in their natural environment. The recordings were made over the course of ten years, between 2002 and 2011. The corpus is not balanced, with the majority of the data originating from the Bohemia region of the Czech Republic (for more visit the corpus structure; Czech only). There is only one level of transcription, and wherever it was possible, it was unified along with tokenization for all parts of the corpus. The ORAL corpus unifies the corpora ORAL2006, ORAL2008, ORAL2013 and the as yet unpublished recordings ORAL-Z. The overall size of the corpus is 5 368 391 words, with a total recording time of 582 hours. Part of the transcripts are not linked to the audio (data from the corpora ORAL2006 and ORAL2008). The corpus is lemmatized and morphologically tagged. It uses the same type of morphological tagging as the contemporary written corpora.

Klasifikace

  • Druh

    S<sub>db</sub> - Specializovaná veřejná databáze

  • CEP obor

  • OECD FORD obor

    60203 - Linguistics

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/LM2015044" target="_blank" >LM2015044: Český národní korpus</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2017

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Číslo předpisu

    LM2015044/ORAL

  • Označení certifikačního orgánu

    Ministerstvo školství, mládeže a tělovýchovy České republiky, Karmelitská 529/5, 118 00 Praha 1

  • Datum certifikace