Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Spoken Corpora of Slavic Languages

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F22%3A10456702" target="_blank" >RIV/00216208:11210/22:10456702 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://verso.is.cuni.cz/pub/verso.fpl?fname=obd_publikace_handle&handle=qtiZaEwpEg" target="_blank" >https://verso.is.cuni.cz/pub/verso.fpl?fname=obd_publikace_handle&handle=qtiZaEwpEg</a>

  • DOI - Digital Object Identifier

    <a href="http://dx.doi.org/10.1007/s11185-022-09254-9" target="_blank" >10.1007/s11185-022-09254-9</a>

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Spoken Corpora of Slavic Languages

  • Popis výsledku v původním jazyce

    Spoken corpora are collections of transcribed and annotated audio and /or video recordings of languages or language varieties. The aim of this paper is to present an overview of 51 spoken corpora currently available for Slavic languages and dialects, in particular Belarusian, Bulgarian, Croatian, Czech, Polish, Russian, Slovak, Slovenian, Trasianka, Ukrainian/Rusyn. We identify three groups of corpora according to the type of lect: corpora of standard languages (spoken mainly in an urban environment and existing in both written and oral form), dialects (spoken mainly in a rural environment and unwritten), and bilingual varieties (we call bilingual varieties spoken as L2 by people with different L1 languages, as well as all varieties that evolved in a multilingual environment). We survey the corpora in terms of text registers, transcription, and principles of linguistic and extralinguistic annotation. In conclusion, we suggest a list of features that linguists should take into consideration when developing a spoken corpus. Many spoken corpora are currently being created for various Slavic lects, and their developers may use this overview as a source of information on different designs and solutions.

  • Název v anglickém jazyce

    Spoken Corpora of Slavic Languages

  • Popis výsledku anglicky

    Spoken corpora are collections of transcribed and annotated audio and /or video recordings of languages or language varieties. The aim of this paper is to present an overview of 51 spoken corpora currently available for Slavic languages and dialects, in particular Belarusian, Bulgarian, Croatian, Czech, Polish, Russian, Slovak, Slovenian, Trasianka, Ukrainian/Rusyn. We identify three groups of corpora according to the type of lect: corpora of standard languages (spoken mainly in an urban environment and existing in both written and oral form), dialects (spoken mainly in a rural environment and unwritten), and bilingual varieties (we call bilingual varieties spoken as L2 by people with different L1 languages, as well as all varieties that evolved in a multilingual environment). We survey the corpora in terms of text registers, transcription, and principles of linguistic and extralinguistic annotation. In conclusion, we suggest a list of features that linguists should take into consideration when developing a spoken corpus. Many spoken corpora are currently being created for various Slavic lects, and their developers may use this overview as a source of information on different designs and solutions.

Klasifikace

  • Druh

    J<sub>imp</sub> - Článek v periodiku v databázi Web of Science

  • CEP obor

  • OECD FORD obor

    60203 - Linguistics

Návaznosti výsledku

  • Projekt

  • Návaznosti

Ostatní

  • Rok uplatnění

    2022

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název periodika

    Russian Linguistics

  • ISSN

    0304-3487

  • e-ISSN

    1572-8714

  • Svazek periodika

    46

  • Číslo periodika v rámci svazku

    2

  • Stát vydavatele periodika

    NL - Nizozemsko

  • Počet stran výsledku

    17

  • Strana od-do

    77-93

  • Kód UT WoS článku

    000827909200001

  • EID výsledku v databázi Scopus

    2-s2.0-85134600545