Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Cross-Lingual Adaptation of Broadcast Transcription System to Polish Language Using Public Data Sources

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24220%2F15%3A%230003428" target="_blank" >RIV/46747885:24220/15:#0003428 - isvavai.cz</a>

  • Nalezeny alternativní kódy

    RIV/46747885:24220/15:00002973

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Cross-Lingual Adaptation of Broadcast Transcription System to Polish Language Using Public Data Sources

  • Popis výsledku v původním jazyce

    We present methods and procedures designed for cost-efficient adaptation of an existing speech recognition system to Polish. The system (originally built for Czech language) is adapted using common texts and speech recordings accessible from Polish web-pages. The most critical part, an acoustic model (AM) for Polish, is built in several steps, which include: a) an initial bootstrapping phase that utilizes existing Czech AM, b) a lightly-supervised iterative scheme for automatic collection and annotationof Polish speech data, and finally c) acquisition of a large amount of broadcast data in an unsupervised way. The developed system has been evaluated in the task of automatic content monitoring of major Polish TV and Radio stations. Its transcription accuracy (measured on a set of four complete TV news shows with total duration of 105 minutes) reaches almost 80 %. For clean studio speech, its accuracy gets over 92 %.

  • Název v anglickém jazyce

    Cross-Lingual Adaptation of Broadcast Transcription System to Polish Language Using Public Data Sources

  • Popis výsledku anglicky

    We present methods and procedures designed for cost-efficient adaptation of an existing speech recognition system to Polish. The system (originally built for Czech language) is adapted using common texts and speech recordings accessible from Polish web-pages. The most critical part, an acoustic model (AM) for Polish, is built in several steps, which include: a) an initial bootstrapping phase that utilizes existing Czech AM, b) a lightly-supervised iterative scheme for automatic collection and annotationof Polish speech data, and finally c) acquisition of a large amount of broadcast data in an unsupervised way. The developed system has been evaluated in the task of automatic content monitoring of major Polish TV and Radio stations. Its transcription accuracy (measured on a set of four complete TV news shows with total duration of 105 minutes) reaches almost 80 %. For clean studio speech, its accuracy gets over 92 %.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    JC - Počítačový hardware a software

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/TA04010199" target="_blank" >TA04010199: MULTILINMEDIA - Multilinguální platforma pro monitoring a analýzu multimédií</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace

Ostatní

  • Rok uplatnění

    2015

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    7th Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics

  • ISBN

    978-83-932640-8-7

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    5

  • Strana od-do

    181-185

  • Název nakladatele

    Fundancja Uniwersytetu im. Adama Mickiewicza w Poznaniu

  • Místo vydání

    Polsko

  • Místo konání akce

    Polsko, Poznaň

  • Datum konání akce

    1. 1. 2015

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku