Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

BCN2BRNO Automatic speech recognition system for Albayzin 2022 Speech to Text Challenge

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F22%3APR37717" target="_blank" >RIV/00216305:26230/22:PR37717 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://www.fit.vut.cz/research/product/797/" target="_blank" >https://www.fit.vut.cz/research/product/797/</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    BCN2BRNO Automatic speech recognition system for Albayzin 2022 Speech to Text Challenge

  • Popis výsledku v původním jazyce

    The software is based on the development of Automatic Speech Recognition systems for the Albayzin 2022 Challenge. We trained and evaluated both hybrid systems and those based on end-to-end models. We also investigated the use of self-supervised learning speech representations from pre-trained models and their impact on ASR performance (as opposed to training models directly from scratch). Additionally, we also applied the Whisper model in a zero-shot fashion, postprocessing its output to fit the required transcription format. On top of tuning the model architectures and overall training schemes, we improved the robustness of our models by augmenting the training data with noises extracted from the target domain. Moreover, we applied rescoring with an external LM on top of N-best hypotheses to adjust each sentence score and pick the single best hypothesis. All these efforts lead to a significant WER reduction. Our single best system and the fusion of selected systems achieved 16.3% and 13.7% WER respectively on RTVE2020 test partition, i.e. the official evaluation partition from the previous Albayzin challenge

  • Název v anglickém jazyce

    BCN2BRNO Automatic speech recognition system for Albayzin 2022 Speech to Text Challenge

  • Popis výsledku anglicky

    The software is based on the development of Automatic Speech Recognition systems for the Albayzin 2022 Challenge. We trained and evaluated both hybrid systems and those based on end-to-end models. We also investigated the use of self-supervised learning speech representations from pre-trained models and their impact on ASR performance (as opposed to training models directly from scratch). Additionally, we also applied the Whisper model in a zero-shot fashion, postprocessing its output to fit the required transcription format. On top of tuning the model architectures and overall training schemes, we improved the robustness of our models by augmenting the training data with noises extracted from the target domain. Moreover, we applied rescoring with an external LM on top of N-best hypotheses to adjust each sentence score and pick the single best hypothesis. All these efforts lead to a significant WER reduction. Our single best system and the fusion of selected systems achieved 16.3% and 13.7% WER respectively on RTVE2020 test partition, i.e. the official evaluation partition from the previous Albayzin challenge

Klasifikace

  • Druh

    R - Software

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/LTAIN19087" target="_blank" >LTAIN19087: Multi-lingualita v řečových technologiích</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2022

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    R1-LTAIN19087

  • Technické parametry

    Pro stažení kontaktujte: Vysoké učení technické v Brně, IČ: 00216305, Ing. Martin Kocour, Fakulta Informační technologií, Božetěchova 2/1 612 00 Brno, tel.: 541141283, ikocour@fit.vut.cz, https://www.fit.vut.cz/person/ikocour/

  • Ekonomické parametry

    Produkt vznikl v rámci vývojově-výzkumné činnosti na FIT VUT v Brně, zejména díky česko-indické spolupráci financované z projektu: LTAIN19087 - Multi-lingualita v řečových technologiích.

  • IČO vlastníka výsledku

    00216305

  • Název vlastníka

    Vysoké učení technické v Brně