Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F24%3APU154969" target="_blank" >RIV/00216305:26230/24:PU154969 - isvavai.cz</a>
Výsledek na webu
<a href="https://www.isca-archive.org/interspeech_2024/yusuf24_interspeech.pdf" target="_blank" >https://www.isca-archive.org/interspeech_2024/yusuf24_interspeech.pdf</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.21437/Interspeech.2024-298" target="_blank" >10.21437/Interspeech.2024-298</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models
Popis výsledku v původním jazyce
This paper explores speculative speech recognition (SSR), where we empower conventional automatic speech recognition (ASR) with speculation capabilities, allowing the recognizer to run ahead of audio. We introduce a metric for measuring SSR performance and we propose a model which does SSR by com bining a RNN-Transducer-based ASR system with an audioprefixed language model (LM). The ASR system transcribes ongoing audio and feeds the resulting transcripts, along with an audiodependent prefix, to the LM, which speculates likely completions for the transcriptions. We experiment with a variety of ASR datasets on which show the efficacy our method and the feasibility of SSR as a method of reducing ASR latency.
Název v anglickém jazyce
Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models
Popis výsledku anglicky
This paper explores speculative speech recognition (SSR), where we empower conventional automatic speech recognition (ASR) with speculation capabilities, allowing the recognizer to run ahead of audio. We introduce a metric for measuring SSR performance and we propose a model which does SSR by com bining a RNN-Transducer-based ASR system with an audioprefixed language model (LM). The ASR system transcribes ongoing audio and feeds the resulting transcripts, along with an audiodependent prefix, to the LM, which speculates likely completions for the transcriptions. We experiment with a variety of ASR datasets on which show the efficacy our method and the feasibility of SSR as a method of reducing ASR latency.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
—
Návaznosti
S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of Interspeech 2024
ISBN
—
ISSN
1990-9772
e-ISSN
—
Počet stran výsledku
5
Strana od-do
792-796
Název nakladatele
International Speech Communication Association
Místo vydání
Kos
Místo konání akce
Kos
Datum konání akce
1. 9. 2024
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—