Phonetic Spoken Term Detection in Large Audio Archive Using the WFST Framework
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F13%3A43919598" target="_blank" >RIV/49777513:23520/13:43919598 - isvavai.cz</a>
Výsledek na webu
<a href="http://dx.doi.org/10.1007/978-3-642-40585-3_51" target="_blank" >http://dx.doi.org/10.1007/978-3-642-40585-3_51</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-642-40585-3_51" target="_blank" >10.1007/978-3-642-40585-3_51</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Phonetic Spoken Term Detection in Large Audio Archive Using the WFST Framework
Popis výsledku v původním jazyce
The paper presents a technique for phonetic spoken term detection in large audio archive. It is designed within the framework of weighted finite-state transducers and utilizes the rather recently developed notion of factor automata, which we have enhanced with a score normalization and a technique for systematic query expansion which allows for phone deletions and substitutions and consequently compensates for frequent pronunciation imperfections and systematic phoneme interchanges occurring during theASR decoding process. The experiments presented in the paper show that the new WFST-based method outperforms the baseline system both in terms of search performance and speed. Finally, the paper discusses the issues of the proposed techniques that need to be addressed before the application in real-life tasks.
Název v anglickém jazyce
Phonetic Spoken Term Detection in Large Audio Archive Using the WFST Framework
Popis výsledku anglicky
The paper presents a technique for phonetic spoken term detection in large audio archive. It is designed within the framework of weighted finite-state transducers and utilizes the rather recently developed notion of factor automata, which we have enhanced with a score normalization and a technique for systematic query expansion which allows for phone deletions and substitutions and consequently compensates for frequent pronunciation imperfections and systematic phoneme interchanges occurring during theASR decoding process. The experiments presented in the paper show that the new WFST-based method outperforms the baseline system both in terms of search performance and speed. Finally, the paper discusses the issues of the proposed techniques that need to be addressed before the application in real-life tasks.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
AJ - Písemnictví, mas–media, audiovize
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/DF12P01OVV022" target="_blank" >DF12P01OVV022: Zpřístupnění rozsáhlého video archivu kulturního dědictví pomocí metod automatického rozpoznávání mluvené řeči a strojového překladu. (AMALACH)</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2013
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Text, Speech, and Dialogue
ISBN
978-3-642-40584-6
ISSN
0302-9743
e-ISSN
—
Počet stran výsledku
8
Strana od-do
402-409
Název nakladatele
Springer
Místo vydání
Heidelberg
Místo konání akce
Plzeň
Datum konání akce
1. 9. 2013
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—