T5G2P: Using Text-to-Text Transfer Transformer for Grapheme-to-Phoneme Conversion
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F21%3A43962415" target="_blank" >RIV/49777513:23520/21:43962415 - isvavai.cz</a>
Výsledek na webu
<a href="https://www.isca-speech.org/archive/interspeech_2021/rezackova21_interspeech.html" target="_blank" >https://www.isca-speech.org/archive/interspeech_2021/rezackova21_interspeech.html</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.21437/Interspeech.2021-546" target="_blank" >10.21437/Interspeech.2021-546</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
T5G2P: Using Text-to-Text Transfer Transformer for Grapheme-to-Phoneme Conversion
Popis výsledku v původním jazyce
Despite the increasing popularity of end-to-end text-to-speech (TTS) systems, the correct grapheme-to-phoneme (G2P) module is still a crucial part of those relying on a phonetic input. In this paper, we, therefore, introduce a T5G2P model, a Text-to-Text Transfer Transformer (T5) neural network model which is able to convert an input text sentence into a phoneme sequence with a high accuracy. The evaluation of our trained T5 model is carried out on English and Czech, since there are different specific properties of G2P, including homograph disambiguation, cross-word assimilation and irregular pronunciation of loanwords. The paper also contains an analysis of a homographs issue in English and offers another approach to Czech phonetic transcription using the detection of pronunciation exceptions.
Název v anglickém jazyce
T5G2P: Using Text-to-Text Transfer Transformer for Grapheme-to-Phoneme Conversion
Popis výsledku anglicky
Despite the increasing popularity of end-to-end text-to-speech (TTS) systems, the correct grapheme-to-phoneme (G2P) module is still a crucial part of those relying on a phonetic input. In this paper, we, therefore, introduce a T5G2P model, a Text-to-Text Transfer Transformer (T5) neural network model which is able to convert an input text sentence into a phoneme sequence with a high accuracy. The evaluation of our trained T5 model is carried out on English and Czech, since there are different specific properties of G2P, including homograph disambiguation, cross-word assimilation and irregular pronunciation of loanwords. The paper also contains an analysis of a homographs issue in English and offers another approach to Czech phonetic transcription using the detection of pronunciation exceptions.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/GA19-19324S" target="_blank" >GA19-19324S: Plně trénovatelná syntéza české řeči z textu s využitím hlubokých neuronových sítí</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the Annual Conference of the International Speech Communication Association, Interspeech
ISBN
978-1-71383-690-2
ISSN
2308-457X
e-ISSN
—
Počet stran výsledku
5
Strana od-do
3291-3295
Název nakladatele
International Speech Communication Association
Místo vydání
Red Hook, NY
Místo konání akce
Brno, Czech Republic
Datum konání akce
30. 8. 2021
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—