T5G2P: Text-to-Text Transfer Transformer Based Grapheme-to-Phoneme Conversion
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F24%3A43972436" target="_blank" >RIV/49777513:23520/24:43972436 - isvavai.cz</a>
Výsledek na webu
<a href="https://ieeexplore.ieee.org/document/10592637" target="_blank" >https://ieeexplore.ieee.org/document/10592637</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/TASLP.2024.3426332" target="_blank" >10.1109/TASLP.2024.3426332</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
T5G2P: Text-to-Text Transfer Transformer Based Grapheme-to-Phoneme Conversion
Popis výsledku v původním jazyce
The present paper explores the use of several deep neural network architectures to carry out a grapheme-to-phoneme (G2P) conversion, aiming to find a universal and language-independent approach to the task. The models explored are trained on whole sentences in order to automatically capture cross-word context (such as voicedness assimilation) if it exists in the given language. Four different languages, English, Czech, Russian, and German, were chosen due to their different nature and requirements for the G2P task. Ultimately, the Text-to-Text Transfer Transformer (T5) based model achieved very high conversion accuracy on all the tested languages. Also, it exceeded the accuracy reached by a similar system, when trained on a public LibriSpeech database.
Název v anglickém jazyce
T5G2P: Text-to-Text Transfer Transformer Based Grapheme-to-Phoneme Conversion
Popis výsledku anglicky
The present paper explores the use of several deep neural network architectures to carry out a grapheme-to-phoneme (G2P) conversion, aiming to find a universal and language-independent approach to the task. The models explored are trained on whole sentences in order to automatically capture cross-word context (such as voicedness assimilation) if it exists in the given language. Four different languages, English, Czech, Russian, and German, were chosen due to their different nature and requirements for the G2P task. Ultimately, the Text-to-Text Transfer Transformer (T5) based model achieved very high conversion accuracy on all the tested languages. Also, it exceeded the accuracy reached by a similar system, when trained on a public LibriSpeech database.
Klasifikace
Druh
J<sub>imp</sub> - Článek v periodiku v databázi Web of Science
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/GA22-27800S" target="_blank" >GA22-27800S: Využití vícemodálních Transformerů pro přirozenější hlasový dialog</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
IEEE/ACM Transactions on Audio, Speech, and Language Processing
ISSN
2329-9290
e-ISSN
2329-9304
Svazek periodika
32
Číslo periodika v rámci svazku
July 2024
Stát vydavatele periodika
US - Spojené státy americké
Počet stran výsledku
11
Strana od-do
3466-3476
Kód UT WoS článku
001283673700010
EID výsledku v databázi Scopus
2-s2.0-85198311174