Homograph Disambiguation with Text-to-Text Transfer Transformer
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F24%3A43973188" target="_blank" >RIV/49777513:23520/24:43973188 - isvavai.cz</a>
Výsledek na webu
<a href="https://www.isca-archive.org/interspeech_2024/rezackova24_interspeech.pdf" target="_blank" >https://www.isca-archive.org/interspeech_2024/rezackova24_interspeech.pdf</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.21437/Interspeech.2024-949" target="_blank" >10.21437/Interspeech.2024-949</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Homograph Disambiguation with Text-to-Text Transfer Transformer
Popis výsledku v původním jazyce
In recent years, the Text-to-Text Transfer Transformer (T5) neural model has proved very powerful in many text-to-text tasks, including text normalization and grapheme-to-phoneme conversion. In the presented paper, we fine-tuned the T5 model for the task of homograph disambiguation, which is one of the essential components of text-to-speech (TTS) systems. To compare our results to those of other studies, we used an online dataset of US English homographs called Wikipedia Homograph Data. We present our results, which outperformed the previously published single-model approaches. We also focus on more detailed error analysis, model performance on different types of homographs, and the impact of training set size on homograph disambiguation.
Název v anglickém jazyce
Homograph Disambiguation with Text-to-Text Transfer Transformer
Popis výsledku anglicky
In recent years, the Text-to-Text Transfer Transformer (T5) neural model has proved very powerful in many text-to-text tasks, including text normalization and grapheme-to-phoneme conversion. In the presented paper, we fine-tuned the T5 model for the task of homograph disambiguation, which is one of the essential components of text-to-speech (TTS) systems. To compare our results to those of other studies, we used an online dataset of US English homographs called Wikipedia Homograph Data. We present our results, which outperformed the previously published single-model approaches. We also focus on more detailed error analysis, model performance on different types of homographs, and the impact of training set size on homograph disambiguation.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/GA22-27800S" target="_blank" >GA22-27800S: Využití vícemodálních Transformerů pro přirozenější hlasový dialog</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Interspeech 2024
ISBN
—
ISSN
2308-457X
e-ISSN
2958-1796
Počet stran výsledku
5
Strana od-do
2785-2789
Název nakladatele
International Speech Communication Association (ISCA)
Místo vydání
Kos
Místo konání akce
Kos, Řecko
Datum konání akce
1. 9. 2024
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
001331850102186