Transformer-Based Automatic Punctuation Prediction and Word Casing Reconstruction of the ASR Output
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F21%3A43962409" target="_blank" >RIV/49777513:23520/21:43962409 - isvavai.cz</a>
Výsledek na webu
<a href="https://link.springer.com/chapter/10.1007%2F978-3-030-83527-9_7" target="_blank" >https://link.springer.com/chapter/10.1007%2F978-3-030-83527-9_7</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-030-83527-9_7" target="_blank" >10.1007/978-3-030-83527-9_7</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Transformer-Based Automatic Punctuation Prediction and Word Casing Reconstruction of the ASR Output
Popis výsledku v původním jazyce
The paper proposes a module for automatic punctuation prediction and casing reconstruction based on transformers architectures (BERT/T5) that constitutes the current state-of-the-art in many similar NLP tasks. The main motivation for our work was to increase the readability of the ASR output. The ASR output is usually in the form of a continuous stream of text, without punctuation marks and with all words in lowercase. The resulting punctuation and casing reconstruction module is evaluated on both the written text and the actual ASR output in three languages (English, Czech and Slovak).
Název v anglickém jazyce
Transformer-Based Automatic Punctuation Prediction and Word Casing Reconstruction of the ASR Output
Popis výsledku anglicky
The paper proposes a module for automatic punctuation prediction and casing reconstruction based on transformers architectures (BERT/T5) that constitutes the current state-of-the-art in many similar NLP tasks. The main motivation for our work was to increase the readability of the ASR output. The ASR output is usually in the form of a continuous stream of text, without punctuation marks and with all words in lowercase. The resulting punctuation and casing reconstruction module is evaluated on both the written text and the actual ASR output in three languages (English, Czech and Slovak).
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/TN01000024" target="_blank" >TN01000024: Národní centrum kompetence - Kybernetika a umělá inteligence</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Text, Speech, and Dialogue 24th International Conference, TSD 2021, Olomouc, Czech Republic, September 6–9, 2021, Proceedings
ISBN
978-3-030-83526-2
ISSN
0302-9743
e-ISSN
1611-3349
Počet stran výsledku
9
Strana od-do
86-94
Název nakladatele
Springer International Publishing
Místo vydání
Cham
Místo konání akce
Olomouc, Czech Republic
Datum konání akce
6. 9. 2021
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—