Neural Sign Language Synthesis: Words Are Our Glosses
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F20%3A43959826" target="_blank" >RIV/49777513:23520/20:43959826 - isvavai.cz</a>
Výsledek na webu
<a href="https://ieeexplore.ieee.org/document/9093516" target="_blank" >https://ieeexplore.ieee.org/document/9093516</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/WACV45572.2020.9093516" target="_blank" >10.1109/WACV45572.2020.9093516</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Neural Sign Language Synthesis: Words Are Our Glosses
Popis výsledku v původním jazyce
This paper deals with a text-to-video sign language synthesis. Instead of direct video production, we focused on skeletal models production. Our main goal in this paper was to design a fully end-to-end automatic sign language synthesis system trained only on available free data (daily TV broadcasting). Thus, we excluded any manual video annotation. Furthermore, our designed approach even do not rely on any video segmentation. A proposed feed-forward transformer and recurrent transformer were investigated. To improve the performance of our sequence-to-sequence transformer, soft non-monotonic attention was employed in our training process. A benefit of character-level features was compared with word-level features. We focused our experiments on a weather forecasting dataset in the Czech Sign Language.
Název v anglickém jazyce
Neural Sign Language Synthesis: Words Are Our Glosses
Popis výsledku anglicky
This paper deals with a text-to-video sign language synthesis. Instead of direct video production, we focused on skeletal models production. Our main goal in this paper was to design a fully end-to-end automatic sign language synthesis system trained only on available free data (daily TV broadcasting). Thus, we excluded any manual video annotation. Furthermore, our designed approach even do not rely on any video segmentation. A proposed feed-forward transformer and recurrent transformer were investigated. To improve the performance of our sequence-to-sequence transformer, soft non-monotonic attention was employed in our training process. A benefit of character-level features was compared with word-level features. We focused our experiments on a weather forecasting dataset in the Czech Sign Language.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/EF15_003%2F0000466" target="_blank" >EF15_003/0000466: Umělá inteligence a uvažování</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2020
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
2020 IEEE Winter Conference on Applications of Computer Vision (WACV)
ISBN
978-1-72816-553-0
ISSN
2472-6737
e-ISSN
2642-9381
Počet stran výsledku
9
Strana od-do
3384-3392
Název nakladatele
IEEE
Místo vydání
USA
Místo konání akce
Snowmass Village, CO, USA (385)
Datum konání akce
1. 3. 2020
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000578444803049