Word embeddings pro generování textu
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F21%3A43964184" target="_blank" >RIV/49777513:23520/21:43964184 - isvavai.cz</a>
Výsledek na webu
<a href="http://www.kky.zcu.cz/cs/sw/word-embeddings" target="_blank" >http://www.kky.zcu.cz/cs/sw/word-embeddings</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Word embeddings pro generování textu
Popis výsledku v původním jazyce
Word embeddings pro generování textu jsou automaticky vytvářeny pomocí modelů hlubokých neuronových sítí. Struktura této sítě vychází z architektury Transformer a způsob trénování je postaven na modelu T5 (Text-to-text transfer Transformer). Model byl předtrénován na české podmnožině korpusu CommonCrawl, součástí modelu je SentencePiece tokenizer, který byl natrénován na téže sadě.
Název v anglickém jazyce
Word embeddings for text generation
Popis výsledku anglicky
Word embeddings for text generation are automatically generated using deep neural network models. The structure of this network is based on the Transformer architecture and the training method is based on the T5 model (Text-to-text transfer Transformer). The model was pre-trained on the Czech subset of the CommonCrawl corpus. The model also uses the SentencePiece tokenizer, which was trained on the same set.
Klasifikace
Druh
R - Software
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
—
Návaznosti
N - Vyzkumna aktivita podporovana z neverejnych zdroju
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
ZCU/KKY/2021/030
Technické parametry
Software provádí sumarizaci pomocí detekce tématu a doplňování chybějící interpunkce ve výstupu rozpoznávače řeči. Software je výsledkem smluvního výzkumu objednaného společností SpeechTech, s.r.o. Bližší informace k technickým parametrům SW podá Ing. Jan Švec, Ph.D., Západočeská univerzita v Plzni, Univerzitní 22, 306 14, Plzeň, e-mail: honzas@kky.zcu.cz, dále také na http://www.kky.zcu.cz/cs/sw/word-embeddings
Ekonomické parametry
Redukce ruční práce pro zpracování textu a generování promluv pro hlasové dialogové systémy. Software je výsledkem smluvního výzkumu objednaného společností SpeechTech, s.r.o.
IČO vlastníka výsledku
25247930
Název vlastníka
SpeechTech, s.r.o.