System for online topic-based language model adaptation
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F19%3A43956290" target="_blank" >RIV/49777513:23520/19:43956290 - isvavai.cz</a>
Result on the web
<a href="http://www.kky.zcu.cz/cs/sw/OnlineTopicAdapt" target="_blank" >http://www.kky.zcu.cz/cs/sw/OnlineTopicAdapt</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Systém pro automatickou adaptaci jazykového modelu na téma v reálném čase.
Original language description
Při titulkování živých televizních pořadů často dochází k situaci, kdy je v rozpoznávané promluvě podrobně probíráno jedno nebo více velmi specifických témat. Taková promluva typicky obsahuje tematicky specifická slova, která chybí v obecném slovníku rozpoznávače řeči. Stínový řečník pak musí taková slova do systému za běhu ručně přidat, nebo se jim musí zcela vyhnout, což vede ke snížení kvality vyrobených titulků. Řešením je příprava tematicky velice úzce zaměřených slovníků a jazykových modelů a jejich využívání v průběhu živého titulkování podle aktuálně probíraného tématu. Pro každé téma je nutno připravit dostatečné množství úzce zaměřených textových dat a z nich natrénovat specifické jazykové modely a slovníky. Celkově je tedy nutno shromáždit velké množství textových dokumentů, automaticky je zpracovat a roztřídit podle témat. Dále je nutno v průběhu živého titulkování pravidelně monitorovat aktuální téma promluvy. To může dělat buď stínový řečník, nebo automatizovaný algoritmus zabudovaný v systému. V případě, že systém nebo stínový řečník detekuje změnu tématu v promluvě, za běhu se připraví vhodný jazykový model, a co nejdříve se začne využívat pro rozpoznávání řeči. Tento proces přizpůsobování jazykového modelu v průběhu živého titulkování na základě aktuálně probíraného tématu se nazývá adaptace jazykového modelu na téma v reálném čase. Hlavním cílem adaptace jazykového modelu na téma je zlepšit kvalitu vyrobených živých titulků tím, že se díky adaptaci během živého titulkování tematicky bohatých televizních pořadů sníží počet slov mimo slovník (tzv. out-of-vocabulary - OOV) a zároveň se statisticky posílí tematicky specifická slovní spojení v rozpoznávacím systému.
Czech name
Systém pro automatickou adaptaci jazykového modelu na téma v reálném čase.
Czech description
Při titulkování živých televizních pořadů často dochází k situaci, kdy je v rozpoznávané promluvě podrobně probíráno jedno nebo více velmi specifických témat. Taková promluva typicky obsahuje tematicky specifická slova, která chybí v obecném slovníku rozpoznávače řeči. Stínový řečník pak musí taková slova do systému za běhu ručně přidat, nebo se jim musí zcela vyhnout, což vede ke snížení kvality vyrobených titulků. Řešením je příprava tematicky velice úzce zaměřených slovníků a jazykových modelů a jejich využívání v průběhu živého titulkování podle aktuálně probíraného tématu. Pro každé téma je nutno připravit dostatečné množství úzce zaměřených textových dat a z nich natrénovat specifické jazykové modely a slovníky. Celkově je tedy nutno shromáždit velké množství textových dokumentů, automaticky je zpracovat a roztřídit podle témat. Dále je nutno v průběhu živého titulkování pravidelně monitorovat aktuální téma promluvy. To může dělat buď stínový řečník, nebo automatizovaný algoritmus zabudovaný v systému. V případě, že systém nebo stínový řečník detekuje změnu tématu v promluvě, za běhu se připraví vhodný jazykový model, a co nejdříve se začne využívat pro rozpoznávání řeči. Tento proces přizpůsobování jazykového modelu v průběhu živého titulkování na základě aktuálně probíraného tématu se nazývá adaptace jazykového modelu na téma v reálném čase. Hlavním cílem adaptace jazykového modelu na téma je zlepšit kvalitu vyrobených živých titulků tím, že se díky adaptaci během živého titulkování tematicky bohatých televizních pořadů sníží počet slov mimo slovník (tzv. out-of-vocabulary - OOV) a zároveň se statisticky posílí tematicky specifická slovní spojení v rozpoznávacím systému.
Classification
Type
R - Software
CEP classification
—
OECD FORD branch
20205 - Automation and control systems
Result continuities
Project
<a href="/en/project/EG15_019%2F0004983" target="_blank" >EG15_019/0004983: Advanced methods for subtitling and archivation of TV broadcasts and documents</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2019
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
OnlineTopicAdapt
Technical parameters
Systém pro automatickou adaptaci jazykového modelu na téma v reálném čase. Bližší informace:Bližší informace: prof. Ing.Josef Psutka, CSc. Západočeská univerzita v Plzni, Fakulta aplikovaných věd, Nové technologie pro informační společnost (NTIS), VP1, tel.: 377 632 100, psutka@kky.zcu.cz.
Economical parameters
Software je plánovaným výsledkem řešení projektu CZ.01.1.02/0.0/0.0/15_019/0004983. Software je využíván v procesu online výroby titulků k živých televizním pořadům. Zvýšení kvality živých titulků automatickou adaptací systému rozpoznávání řeči v průběhu titulkování, včetně využití state-of-the-art metod akustického modelování přizpůsobených pro použití v reálném čase. Výsledek je realizován v rámci služby titulkování živých televizních pořadů provozované společností SpeechTech, s.r.o.
Owner IČO
49777513
Owner name
Západočeská univerzita v Plzni