System for online topic-based language model adaptation

The result's identifiers

Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F19%3A43956290" target="_blank" >RIV/49777513:23520/19:43956290 - isvavai.cz</a>
Result on the web
<a href="http://www.kky.zcu.cz/cs/sw/OnlineTopicAdapt" target="_blank" >http://www.kky.zcu.cz/cs/sw/OnlineTopicAdapt</a>
DOI - Digital Object Identifier
—

Alternative languages

Result language
čeština
Original language name
Systém pro automatickou adaptaci jazykového modelu na téma v reálném čase.
Original language description
Při titulkování živých televizních pořadů často dochází k situaci, kdy je v rozpoznávané promluvě podrobně probíráno jedno nebo více velmi specifických témat. Taková promluva typicky obsahuje tematicky specifická slova, která chybí v obecném slovníku rozpoznávače řeči. Stínový řečník pak musí taková slova do systému za běhu ručně přidat, nebo se jim musí zcela vyhnout, což vede ke snížení kvality vyrobených titulků. Řešením je příprava tematicky velice úzce zaměřených slovníků a jazykových modelů a jejich využívání v průběhu živého titulkování podle aktuálně probíraného tématu. Pro každé téma je nutno připravit dostatečné množství úzce zaměřených textových dat a z nich natrénovat specifické jazykové modely a slovníky. Celkově je tedy nutno shromáždit velké množství textových dokumentů, automaticky je zpracovat a roztřídit podle témat. Dále je nutno v průběhu živého titulkování pravidelně monitorovat aktuální téma promluvy. To může dělat buď stínový řečník, nebo automatizovaný algoritmus zabudovaný v systému. V případě, že systém nebo stínový řečník detekuje změnu tématu v promluvě, za běhu se připraví vhodný jazykový model, a co nejdříve se začne využívat pro rozpoznávání řeči. Tento proces přizpůsobování jazykového modelu v průběhu živého titulkování na základě aktuálně probíraného tématu se nazývá adaptace jazykového modelu na téma v reálném čase. Hlavním cílem adaptace jazykového modelu na téma je zlepšit kvalitu vyrobených živých titulků tím, že se díky adaptaci během živého titulkování tematicky bohatých televizních pořadů sníží počet slov mimo slovník (tzv. out-of-vocabulary - OOV) a zároveň se statisticky posílí tematicky specifická slovní spojení v rozpoznávacím systému.
Czech name
Systém pro automatickou adaptaci jazykového modelu na téma v reálném čase.
Czech description
Při titulkování živých televizních pořadů často dochází k situaci, kdy je v rozpoznávané promluvě podrobně probíráno jedno nebo více velmi specifických témat. Taková promluva typicky obsahuje tematicky specifická slova, která chybí v obecném slovníku rozpoznávače řeči. Stínový řečník pak musí taková slova do systému za běhu ručně přidat, nebo se jim musí zcela vyhnout, což vede ke snížení kvality vyrobených titulků. Řešením je příprava tematicky velice úzce zaměřených slovníků a jazykových modelů a jejich využívání v průběhu živého titulkování podle aktuálně probíraného tématu. Pro každé téma je nutno připravit dostatečné množství úzce zaměřených textových dat a z nich natrénovat specifické jazykové modely a slovníky. Celkově je tedy nutno shromáždit velké množství textových dokumentů, automaticky je zpracovat a roztřídit podle témat. Dále je nutno v průběhu živého titulkování pravidelně monitorovat aktuální téma promluvy. To může dělat buď stínový řečník, nebo automatizovaný algoritmus zabudovaný v systému. V případě, že systém nebo stínový řečník detekuje změnu tématu v promluvě, za běhu se připraví vhodný jazykový model, a co nejdříve se začne využívat pro rozpoznávání řeči. Tento proces přizpůsobování jazykového modelu v průběhu živého titulkování na základě aktuálně probíraného tématu se nazývá adaptace jazykového modelu na téma v reálném čase. Hlavním cílem adaptace jazykového modelu na téma je zlepšit kvalitu vyrobených živých titulků tím, že se díky adaptaci během živého titulkování tematicky bohatých televizních pořadů sníží počet slov mimo slovník (tzv. out-of-vocabulary - OOV) a zároveň se statisticky posílí tematicky specifická slovní spojení v rozpoznávacím systému.

Classification

Type
R - Software
CEP classification
—
OECD FORD branch
20205 - Automation and control systems

Result continuities

Project
<a href="/en/project/EG15_019%2F0004983" target="_blank" >EG15_019/0004983: Advanced methods for subtitling and archivation of TV broadcasts and documents</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

Publication year
2019
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

Internal product ID
OnlineTopicAdapt
Technical parameters
Systém pro automatickou adaptaci jazykového modelu na téma v reálném čase. Bližší informace:Bližší informace: prof. Ing.Josef Psutka, CSc. Západočeská univerzita v Plzni, Fakulta aplikovaných věd, Nové technologie pro informační společnost (NTIS), VP1, tel.: 377 632 100, psutka@kky.zcu.cz.
Economical parameters
Software je plánovaným výsledkem řešení projektu CZ.01.1.02/0.0/0.0/15_019/0004983. Software je využíván v procesu online výroby titulků k živých televizním pořadům. Zvýšení kvality živých titulků automatickou adaptací systému rozpoznávání řeči v průběhu titulkování, včetně využití state-of-the-art metod akustického modelování přizpůsobených pro použití v reálném čase. Výsledek je realizován v rámci služby titulkování živých televizních pořadů provozované společností SpeechTech, s.r.o.
Owner IČO
49777513
Owner name
Západočeská univerzita v Plzni

Similar results(10)

LIVE TV SUBTITLING - Fast 2-pass LVCSR System for Online Subtitling Data preparation for online adaptation of LM Using program scripts to improve the quality of live subtitles

What are you looking for?

Quick search

Smart search

System for online topic-based language model adaptation

The result's identifiers

Alternative languages

Classification

Result continuities

Others

Data specific for result type

Similar results(10)

What are you looking for?

Quick search

Smart search

Result description

The result's identifiers

The result's identifiers

Alternative languages

Alternative languages

Classification

Classification

Result continuities

Result continuities

Others

Others

Data specific for result type

Data specific for result type

Similar results(10)