Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Systém pro automatickou adaptaci jazykového modelu na téma v reálném čase.

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F19%3A43956290" target="_blank" >RIV/49777513:23520/19:43956290 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://www.kky.zcu.cz/cs/sw/OnlineTopicAdapt" target="_blank" >http://www.kky.zcu.cz/cs/sw/OnlineTopicAdapt</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Systém pro automatickou adaptaci jazykového modelu na téma v reálném čase.

  • Popis výsledku v původním jazyce

    Při titulkování živých televizních pořadů často dochází k situaci, kdy je v rozpoznávané promluvě podrobně probíráno jedno nebo více velmi specifických témat. Taková promluva typicky obsahuje tematicky specifická slova, která chybí v obecném slovníku rozpoznávače řeči. Stínový řečník pak musí taková slova do systému za běhu ručně přidat, nebo se jim musí zcela vyhnout, což vede ke snížení kvality vyrobených titulků. Řešením je příprava tematicky velice úzce zaměřených slovníků a jazykových modelů a jejich využívání v průběhu živého titulkování podle aktuálně probíraného tématu. Pro každé téma je nutno připravit dostatečné množství úzce zaměřených textových dat a z nich natrénovat specifické jazykové modely a slovníky. Celkově je tedy nutno shromáždit velké množství textových dokumentů, automaticky je zpracovat a roztřídit podle témat. Dále je nutno v průběhu živého titulkování pravidelně monitorovat aktuální téma promluvy. To může dělat buď stínový řečník, nebo automatizovaný algoritmus zabudovaný v systému. V případě, že systém nebo stínový řečník detekuje změnu tématu v promluvě, za běhu se připraví vhodný jazykový model, a co nejdříve se začne využívat pro rozpoznávání řeči. Tento proces přizpůsobování jazykového modelu v průběhu živého titulkování na základě aktuálně probíraného tématu se nazývá adaptace jazykového modelu na téma v reálném čase. Hlavním cílem adaptace jazykového modelu na téma je zlepšit kvalitu vyrobených živých titulků tím, že se díky adaptaci během živého titulkování tematicky bohatých televizních pořadů sníží počet slov mimo slovník (tzv. out-of-vocabulary - OOV) a zároveň se statisticky posílí tematicky specifická slovní spojení v rozpoznávacím systému.

  • Název v anglickém jazyce

    System for online topic-based language model adaptation

  • Popis výsledku anglicky

    During live TV subtitling, there are one or more very specific topics often discussed in detail. Such utterance typically contains thematically specific words that are missing in the general speech recognition vocabulary. The respeaker has to manually add such words to the recognition system at runtime or avoid them altogether, leading to a reduction in the quality of the subtitles produced. The solution is to prepare thematically focused vocabularies and language models and their use during live subtitling according to the currently discussed topic. For each topic it is necessary to prepare a sufficient amount of focused text data and train specific language models and vocabularies from them. All in all, it is necessary to collect a large number of text documents, process them automatically and sort them by topic. It is also necessary to regularly monitor the current topic of the utterance during the live subtitling. This can be done either by a respeaker or by an automated algorithm built into the system. If the system or respeaker detects a change in the topic of the speech, a suitable language model is prepared at runtime and is used as soon as possible for speech recognition. This process of adapting the language model during live subtitling based on the topic currently being discussed is called real-time language model adaptation. The main goal of adapting the language model to the topic is to improve the quality of the subtitles produced by reducing the number of out-of-vocabulary (OOV) words during the live subtitling of thematically rich TV programs, while statistically strengthening thematically specific words and phrases in the recognition system.

Klasifikace

  • Druh

    R - Software

  • CEP obor

  • OECD FORD obor

    20205 - Automation and control systems

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/EG15_019%2F0004983" target="_blank" >EG15_019/0004983: Vývoj pokročilých přístupů k vytváření titulků a archivaci TV pořadů a dokumentů</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2019

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    OnlineTopicAdapt

  • Technické parametry

    Systém pro automatickou adaptaci jazykového modelu na téma v reálném čase. Bližší informace:Bližší informace: prof. Ing.Josef Psutka, CSc. Západočeská univerzita v Plzni, Fakulta aplikovaných věd, Nové technologie pro informační společnost (NTIS), VP1, tel.: 377 632 100, psutka@kky.zcu.cz.

  • Ekonomické parametry

    Software je plánovaným výsledkem řešení projektu CZ.01.1.02/0.0/0.0/15_019/0004983. Software je využíván v procesu online výroby titulků k živých televizním pořadům. Zvýšení kvality živých titulků automatickou adaptací systému rozpoznávání řeči v průběhu titulkování, včetně využití state-of-the-art metod akustického modelování přizpůsobených pro použití v reálném čase. Výsledek je realizován v rámci služby titulkování živých televizních pořadů provozované společností SpeechTech, s.r.o.

  • IČO vlastníka výsledku

    49777513

  • Název vlastníka

    Západočeská univerzita v Plzni