Technologie pro multimediální archiv a jazykové modelování
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F11%3A43897069" target="_blank" >RIV/49777513:23520/11:43897069 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Technologie pro multimediální archiv a jazykové modelování
Popis výsledku v původním jazyce
Technologie v režimu poloprovoz je výstupem projektu FR-TI1/486 a integruje velké množství algoritmů a modulů usnadňujících vybudování multimediálního archivu (text, audio, video) a vytěžování existujících informačních zdrojů za účelem jazykového modelování českého jazyka. Slovníky a jazykové modely mají univerzální použití, prioritně jsou využívány k průběžné a tematické aktualizaci diktovacího systému MegaWord, jehož aktivní slovník pracuje s více než 1 milionem slov; technologie je využívána též propodporu systému automatického podtitulkování TV pořadů zajišťovaných řešiteli projektu pro Českou televizi. Technologie nabízí univerzální platformou, vykazuje rozšiřitelnost, modularitu, škálovatelnost i přenositelnost. Skládá se z modulů čištění, tokenizace a normalizace textu, modulů pro uchovávání audio a video záznamů spolu s algoritmy pro jejich konverzi. Součástí je i plánovač umožňující volání těchto modulů na vyžádání. Inovativní řešení poloprovozu umožňuje adaptaci jazykového m
Název v anglickém jazyce
Technology for multimedia archive and language modeling
Popis výsledku anglicky
The technology integrates a large number of algorithms and modules for a multimedia archive (textual and audio-visual). It also supports data-mining from web to build a large-scale language model of Czech. The language model is used in the task of automatic subtitling of television shows. The technology offers a universal platform, which is extensible, modular and scalable. It contains text processing modules, such as text cleaning, tokenization and normalization, modules for storing audio and video records and algorithms for conversion of such formats. An included scheduler supports on-demand execution of these modules. The innovation of this technology consists of an adaptation of language model to a given time span and topic of subtitles.
Klasifikace
Druh
Z<sub>polop</sub> - Poloprovoz
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/FR-TI1%2F486" target="_blank" >FR-TI1/486: *MegaWord.cz</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2011
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
JMZW2011
Číselná identifikace
—
Technické parametry
Výsledek umožňuje automatickou archivaci multimediálních dat a generování jazykového modelu (LM). Postup zpracování dat: Textová data spolu s audiovizuálním obsahem jsou automaticky vyčištěna od nežádoucího textu, následně zpracována v jednotlivých modulech. Modul tokenizace provádí automatické dělení textu na slova a interpunkční znaménka. Modul normalizace nahrazuje číslovky vyjádřené pomocí cifer za odpovídající slovní zápis. Modul náhrad využívá expertní znalosti reprezentované formalismem ke sjednocení výslovností a zápisů slov/sousloví. Audiovizuální data jsou zpracována v modulu konverze formátů, kde jsou převedena do podoby vhodné k archivaci a případně je extrahována pouze audio složka. Textová data jsou mj. využívána pro automatické generování LM pro úlohu automatického podtitulkování pořadů pro Českou televizi. Jedná se o zcela nový a inovativní přístup díky automatické časové a tematické adaptaci slovníků a jazykových modelů.
Ekonomické parametry
Výsledek je plánovaným výstupem projektu FR-TI1/486. Systém provádí automatickou archivaci dat a aktualizaci jazykového modelu, dochází k zásadní úspoře pracovních sil, která by jinak byla nutná k ručnímu zpracování archivovaných dat. Výstupy technologiejsou využívány v rámci plnění Smlouvy o provozu systému automatického podtitulkování záznamů z jednání schůze PS PČR uzavřené dne 7.1.2011 se společností SpeechTech s.r.o., IČ 25247930. Bližší informace Jan Švec, honzas@kky.zcu.cz, tel. 377632582, http://www.kky.zcu.cz/cs/sw/jmzw
Kategorie aplik. výsledku dle nákladů
—
IČO vlastníka výsledku
49777513
Název vlastníka
Katedra kybernetiky, Fakulta aplikovaných věd, Západočeská univerzita v Plzni
Stát vlastníka
CZ - Česká republika
Druh možnosti využití
A - K využití výsledku jiným subjektem je vždy nutné nabytí licence
Požadavek na licenční poplatek
A - Poskytovatel licence na výsledek požaduje licenční poplatek
Adresa www stránky s výsledkem
—