Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Technologie pro multimediální archiv a jazykové modelování

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F11%3A43897069" target="_blank" >RIV/49777513:23520/11:43897069 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Technologie pro multimediální archiv a jazykové modelování

  • Popis výsledku v původním jazyce

    Technologie v režimu poloprovoz je výstupem projektu FR-TI1/486 a integruje velké množství algoritmů a modulů usnadňujících vybudování multimediálního archivu (text, audio, video) a vytěžování existujících informačních zdrojů za účelem jazykového modelování českého jazyka. Slovníky a jazykové modely mají univerzální použití, prioritně jsou využívány k průběžné a tematické aktualizaci diktovacího systému MegaWord, jehož aktivní slovník pracuje s více než 1 milionem slov; technologie je využívána též propodporu systému automatického podtitulkování TV pořadů zajišťovaných řešiteli projektu pro Českou televizi. Technologie nabízí univerzální platformou, vykazuje rozšiřitelnost, modularitu, škálovatelnost i přenositelnost. Skládá se z modulů čištění, tokenizace a normalizace textu, modulů pro uchovávání audio a video záznamů spolu s algoritmy pro jejich konverzi. Součástí je i plánovač umožňující volání těchto modulů na vyžádání. Inovativní řešení poloprovozu umožňuje adaptaci jazykového m

  • Název v anglickém jazyce

    Technology for multimedia archive and language modeling

  • Popis výsledku anglicky

    The technology integrates a large number of algorithms and modules for a multimedia archive (textual and audio-visual). It also supports data-mining from web to build a large-scale language model of Czech. The language model is used in the task of automatic subtitling of television shows. The technology offers a universal platform, which is extensible, modular and scalable. It contains text processing modules, such as text cleaning, tokenization and normalization, modules for storing audio and video records and algorithms for conversion of such formats. An included scheduler supports on-demand execution of these modules. The innovation of this technology consists of an adaptation of language model to a given time span and topic of subtitles.

Klasifikace

  • Druh

    Z<sub>polop</sub> - Poloprovoz

  • CEP obor

    JD - Využití počítačů, robotika a její aplikace

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/FR-TI1%2F486" target="_blank" >FR-TI1/486: *MegaWord.cz</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2011

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    JMZW2011

  • Číselná identifikace

  • Technické parametry

    Výsledek umožňuje automatickou archivaci multimediálních dat a generování jazykového modelu (LM). Postup zpracování dat: Textová data spolu s audiovizuálním obsahem jsou automaticky vyčištěna od nežádoucího textu, následně zpracována v jednotlivých modulech. Modul tokenizace provádí automatické dělení textu na slova a interpunkční znaménka. Modul normalizace nahrazuje číslovky vyjádřené pomocí cifer za odpovídající slovní zápis. Modul náhrad využívá expertní znalosti reprezentované formalismem ke sjednocení výslovností a zápisů slov/sousloví. Audiovizuální data jsou zpracována v modulu konverze formátů, kde jsou převedena do podoby vhodné k archivaci a případně je extrahována pouze audio složka. Textová data jsou mj. využívána pro automatické generování LM pro úlohu automatického podtitulkování pořadů pro Českou televizi. Jedná se o zcela nový a inovativní přístup díky automatické časové a tematické adaptaci slovníků a jazykových modelů.

  • Ekonomické parametry

    Výsledek je plánovaným výstupem projektu FR-TI1/486. Systém provádí automatickou archivaci dat a aktualizaci jazykového modelu, dochází k zásadní úspoře pracovních sil, která by jinak byla nutná k ručnímu zpracování archivovaných dat. Výstupy technologiejsou využívány v rámci plnění Smlouvy o provozu systému automatického podtitulkování záznamů z jednání schůze PS PČR uzavřené dne 7.1.2011 se společností SpeechTech s.r.o., IČ 25247930. Bližší informace Jan Švec, honzas@kky.zcu.cz, tel. 377632582, http://www.kky.zcu.cz/cs/sw/jmzw

  • Kategorie aplik. výsledku dle nákladů

  • IČO vlastníka výsledku

    49777513

  • Název vlastníka

    Katedra kybernetiky, Fakulta aplikovaných věd, Západočeská univerzita v Plzni

  • Stát vlastníka

    CZ - Česká republika

  • Druh možnosti využití

    A - K využití výsledku jiným subjektem je vždy nutné nabytí licence

  • Požadavek na licenční poplatek

    A - Poskytovatel licence na výsledek požaduje licenční poplatek

  • Adresa www stránky s výsledkem