All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Technology for multimedia archive and language modeling

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F11%3A43897069" target="_blank" >RIV/49777513:23520/11:43897069 - isvavai.cz</a>

  • Result on the web

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    čeština

  • Original language name

    Technologie pro multimediální archiv a jazykové modelování

  • Original language description

    Technologie v režimu poloprovoz je výstupem projektu FR-TI1/486 a integruje velké množství algoritmů a modulů usnadňujících vybudování multimediálního archivu (text, audio, video) a vytěžování existujících informačních zdrojů za účelem jazykového modelování českého jazyka. Slovníky a jazykové modely mají univerzální použití, prioritně jsou využívány k průběžné a tematické aktualizaci diktovacího systému MegaWord, jehož aktivní slovník pracuje s více než 1 milionem slov; technologie je využívána též propodporu systému automatického podtitulkování TV pořadů zajišťovaných řešiteli projektu pro Českou televizi. Technologie nabízí univerzální platformou, vykazuje rozšiřitelnost, modularitu, škálovatelnost i přenositelnost. Skládá se z modulů čištění, tokenizace a normalizace textu, modulů pro uchovávání audio a video záznamů spolu s algoritmy pro jejich konverzi. Součástí je i plánovač umožňující volání těchto modulů na vyžádání. Inovativní řešení poloprovozu umožňuje adaptaci jazykového m

  • Czech name

    Technologie pro multimediální archiv a jazykové modelování

  • Czech description

    Technologie v režimu poloprovoz je výstupem projektu FR-TI1/486 a integruje velké množství algoritmů a modulů usnadňujících vybudování multimediálního archivu (text, audio, video) a vytěžování existujících informačních zdrojů za účelem jazykového modelování českého jazyka. Slovníky a jazykové modely mají univerzální použití, prioritně jsou využívány k průběžné a tematické aktualizaci diktovacího systému MegaWord, jehož aktivní slovník pracuje s více než 1 milionem slov; technologie je využívána též propodporu systému automatického podtitulkování TV pořadů zajišťovaných řešiteli projektu pro Českou televizi. Technologie nabízí univerzální platformou, vykazuje rozšiřitelnost, modularitu, škálovatelnost i přenositelnost. Skládá se z modulů čištění, tokenizace a normalizace textu, modulů pro uchovávání audio a video záznamů spolu s algoritmy pro jejich konverzi. Součástí je i plánovač umožňující volání těchto modulů na vyžádání. Inovativní řešení poloprovozu umožňuje adaptaci jazykového m

Classification

  • Type

    Z<sub>polop</sub> - Pilot plant

  • CEP classification

    JD - Use of computers, robotics and its application

  • OECD FORD branch

Result continuities

  • Project

    <a href="/en/project/FR-TI1%2F486" target="_blank" >FR-TI1/486: *MegaWord.cz</a><br>

  • Continuities

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

  • Publication year

    2011

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Internal product ID

    JMZW2011

  • Numerical identification

  • Technical parameters

    Výsledek umožňuje automatickou archivaci multimediálních dat a generování jazykového modelu (LM). Postup zpracování dat: Textová data spolu s audiovizuálním obsahem jsou automaticky vyčištěna od nežádoucího textu, následně zpracována v jednotlivých modulech. Modul tokenizace provádí automatické dělení textu na slova a interpunkční znaménka. Modul normalizace nahrazuje číslovky vyjádřené pomocí cifer za odpovídající slovní zápis. Modul náhrad využívá expertní znalosti reprezentované formalismem ke sjednocení výslovností a zápisů slov/sousloví. Audiovizuální data jsou zpracována v modulu konverze formátů, kde jsou převedena do podoby vhodné k archivaci a případně je extrahována pouze audio složka. Textová data jsou mj. využívána pro automatické generování LM pro úlohu automatického podtitulkování pořadů pro Českou televizi. Jedná se o zcela nový a inovativní přístup díky automatické časové a tematické adaptaci slovníků a jazykových modelů.

  • Economical parameters

    Výsledek je plánovaným výstupem projektu FR-TI1/486. Systém provádí automatickou archivaci dat a aktualizaci jazykového modelu, dochází k zásadní úspoře pracovních sil, která by jinak byla nutná k ručnímu zpracování archivovaných dat. Výstupy technologiejsou využívány v rámci plnění Smlouvy o provozu systému automatického podtitulkování záznamů z jednání schůze PS PČR uzavřené dne 7.1.2011 se společností SpeechTech s.r.o., IČ 25247930. Bližší informace Jan Švec, honzas@kky.zcu.cz, tel. 377632582, http://www.kky.zcu.cz/cs/sw/jmzw

  • Application category by cost

  • Owner IČO

    49777513

  • Owner name

    Katedra kybernetiky, Fakulta aplikovaných věd, Západočeská univerzita v Plzni

  • Owner country

    CZ - CZECH REPUBLIC

  • Usage type

    A - K využití výsledku jiným subjektem je vždy nutné nabytí licence

  • Licence fee requirement

    A - Poskytovatel licence na výsledek požaduje licenční poplatek

  • Web page