A prototype of Audio-Visual Broadcast Transcription System
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24220%2F19%3A00007159" target="_blank" >RIV/46747885:24220/19:00007159 - isvavai.cz</a>
Výsledek na webu
<a href="http://dx.doi.org/10.1109/TSP.2019.8769103" target="_blank" >http://dx.doi.org/10.1109/TSP.2019.8769103</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/TSP.2019.8769103" target="_blank" >10.1109/TSP.2019.8769103</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
A prototype of Audio-Visual Broadcast Transcription System
Popis výsledku v původním jazyce
This paper focuses on the use of methods and algorithms from the area of speech processing and recognition and from the area of machine vision for designing of system for automatic audio-visual broadcast transcription. The resulting audio-visual system has been designed and created mainly for transcription of huge video databases with TV recordings in this work. The visual signal processing and recognition is usually several times computationally more demanding than audio signal processing and recognition. Therefore, all applied machine vision methods and algorithms were considered with respect to low computing time as well as the highest possible recognition rate. Our proposed broadcast transcription system was extended by several modules for visual signal segmentation, for TV channel identification, for face detection and identification and for Optical Character Recognition (OCR).
Název v anglickém jazyce
A prototype of Audio-Visual Broadcast Transcription System
Popis výsledku anglicky
This paper focuses on the use of methods and algorithms from the area of speech processing and recognition and from the area of machine vision for designing of system for automatic audio-visual broadcast transcription. The resulting audio-visual system has been designed and created mainly for transcription of huge video databases with TV recordings in this work. The visual signal processing and recognition is usually several times computationally more demanding than audio signal processing and recognition. Therefore, all applied machine vision methods and algorithms were considered with respect to low computing time as well as the highest possible recognition rate. Our proposed broadcast transcription system was extended by several modules for visual signal segmentation, for TV channel identification, for face detection and identification and for Optical Character Recognition (OCR).
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/TH03010018" target="_blank" >TH03010018: DeepSpot - Multilingvální technologie pro detekci a včasné upozornění</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2019
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
42ND INTERNATIONAL CONFERENCE ON TELECOMMUNICATIONS AND SIGNAL PROCESSING TSP
ISBN
978-1-72811-864-2
ISSN
—
e-ISSN
—
Počet stran výsledku
5
Strana od-do
543-547
Název nakladatele
IEEE
Místo vydání
NEW YORK, USA
Místo konání akce
Budapest, HUNGARY
Datum konání akce
1. 1. 2019
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000493442800118