RAVDAI - system for real-time audiovisual data description using artificial intelligence
Project goals
Based on its own research and development of state-of-the-art technologies based mainly on modern artificial intelligence methods, the project aims to create a new complex system for segmentation and description of audiovisual data in real time. The existing, already outdated, solution only allows transcribing the audio component of the data into text. This solution of ours is now the basis not only for companies providing online media monitoring, but it ceases to be competitive due to the advent of universal solutions from large companies such as Google or Microsoft. The new system, processing both modalities - sound and image, so in addition to its own transcription of speech into text, it will be able to classify visual scenes and sound events, extract text from images and detect and identify people in images or speakers in audio. These basic functions will enable us to create complex segmentation and description of audiovisual data. Such a system is requested both by existing customers and, for example, by Czech Television. An important aspect of the new solution will be the ability to work with real-time streams, i.e. continuous real-time data processing of both audio and video data components with outputs obtained continuously with a small delay. The project will create a solution with a completely new modular architecture that will enable the system to be deployed in various IT infrastructures, including on-premise solutions, for customers on various operating systems, including a cloud solution, for processing large volumes of data. The output of the project will be 3 results: Result No. 1: Tool for off-line processing of the video data folder (software) Result No. 2: Tool for off-line processing of the audio data file (software) Result No. 3: Tool for real-time segmentation and description of audiovisual data (software).
Keywords
Public support
Provider
Ministry of Industry and Trade
Programme
—
Call for proposals
—
Main participants
SpeechTech, s.r.o.
Contest type
OP - EU Operational Programme
Contract ID
MPO 88097/24/61400
Alternative language
Project name in Czech
RAVDAI - real-time nástroj pro popis audiovizuálních dat s využitím umělé inteligence
Annotation in Czech
Projekt si klade za cíl na základě vlastního výzkumu a vývoje state-of-the-art technologií založených převážně na moderních metodách umělé inteligence vytvořit nový komplexní systém pro segmentaci a popis audiovizuálních dat v reálném čase. Stávající, již zastaralé, řešení umožňuje pouze přepis zvukové složky dat do textu. Toto naše řešení je nyní základem nejen pro společnosti poskytující on-line monitoring médií, kde ale přestává být konkurenceschopné z důvodu nástupu univerzálních řešení velkých firem jako Google či Microsoft. Nový systém zpracovávající obě modality - zvuk i obraz, tak kromě vlastního přepisu řeči do textu bude schopen klasifikace obrazové scény a zvukových událostí, extrakce textu z obrazu a detekce a identifikace osob v obrazu či řečníků ve zvuku. Tyto základní funkce nám umožní tvorbu komplexní segmentace a popisu audiovizuálních dat. Takový systém je žádán jak stávajícími zákazníky, tak např. Českou televizí. Důležitým aspektem nového řešení bude schopnost práce s real-time streamy, tedy nepřetržité zpracování dat v reálném čase jak zvukové, tak i obrazové složky dat s výstupy získanými průběžně s malým zpožděním. V projektu bude vytvořeno řešení se zcela novou modulární architekturou, která umožní systém nasazovat v různých IT infrastrukturách, včetně on-premise řešení, u zákazníků na různých operačních systémech, včetně cloudového řešení, pro zpracování velkých objemů dat. Výstupem projektu budou 3 výsledky: Výsledek č. 1: Nástroj pro off-line zpracování video složky dat (software) Výsledek č. 2: Nástroj pro off-line zpracování audio složky dat (software) Výsledek č. 3: Nástroj pro real-time segmentaci a popis audiovizuálních dat (software)
Scientific branches
Solution timeline
Realization period - beginning
Jul 1, 2023
Realization period - end
Dec 31, 2026
Project status
B - Running multi-year project
Latest support payment
Sep 23, 2024
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP25-MPO-EI-R
Data delivery date
Feb 21, 2025
Finance
Total approved costs
12,237 thou. CZK
Public financial support
0 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
3,272 thou. CZK
Basic information
Provider
Ministry of Industry and Trade
OECD FORD
Computer hardware and architecture
Solution period
01. 07. 2023 - 31. 12. 2026