ALIGN - software for semi-automatic alignment of audio recordings with existing text transcripts
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F16%3A43930519" target="_blank" >RIV/49777513:23520/16:43930519 - isvavai.cz</a>
Result on the web
<a href="http://www.kky.zcu.cz/cs/sw/ALIGN" target="_blank" >http://www.kky.zcu.cz/cs/sw/ALIGN</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
ALIGN - software pro podporu poloautomatického zarovnání nahrávek s existujícími přepisy
Original language description
Softwarový balíček ALIGN slouží k poloautomatickému zarovnání nahrávek s existujícími textovými přepisy. Časové zarovnání existujících přepisů poskytuje lepší vstupní data pro tvorbu databáze používané pro rychlé vyhledávání (tzv. index) než "klasické" rozpoznávání řeči pouze na základě řečového vstupu, které je pro tyto účely standardně využívané. Důvod je zřejmý - při zarovnávání existujících přepisů pouze generujeme chybějící časové značky, ale z principu zde nemůže dojít k chybnému rozpoznání vyřčeného slova. Zarovnané přepisy lze také využít jako trénovací data pro vývoj lepších modelů pro rozpoznávací systém. V obou výše uvedených bodech předpokládáme, že kvalita textového přepisu je dostatečná - tj. zejména musí jít o doslovný přepis, nikoliv pouze zestručnělé shrnutí obsahu promluvy.
Czech name
ALIGN - software pro podporu poloautomatického zarovnání nahrávek s existujícími přepisy
Czech description
Softwarový balíček ALIGN slouží k poloautomatickému zarovnání nahrávek s existujícími textovými přepisy. Časové zarovnání existujících přepisů poskytuje lepší vstupní data pro tvorbu databáze používané pro rychlé vyhledávání (tzv. index) než "klasické" rozpoznávání řeči pouze na základě řečového vstupu, které je pro tyto účely standardně využívané. Důvod je zřejmý - při zarovnávání existujících přepisů pouze generujeme chybějící časové značky, ale z principu zde nemůže dojít k chybnému rozpoznání vyřčeného slova. Zarovnané přepisy lze také využít jako trénovací data pro vývoj lepších modelů pro rozpoznávací systém. V obou výše uvedených bodech předpokládáme, že kvalita textového přepisu je dostatečná - tj. zejména musí jít o doslovný přepis, nikoliv pouze zestručnělé shrnutí obsahu promluvy.
Classification
Type
R - Software
CEP classification
AF - Documentation, librarianship, work with information
OECD FORD branch
—
Result continuities
Project
<a href="/en/project/DG16P02B048" target="_blank" >DG16P02B048: System for permanent preservation of documentation and presentation of historical sources from the period of totalitarian regimes</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2016
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
ALIGN
Technical parameters
Akustický a jazykový model rozpoznávacího modulu byl natrénován na datech využívaných v průběhu projektu AMALACH (projekt č. DF12P01OVV022). Jde o přibližně 100 hodin pečlivě přepsaných rozhovorů s pamětníky Holokaustu, vedených v českém jazyce. Přepisy a nahrávky jsou zarovnány přibližně na úrovni jednotlivých vět, což je již pro trénování dostatečné - zarovnání na úroveň slov by vedlo k lepším výsledkům, ale při nutnosti ručního zpracování jde o příliš pracnou záležitost.
Economical parameters
Výsledek je plánovaným výstupem projektu DG16P02B048. Slouží k poloautomatickému zarovnání nahrávek s existujícími textovými přepisy.
Owner IČO
49777513
Owner name
Západočeská univerzita v Plzni