Disclosure of the Czech Radio archive for sophisticated search
Project goals
The Czech Radio archive of spoken documents is often considered one of the jewels of Czech cultural heritage. It contains the largest collection of recordings of spoken Czech, being unique in its volume (in the order of hundreds of thousands of hours ofrecordings), content (commentaries to daily events ? both national and international) and time span (more than 80 years of continuous broadcasting). The first step in preserving the archive is the ongoing digitalization. The next step should be to utilize the latest technology and make this unique archive available to the wide public. The main aim of this project is to process the archive (especially its broadcast news part) by the methods of computer speech-text transcription, followed by the detailedindexation of the transcriptions and the creation of the database which will allow for full-text search in the archive. This will be achieved by designing and building a complex software platform that will include: an audio processing module, speech recognition and speaker recognition modules, indexation and database module, an editor of transcripts, and a web-based search and play module. The latter will allow for searching words and phrases within hundreds of thousands of hours of broadcast recordings. The search will be very fast, taking only fractions of a second. The users of this unique technology will be either Czech Radio staff (when preparing programs based on archive documents), or historians (who will be give instant and interactive access to archival sources), linguists (mainly those specialized in diachronic issues of Czech languages), and last but not least, educational institutions and the general public. The pro-ject is designed with a perspective to future sustainability, i.e. all thedeveloped technology will be prepared to process not just the historical but also all the recent and future pro-grams, and add their content continuously to this unique multimedia archive.
Keywords
Audio archive processingmultimedia databasespeech recognitiondocument indexationfull-text searchoral memory heritage
Public support
Provider
Ministry of Culture
Programme
Applied research and development of national and cultural identity Programme? (in short, ?NAKI?)
Call for proposals
NAKI 1 (SMK02011DF001)
Main participants
—
Contest type
VS - Public tender
Contract ID
13/2011/OVV
Alternative language
Project name in Czech
Zpřístupnění archivu Českého rozhlasu pro sofistikované vyhledávání
Annotation in Czech
Archiv mluvených pořadů Českého rozhlasu je právem označován za jeden z klenotů kul-turního dědictví ČR.Obsahuje totiž nejrozsáhlejší sbírku záznamů mluvené češtiny, unikátní svým objemem (v řádu stovek tisíc hodin nahrávek), obsahem (dennodenní komentáře k domácím i světovým událostem) i časovým rozpětím (více než 80 let nepřetržitého vysílání). Prvním krokem záchrany tohoto archivu je právě probíhající digitalizace. Druhým krokem by mělo být jeho zpřístupnění pomocí nejmodernějších technologií. To jecílem to-hoto projektu, jehož výsledkem bude zpracování významné části archivu (zejména zpra-vodajských a publicistických pořadů) metodami počítačového přepisu řeči, uložení těchto přepisů doplněných o řadu detailních informací do databáze a umožnění neomezeného vyhledávání v této databázi způsobem obdobným jako u textových dokumentů (tzv. full-text search). Vytvořením komplexní softwarové technologie, zahrnující moduly zpracování audiosignálu archivních nahrávek, rozpoznávání řeči a řečníka, zaindexování přepisů do databáze, editoru a webového přehrávače, vznikne veřejně přístupný portál, který umožní nalezení libovolného slova či slovního spojení v archivu obsahujícím až stovky tisíc hodin záznamů, a to během zlomku sekundy. Uživateli této unikátní technologie budou jak pra-covníci Českého rozhlasu, jimž významným způsobem usnadní redakční práci, tak i histo-rici, kteří tímto způsobem získají okamžitý a interaktivní přístup k archivním pramenům, jazykovědci, pro něž bude takto zpřístupněný archiv zdrojem pro studie týkající se vývoje různých aspektů českého jazyka za posledních 80 let, a v neposlední řadě i vzdělávací instituce a široká veřejnost. Projekt je navržen s ohledem na budoucí udržitelnost, tj. vyvi-nuté technologie budou připraveny stejným způsobem zpracovávat všechny současné i budoucí pořady a průběžně tak doplňovat a aktualizovat obsah tohoto unikátního multime-diálního archivu.
Scientific branches
R&D category
AP - Applied research
CEP classification - main branch
AF - Documentation, librarianship, work with information
CEP - secondary branch
AJ - Literature, mass media, audio-visual activities
CEP - another secondary branch
JC - Computer hardware and software
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
20206 - Computer hardware and architecture
50801 - Journalism
50802 - Media and socio-cultural communication
50803 - Information science (social aspects)
50804 - Library science
60204 - General literature studies
60205 - Literary theory
60206 - Specific literatures
Completed project evaluation
Provider evaluation
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Project results evaluation
The project has been successful in relation to its terms of reference (its goals and at least 75 % of the expected applied results and B-type results listed in the Contract have been achieved ? i. e. at least 75 % of each result type).
Solution timeline
Realization period - beginning
Jan 27, 2011
Realization period - end
Dec 31, 2014
Project status
U - Finished project
Latest support payment
Mar 18, 2014
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP15-MK0-DF-U/01:1
Data delivery date
Jul 1, 2015
Finance
Total approved costs
15,605 thou. CZK
Public financial support
15,605 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK
Recognised costs
15 605 CZK thou.
Public support
15 605 CZK thou.
0%
Provider
Ministry of Culture
CEP
AF - Documentation, librarianship, work with information
Solution period
27. 01. 2011 - 31. 12. 2014