All
All

What are you looking for?

All
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Disclosure of the Czech Radio archive for sophisticated search

Project goals

The Czech Radio archive of spoken documents is often considered one of the jewels of Czech cultural heritage. It contains the largest collection of recordings of spoken Czech, being unique in its volume (in the order of hundreds of thousands of hours ofrecordings), content (commentaries to daily events ? both national and international) and time span (more than 80 years of continuous broadcasting). The first step in preserving the archive is the ongoing digitalization. The next step should be to utilize the latest technology and make this unique archive available to the wide public. The main aim of this project is to process the archive (especially its broadcast news part) by the methods of computer speech-text transcription, followed by the detailedindexation of the transcriptions and the creation of the database which will allow for full-text search in the archive. This will be achieved by designing and building a complex software platform that will include: an audio processing module, speech recognition and speaker recognition modules, indexation and database module, an editor of transcripts, and a web-based search and play module. The latter will allow for searching words and phrases within hundreds of thousands of hours of broadcast recordings. The search will be very fast, taking only fractions of a second. The users of this unique technology will be either Czech Radio staff (when preparing programs based on archive documents), or historians (who will be give instant and interactive access to archival sources), linguists (mainly those specialized in diachronic issues of Czech languages), and last but not least, educational institutions and the general public. The pro-ject is designed with a perspective to future sustainability, i.e. all thedeveloped technology will be prepared to process not just the historical but also all the recent and future pro-grams, and add their content continuously to this unique multimedia archive.

Keywords

Audio archive processingmultimedia databasespeech recognitiondocument indexationfull-text searchoral memory heritage

Public support

  • Provider

    Ministry of Culture

  • Programme

    Applied research and development of national and cultural identity Programme? (in short, ?NAKI?)

  • Call for proposals

    NAKI 1 (SMK02011DF001)

  • Main participants

  • Contest type

    VS - Public tender

  • Contract ID

    13/2011/OVV

Alternative language

  • Project name in Czech

    Zpřístupnění archivu Českého rozhlasu pro sofistikované vyhledávání

  • Annotation in Czech

    Archiv mluvených pořadů Českého rozhlasu je právem označován za jeden z klenotů kul-turního dědictví ČR.Obsahuje totiž nejrozsáhlejší sbírku záznamů mluvené češtiny, unikátní svým objemem (v řádu stovek tisíc hodin nahrávek), obsahem (dennodenní komentáře k domácím i světovým událostem) i časovým rozpětím (více než 80 let nepřetržitého vysílání). Prvním krokem záchrany tohoto archivu je právě probíhající digitalizace. Druhým krokem by mělo být jeho zpřístupnění pomocí nejmodernějších technologií. To jecílem to-hoto projektu, jehož výsledkem bude zpracování významné části archivu (zejména zpra-vodajských a publicistických pořadů) metodami počítačového přepisu řeči, uložení těchto přepisů doplněných o řadu detailních informací do databáze a umožnění neomezeného vyhledávání v této databázi způsobem obdobným jako u textových dokumentů (tzv. full-text search). Vytvořením komplexní softwarové technologie, zahrnující moduly zpracování audiosignálu archivních nahrávek, rozpoznávání řeči a řečníka, zaindexování přepisů do databáze, editoru a webového přehrávače, vznikne veřejně přístupný portál, který umožní nalezení libovolného slova či slovního spojení v archivu obsahujícím až stovky tisíc hodin záznamů, a to během zlomku sekundy. Uživateli této unikátní technologie budou jak pra-covníci Českého rozhlasu, jimž významným způsobem usnadní redakční práci, tak i histo-rici, kteří tímto způsobem získají okamžitý a interaktivní přístup k archivním pramenům, jazykovědci, pro něž bude takto zpřístupněný archiv zdrojem pro studie týkající se vývoje různých aspektů českého jazyka za posledních 80 let, a v neposlední řadě i vzdělávací instituce a široká veřejnost. Projekt je navržen s ohledem na budoucí udržitelnost, tj. vyvi-nuté technologie budou připraveny stejným způsobem zpracovávat všechny současné i budoucí pořady a průběžně tak doplňovat a aktualizovat obsah tohoto unikátního multime-diálního archivu.

Scientific branches

  • R&D category

    AP - Applied research

  • CEP classification - main branch

    AF - Documentation, librarianship, work with information

  • CEP - secondary branch

    AJ - Literature, mass media, audio-visual activities

  • CEP - another secondary branch

    JC - Computer hardware and software

  • 10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
    20206 - Computer hardware and architecture
    50801 - Journalism
    50802 - Media and socio-cultural communication
    50803 - Information science (social aspects)
    50804 - Library science
    60204 - General literature studies
    60205 - Literary theory
    60206 - Specific literatures

Completed project evaluation

  • Provider evaluation

    U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)

  • Project results evaluation

    The project has been successful in relation to its terms of reference (its goals and at least 75 % of the expected applied results and B-type results listed in the Contract have been achieved ? i. e. at least 75 % of each result type).

Solution timeline

  • Realization period - beginning

    Jan 27, 2011

  • Realization period - end

    Dec 31, 2014

  • Project status

    U - Finished project

  • Latest support payment

    Mar 18, 2014

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP15-MK0-DF-U/01:1

  • Data delivery date

    Jul 1, 2015

Finance

  • Total approved costs

    15,605 thou. CZK

  • Public financial support

    15,605 thou. CZK

  • Other public sources

    0 thou. CZK

  • Non public and foreign sources

    0 thou. CZK

Recognised costs

15 605 CZK thou.

Public support

15 605 CZK thou.

0%


Provider

Ministry of Culture

CEP

AF - Documentation, librarianship, work with information

Solution period

27. 01. 2011 - 31. 12. 2014