Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

WFBAS - Word/Phoneme-Based Audio Search

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F15%3A43927799" target="_blank" >RIV/49777513:23520/15:43927799 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://www.kky.zcu.cz/cs/sw/WFBAS" target="_blank" >http://www.kky.zcu.cz/cs/sw/WFBAS</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    WFBAS - Word/Phoneme-Based Audio Search

  • Popis výsledku v původním jazyce

    Software slouží k prohledávání slovního i fonémového indexu videoarchivu a předává uživateli (resp. softwaru MCLASS) informaci o tom, kde a s jakou pravděpodobností se hledané výrazy vyskytují. Vyhledávání ve slovním indexu je v princip velice jednoduché - pouze do databáze zadáme dotaz na výskyt příslušného slova. Ještě předtím je slovo z uživatelova dotazu lingvisticky předzpracováno následujícím postupem: (1) Ve výslovnostním slovníku je vyhledána fonetická transkripce (tj. posloupnost fonémů) odpovídající danému slovu. (2) Ve stejném slovníku jsou pak nalezena všechna slova, která mají shodnou fonetickou transkripci. (3) Pro všechna takto vyhledaná slova je lemmatizátorem identifikována sada všech možných lemmat a následně je týmž softwarem zpětně vyprodukována množina všech existujících morfologických tvarů. Hledání pak probíhá se všemi takto vyprodukovanými tvary slova a položky nalezené v databázi jsou řazeny sestupně dle hodnoty pravděpodobnosti; uvedené rozšíření dotazu však lze i vypnout. Vyhledávání ve fonetickém indexu je složitější, neboť hledáme izolovaně jednotlivé fonémové trigramy a výsledky pak vhodným způsobem kombinujeme. Přesný postup je tento: (1) Hledané slovo je převedeno na posloupnost fonémů; výsledný řetězec je rozdělen na fonémové trigramy. (2) Trojice fonémů jsou vyhledány v indexu a shluknuty podél časové osy pro každou nahrávku zvlášť a to tak, že je definována minimální vzdálenost mezi jednotlivými shluky. (3) Každý shluk je ohodnocen kombinovaným skóre a vyhledané položky jsou řazeny sestupně dle hodnoty tohoto skóre.

  • Název v anglickém jazyce

    WFBAS - Word/Phoneme-Based Audio Search

  • Popis výsledku anglicky

    The software used to search the word and phoneme index of video archives and provides the user (resp. MCLASS software) with information about where and how likely search terms appear. Searching the word index is in principle very simple - the query is submitted to the database on the occurrence of specific words. The linguistic preprocessing works as follows: (1) pronunciation dictionary is searched for phonetic transcription (ie. a sequence of phonemes) corresponding to the given word. (2) In the same dictionary, all the words that have the same phonetic transcription are found. (3) all such words are lemmatised and the set of all possible lemmas and word forms is identified. The search is then carried out with all such word forms and items found in the database are ranked according to the probability value; But given query expansion can be switched off. Search in phonetic index is more complicated, because we are looking for an isolated individual phoneme trigraphs results and then combine them in an appropriate manner. The exact procedure is as follows: (1) the search word is converted into a sequence of phonemes; the resulting string is divided into phoneme trigraphs. (2) The three phonemes are searched in the index and ordered along the time axis for each record separately, so that it is defined by the minimum distance between the clusters. (3) Each cluster is evaluated by a combined score and retrieved the items are sorted in descending order according to the value of the score.

Klasifikace

  • Druh

    R - Software

  • CEP obor

    IN - Informatika

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/DF12P01OVV022" target="_blank" >DF12P01OVV022: Zpřístupnění rozsáhlého video archivu kulturního dědictví pomocí metod automatického rozpoznávání mluvené řeči a strojového překladu. (AMALACH)</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2015

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    WFBAS

  • Technické parametry

    Softwarový balík lze (po vyžádání hesla) získat zde: http://ufal.ms.mff.cuni.cz/grants/amalach

  • Ekonomické parametry

    Výsledky vznikly jako součást řešení projektu Ministerstva kultury číslo DF12P01OVV022 a podléhají licenčním podmínkám daného typu projektu. Licence je všem zájemcům poskytována zdarma, avšak nezbytnou podmínkou pro využívání tohoto výsledku je, aby měl uživatel ošetřeno právo přístupu k nahrávkám, nad kterými se vyhledávání provádí, pokud tento požadavek je dle licence na jednotlivé časti systému jejich licencí vyžadován. Veškerá práva k těmto nahrávkám jsou majetkem USC Shoah Foundation. Další informace lze získat na vyžádání na riv@control.zcu.cz.

  • IČO vlastníka výsledku

    49777513

  • Název vlastníka

    Západočeská univerzita v Plzni