WFBAS - Word/Phoneme-Based Audio Search

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F15%3A43927799" target="_blank" >RIV/49777513:23520/15:43927799 - isvavai.cz</a>
Výsledek na webu
<a href="http://www.kky.zcu.cz/cs/sw/WFBAS" target="_blank" >http://www.kky.zcu.cz/cs/sw/WFBAS</a>
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
čeština
Název v původním jazyce
WFBAS - Word/Phoneme-Based Audio Search
Popis výsledku v původním jazyce
Software slouží k prohledávání slovního i fonémového indexu videoarchivu a předává uživateli (resp. softwaru MCLASS) informaci o tom, kde a s jakou pravděpodobností se hledané výrazy vyskytují. Vyhledávání ve slovním indexu je v princip velice jednoduché - pouze do databáze zadáme dotaz na výskyt příslušného slova. Ještě předtím je slovo z uživatelova dotazu lingvisticky předzpracováno následujícím postupem: (1) Ve výslovnostním slovníku je vyhledána fonetická transkripce (tj. posloupnost fonémů) odpovídající danému slovu. (2) Ve stejném slovníku jsou pak nalezena všechna slova, která mají shodnou fonetickou transkripci. (3) Pro všechna takto vyhledaná slova je lemmatizátorem identifikována sada všech možných lemmat a následně je týmž softwarem zpětně vyprodukována množina všech existujících morfologických tvarů. Hledání pak probíhá se všemi takto vyprodukovanými tvary slova a položky nalezené v databázi jsou řazeny sestupně dle hodnoty pravděpodobnosti; uvedené rozšíření dotazu však lze i vypnout. Vyhledávání ve fonetickém indexu je složitější, neboť hledáme izolovaně jednotlivé fonémové trigramy a výsledky pak vhodným způsobem kombinujeme. Přesný postup je tento: (1) Hledané slovo je převedeno na posloupnost fonémů; výsledný řetězec je rozdělen na fonémové trigramy. (2) Trojice fonémů jsou vyhledány v indexu a shluknuty podél časové osy pro každou nahrávku zvlášť a to tak, že je definována minimální vzdálenost mezi jednotlivými shluky. (3) Každý shluk je ohodnocen kombinovaným skóre a vyhledané položky jsou řazeny sestupně dle hodnoty tohoto skóre.
Název v anglickém jazyce
WFBAS - Word/Phoneme-Based Audio Search
Popis výsledku anglicky
The software used to search the word and phoneme index of video archives and provides the user (resp. MCLASS software) with information about where and how likely search terms appear. Searching the word index is in principle very simple - the query is submitted to the database on the occurrence of specific words. The linguistic preprocessing works as follows: (1) pronunciation dictionary is searched for phonetic transcription (ie. a sequence of phonemes) corresponding to the given word. (2) In the same dictionary, all the words that have the same phonetic transcription are found. (3) all such words are lemmatised and the set of all possible lemmas and word forms is identified. The search is then carried out with all such word forms and items found in the database are ranked according to the probability value; But given query expansion can be switched off. Search in phonetic index is more complicated, because we are looking for an isolated individual phoneme trigraphs results and then combine them in an appropriate manner. The exact procedure is as follows: (1) the search word is converted into a sequence of phonemes; the resulting string is divided into phoneme trigraphs. (2) The three phonemes are searched in the index and ordered along the time axis for each record separately, so that it is defined by the minimum distance between the clusters. (3) Each cluster is evaluated by a combined score and retrieved the items are sorted in descending order according to the value of the score.

Klasifikace

Druh
R - Software
CEP obor
IN - Informatika
OECD FORD obor
—

Návaznosti výsledku

Projekt
<a href="/cs/project/DF12P01OVV022" target="_blank" >DF12P01OVV022: Zpřístupnění rozsáhlého video archivu kulturního dědictví pomocí metod automatického rozpoznávání mluvené řeči a strojového překladu. (AMALACH)</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

Rok uplatnění
2015
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Interní identifikační kód produktu
WFBAS
Technické parametry
Softwarový balík lze (po vyžádání hesla) získat zde: http://ufal.ms.mff.cuni.cz/grants/amalach
Ekonomické parametry
Výsledky vznikly jako součást řešení projektu Ministerstva kultury číslo DF12P01OVV022 a podléhají licenčním podmínkám daného typu projektu. Licence je všem zájemcům poskytována zdarma, avšak nezbytnou podmínkou pro využívání tohoto výsledku je, aby měl uživatel ošetřeno právo přístupu k nahrávkám, nad kterými se vyhledávání provádí, pokud tento požadavek je dle licence na jednotlivé časti systému jejich licencí vyžadován. Veškerá práva k těmto nahrávkám jsou majetkem USC Shoah Foundation. Další informace lze získat na vyžádání na riv@control.zcu.cz.
IČO vlastníka výsledku
49777513
Název vlastníka
Západočeská univerzita v Plzni

Podobné výsledky(10)

Using Auto-Encoder BiLSTM Neural Network for Czech Grapheme-to-Phoneme Conversion Softwarový modul převádějící text napsaný v českém jazyce na posloupnost vzorků reprezentujících akustický signál.Adapting Metric Indexes for Searching in Multi-Metric Spaces

Co hledáte?

Rychlé hledání

Chytré vyhledávání

WFBAS - Word/Phoneme-Based Audio Search

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)