WFBAS - Word/Phoneme-Based Audio Search
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F15%3A43927799" target="_blank" >RIV/49777513:23520/15:43927799 - isvavai.cz</a>
Result on the web
<a href="http://www.kky.zcu.cz/cs/sw/WFBAS" target="_blank" >http://www.kky.zcu.cz/cs/sw/WFBAS</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
WFBAS - Word/Phoneme-Based Audio Search
Original language description
Software slouží k prohledávání slovního i fonémového indexu videoarchivu a předává uživateli (resp. softwaru MCLASS) informaci o tom, kde a s jakou pravděpodobností se hledané výrazy vyskytují. Vyhledávání ve slovním indexu je v princip velice jednoduché - pouze do databáze zadáme dotaz na výskyt příslušného slova. Ještě předtím je slovo z uživatelova dotazu lingvisticky předzpracováno následujícím postupem: (1) Ve výslovnostním slovníku je vyhledána fonetická transkripce (tj. posloupnost fonémů) odpovídající danému slovu. (2) Ve stejném slovníku jsou pak nalezena všechna slova, která mají shodnou fonetickou transkripci. (3) Pro všechna takto vyhledaná slova je lemmatizátorem identifikována sada všech možných lemmat a následně je týmž softwarem zpětně vyprodukována množina všech existujících morfologických tvarů. Hledání pak probíhá se všemi takto vyprodukovanými tvary slova a položky nalezené v databázi jsou řazeny sestupně dle hodnoty pravděpodobnosti; uvedené rozšíření dotazu však lze i vypnout. Vyhledávání ve fonetickém indexu je složitější, neboť hledáme izolovaně jednotlivé fonémové trigramy a výsledky pak vhodným způsobem kombinujeme. Přesný postup je tento: (1) Hledané slovo je převedeno na posloupnost fonémů; výsledný řetězec je rozdělen na fonémové trigramy. (2) Trojice fonémů jsou vyhledány v indexu a shluknuty podél časové osy pro každou nahrávku zvlášť a to tak, že je definována minimální vzdálenost mezi jednotlivými shluky. (3) Každý shluk je ohodnocen kombinovaným skóre a vyhledané položky jsou řazeny sestupně dle hodnoty tohoto skóre.
Czech name
WFBAS - Word/Phoneme-Based Audio Search
Czech description
Software slouží k prohledávání slovního i fonémového indexu videoarchivu a předává uživateli (resp. softwaru MCLASS) informaci o tom, kde a s jakou pravděpodobností se hledané výrazy vyskytují. Vyhledávání ve slovním indexu je v princip velice jednoduché - pouze do databáze zadáme dotaz na výskyt příslušného slova. Ještě předtím je slovo z uživatelova dotazu lingvisticky předzpracováno následujícím postupem: (1) Ve výslovnostním slovníku je vyhledána fonetická transkripce (tj. posloupnost fonémů) odpovídající danému slovu. (2) Ve stejném slovníku jsou pak nalezena všechna slova, která mají shodnou fonetickou transkripci. (3) Pro všechna takto vyhledaná slova je lemmatizátorem identifikována sada všech možných lemmat a následně je týmž softwarem zpětně vyprodukována množina všech existujících morfologických tvarů. Hledání pak probíhá se všemi takto vyprodukovanými tvary slova a položky nalezené v databázi jsou řazeny sestupně dle hodnoty pravděpodobnosti; uvedené rozšíření dotazu však lze i vypnout. Vyhledávání ve fonetickém indexu je složitější, neboť hledáme izolovaně jednotlivé fonémové trigramy a výsledky pak vhodným způsobem kombinujeme. Přesný postup je tento: (1) Hledané slovo je převedeno na posloupnost fonémů; výsledný řetězec je rozdělen na fonémové trigramy. (2) Trojice fonémů jsou vyhledány v indexu a shluknuty podél časové osy pro každou nahrávku zvlášť a to tak, že je definována minimální vzdálenost mezi jednotlivými shluky. (3) Každý shluk je ohodnocen kombinovaným skóre a vyhledané položky jsou řazeny sestupně dle hodnoty tohoto skóre.
Classification
Type
R - Software
CEP classification
IN - Informatics
OECD FORD branch
—
Result continuities
Project
<a href="/en/project/DF12P01OVV022" target="_blank" >DF12P01OVV022: ASR- and MT-based Access to a Large Archive of Cultural Heritage (AMALACH)</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2015
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
WFBAS
Technical parameters
Softwarový balík lze (po vyžádání hesla) získat zde: http://ufal.ms.mff.cuni.cz/grants/amalach
Economical parameters
Výsledky vznikly jako součást řešení projektu Ministerstva kultury číslo DF12P01OVV022 a podléhají licenčním podmínkám daného typu projektu. Licence je všem zájemcům poskytována zdarma, avšak nezbytnou podmínkou pro využívání tohoto výsledku je, aby měl uživatel ošetřeno právo přístupu k nahrávkám, nad kterými se vyhledávání provádí, pokud tento požadavek je dle licence na jednotlivé časti systému jejich licencí vyžadován. Veškerá práva k těmto nahrávkám jsou majetkem USC Shoah Foundation. Další informace lze získat na vyžádání na riv@control.zcu.cz.
Owner IČO
49777513
Owner name
Západočeská univerzita v Plzni