SADA - SEMI AUTOMATIC DATA ANALYSIS
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F19%3A43957696" target="_blank" >RIV/49777513:23520/19:43957696 - isvavai.cz</a>
Result on the web
<a href="http://www.kky.zcu.cz/cs/sw/sada" target="_blank" >http://www.kky.zcu.cz/cs/sw/sada</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
SADA - SYSTÉM PRO POLOAUTOMATICKOU ANALÝZU DAT PRO LINGVISTICKY STRUKTUROVANOU DATABÁZI DOTAZŮ JAZYKOVÉ PORADNY
Original language description
Hlavním účelem předkládaného softwaru SADA (Semi Automatic Data Analysis) pro poloautomatickou anotaci je usnadnění práce odborných pracovníků Jazykové poradny Ústavu pro jazyk český AV ČR při zpracování dotazů pro jejich vložení do lingvisticky strukturované softwarové databáze dotazů (LSSDD), dostupné na adrese https://dotazy.ujc.cas.cz/. Systém SADA uživateli pomáhá s anotací nahraných dotazů: poskytuje automatický přepis nahrávky, spolu s možností orientace ve zvukové nahrávce. Na základě tohoto přepisu navrhuje uživateli kategorii tématu dotazu usnadňující uživateli správné zařazení do databáze. Spolu s přepisem jsou k dispozici i časové značky usnadňující případnou orientaci v nahrávce. Klíčovými komponentami softwaru SADA je modul pro rozpoznávání mluvené řeči (ASR – z angl. Automatic Speech Recognition) a modul pro identifikaci témat (Topic Identification). Nahrávka jazykové poradny je pořízena softwarovou telefonní ústřednou, která automaticky hovor zaznamená a předá systému SADA ke zpracování. Výsledek je pak odborným pracovníkům jazykové poradny dostupný ve webové aplikaci databáze LSSDD (v její administrátorské části) k dokončení zpracování a zveřejnění dotazu veřejnosti.
Czech name
SADA - SYSTÉM PRO POLOAUTOMATICKOU ANALÝZU DAT PRO LINGVISTICKY STRUKTUROVANOU DATABÁZI DOTAZŮ JAZYKOVÉ PORADNY
Czech description
Hlavním účelem předkládaného softwaru SADA (Semi Automatic Data Analysis) pro poloautomatickou anotaci je usnadnění práce odborných pracovníků Jazykové poradny Ústavu pro jazyk český AV ČR při zpracování dotazů pro jejich vložení do lingvisticky strukturované softwarové databáze dotazů (LSSDD), dostupné na adrese https://dotazy.ujc.cas.cz/. Systém SADA uživateli pomáhá s anotací nahraných dotazů: poskytuje automatický přepis nahrávky, spolu s možností orientace ve zvukové nahrávce. Na základě tohoto přepisu navrhuje uživateli kategorii tématu dotazu usnadňující uživateli správné zařazení do databáze. Spolu s přepisem jsou k dispozici i časové značky usnadňující případnou orientaci v nahrávce. Klíčovými komponentami softwaru SADA je modul pro rozpoznávání mluvené řeči (ASR – z angl. Automatic Speech Recognition) a modul pro identifikaci témat (Topic Identification). Nahrávka jazykové poradny je pořízena softwarovou telefonní ústřednou, která automaticky hovor zaznamená a předá systému SADA ke zpracování. Výsledek je pak odborným pracovníkům jazykové poradny dostupný ve webové aplikaci databáze LSSDD (v její administrátorské části) k dokončení zpracování a zveřejnění dotazu veřejnosti.
Classification
Type
R - Software
CEP classification
—
OECD FORD branch
20205 - Automation and control systems
Result continuities
Project
<a href="/en/project/DG16P02B009" target="_blank" >DG16P02B009: Access to a Lingustically Structured Database of Enquiries from the Language Consulting Centre</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2019
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
ZCU/KKY/2019/003
Technical parameters
SW zajišťuje převod řeči (nahrávky) na text a rozpoznání jazykových témat v tomto textu obsažených. S ohledem na princip dekompozice se systém skládá ze dvou programů a každý z těchto programů řeší jednu část úlohy. Program Recognize (rozpoznávač řeči) převádí nahrávku řeči (záznam telefonního hovoru) na text. Program GetTopic (rozpoznávač jazykových témat) přiřazuje rozpoznanému textu jazyková témata, která se v něm objevují. Výsledky systému SADA se dále předávají systému lingvisticky strukturované softwarové databáze dotazů (LSSDD). Program Recognize slouží pro převod zaznamenaného telefonního hovoru do textové podoby. Je zkompilovaný pro OS GNU/Linux 64-Bit. Testování probíhalo na OS Ubuntu 16.04 LTS. Signál volajícího i volaného pochází z různých prostředí a po cestě k digitální telefonní ústředně, která hovor zaznamenává, prochází různými formami zpracování (různé způsoby kódování). Proto je vhodné řeč volajícího (tazatel) a volaného (jazyková poradna) rozpoznávat lehce odlišnými způsoby. Z toho důvodu ústředna ukládá každý ze signálů do zvláštního souboru a v tomto formátu očekává svůj vstup i program Recognize. Program GetTopic slouží k rozpoznání jazykových témat v textu (rozpoznané řeči). Jde o sadu skriptů v jazyce Python a natrénovaných neuronových sítí (klasifikátorů). Program dále používá celou řadu externích knihoven (např. Keras či TensorFlow v1.0). Kompletní seznam používaných knihoven a nástrojů lze získat výpisem nainstalovaných balíčků ve vytvořeném prostředí (např. pip freeze). Požadované verze knihoven jsou definovány v instalačním skriptu. Ačkoliv charakter programu nevylučuje použití na jiných operačních systémech (např. OS Windows), testování probíhalo na OS Ubuntu 16.04 LTS. Parametry modelů byly natrénovány metodami strojového učení s využitím anotovaných dat Jazykové poradny Ústavu pro jazyk český AV ČR.
Economical parameters
Hlavním účelem předkládaného softwaru SADA je převést zvukové nahrávky Jazykové poradny Ústavu pro jazyk český AV ČR do takové strojově čitelné podoby, která umožní poradníkům z snadnější zařazení do finálních linguistických kategorií pro uložení záznamu do Linguisticky strukturované databáze dotazů. Licence je poskytována zdarma, příjemce licence musí mít zajištěna práva k nahrávkám Jazykové poradny a smí používat software pouze pro nekomerční účely k plnění Lingvisticky strukturované databáze dotazů. Jediným na první pohled zřetelným ekonomickým přínosem je úspora času badatelů při vkládání informací do databáze.
Owner IČO
49777513
Owner name
Západočeská univerzita v Plzni