SADA - SYSTÉM PRO POLOAUTOMATICKOU ANALÝZU DAT PRO LINGVISTICKY STRUKTUROVANOU DATABÁZI DOTAZŮ JAZYKOVÉ PORADNY
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F19%3A43957696" target="_blank" >RIV/49777513:23520/19:43957696 - isvavai.cz</a>
Výsledek na webu
<a href="http://www.kky.zcu.cz/cs/sw/sada" target="_blank" >http://www.kky.zcu.cz/cs/sw/sada</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
SADA - SYSTÉM PRO POLOAUTOMATICKOU ANALÝZU DAT PRO LINGVISTICKY STRUKTUROVANOU DATABÁZI DOTAZŮ JAZYKOVÉ PORADNY
Popis výsledku v původním jazyce
Hlavním účelem předkládaného softwaru SADA (Semi Automatic Data Analysis) pro poloautomatickou anotaci je usnadnění práce odborných pracovníků Jazykové poradny Ústavu pro jazyk český AV ČR při zpracování dotazů pro jejich vložení do lingvisticky strukturované softwarové databáze dotazů (LSSDD), dostupné na adrese https://dotazy.ujc.cas.cz/. Systém SADA uživateli pomáhá s anotací nahraných dotazů: poskytuje automatický přepis nahrávky, spolu s možností orientace ve zvukové nahrávce. Na základě tohoto přepisu navrhuje uživateli kategorii tématu dotazu usnadňující uživateli správné zařazení do databáze. Spolu s přepisem jsou k dispozici i časové značky usnadňující případnou orientaci v nahrávce. Klíčovými komponentami softwaru SADA je modul pro rozpoznávání mluvené řeči (ASR – z angl. Automatic Speech Recognition) a modul pro identifikaci témat (Topic Identification). Nahrávka jazykové poradny je pořízena softwarovou telefonní ústřednou, která automaticky hovor zaznamená a předá systému SADA ke zpracování. Výsledek je pak odborným pracovníkům jazykové poradny dostupný ve webové aplikaci databáze LSSDD (v její administrátorské části) k dokončení zpracování a zveřejnění dotazu veřejnosti.
Název v anglickém jazyce
SADA - SEMI AUTOMATIC DATA ANALYSIS
Popis výsledku anglicky
Software SADA (Semi Automatic Data Analysis) is a semi-automatic system of processing the queries for recording them into the database LSSDD. The system facilitates searching and categorising the queries by language counsellors and database users.
Klasifikace
Druh
R - Software
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/DG16P02B009" target="_blank" >DG16P02B009: Zpřístupnění dotazů jazykové poradny v lingvisticky strukturované databázi</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2019
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
ZCU/KKY/2019/003
Technické parametry
SW zajišťuje převod řeči (nahrávky) na text a rozpoznání jazykových témat v tomto textu obsažených. S ohledem na princip dekompozice se systém skládá ze dvou programů a každý z těchto programů řeší jednu část úlohy. Program Recognize (rozpoznávač řeči) převádí nahrávku řeči (záznam telefonního hovoru) na text. Program GetTopic (rozpoznávač jazykových témat) přiřazuje rozpoznanému textu jazyková témata, která se v něm objevují. Výsledky systému SADA se dále předávají systému lingvisticky strukturované softwarové databáze dotazů (LSSDD). Program Recognize slouží pro převod zaznamenaného telefonního hovoru do textové podoby. Je zkompilovaný pro OS GNU/Linux 64-Bit. Testování probíhalo na OS Ubuntu 16.04 LTS. Signál volajícího i volaného pochází z různých prostředí a po cestě k digitální telefonní ústředně, která hovor zaznamenává, prochází různými formami zpracování (různé způsoby kódování). Proto je vhodné řeč volajícího (tazatel) a volaného (jazyková poradna) rozpoznávat lehce odlišnými způsoby. Z toho důvodu ústředna ukládá každý ze signálů do zvláštního souboru a v tomto formátu očekává svůj vstup i program Recognize. Program GetTopic slouží k rozpoznání jazykových témat v textu (rozpoznané řeči). Jde o sadu skriptů v jazyce Python a natrénovaných neuronových sítí (klasifikátorů). Program dále používá celou řadu externích knihoven (např. Keras či TensorFlow v1.0). Kompletní seznam používaných knihoven a nástrojů lze získat výpisem nainstalovaných balíčků ve vytvořeném prostředí (např. pip freeze). Požadované verze knihoven jsou definovány v instalačním skriptu. Ačkoliv charakter programu nevylučuje použití na jiných operačních systémech (např. OS Windows), testování probíhalo na OS Ubuntu 16.04 LTS. Parametry modelů byly natrénovány metodami strojového učení s využitím anotovaných dat Jazykové poradny Ústavu pro jazyk český AV ČR.
Ekonomické parametry
Hlavním účelem předkládaného softwaru SADA je převést zvukové nahrávky Jazykové poradny Ústavu pro jazyk český AV ČR do takové strojově čitelné podoby, která umožní poradníkům z snadnější zařazení do finálních linguistických kategorií pro uložení záznamu do Linguisticky strukturované databáze dotazů. Licence je poskytována zdarma, příjemce licence musí mít zajištěna práva k nahrávkám Jazykové poradny a smí používat software pouze pro nekomerční účely k plnění Lingvisticky strukturované databáze dotazů. Jediným na první pohled zřetelným ekonomickým přínosem je úspora času badatelů při vkládání informací do databáze.
IČO vlastníka výsledku
49777513
Název vlastníka
Západočeská univerzita v Plzni