SADA - SYSTÉM PRO POLOAUTOMATICKOU ANALÝZU DAT PRO LINGVISTICKY STRUKTUROVANOU DATABÁZI DOTAZŮ JAZYKOVÉ PORADNY

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F19%3A43957696" target="_blank" >RIV/49777513:23520/19:43957696 - isvavai.cz</a>
Výsledek na webu
<a href="http://www.kky.zcu.cz/cs/sw/sada" target="_blank" >http://www.kky.zcu.cz/cs/sw/sada</a>
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
čeština
Název v původním jazyce
SADA - SYSTÉM PRO POLOAUTOMATICKOU ANALÝZU DAT PRO LINGVISTICKY STRUKTUROVANOU DATABÁZI DOTAZŮ JAZYKOVÉ PORADNY
Popis výsledku v původním jazyce
Hlavním účelem předkládaného softwaru SADA (Semi Automatic Data Analysis) pro poloautomatickou anotaci je usnadnění práce odborných pracovníků Jazykové poradny Ústavu pro jazyk český AV ČR při zpracování dotazů pro jejich vložení do lingvisticky strukturované softwarové databáze dotazů (LSSDD), dostupné na adrese https://dotazy.ujc.cas.cz/. Systém SADA uživateli pomáhá s anotací nahraných dotazů: poskytuje automatický přepis nahrávky, spolu s možností orientace ve zvukové nahrávce. Na základě tohoto přepisu navrhuje uživateli kategorii tématu dotazu usnadňující uživateli správné zařazení do databáze. Spolu s přepisem jsou k dispozici i časové značky usnadňující případnou orientaci v nahrávce. Klíčovými komponentami softwaru SADA je modul pro rozpoznávání mluvené řeči (ASR – z angl. Automatic Speech Recognition) a modul pro identifikaci témat (Topic Identification). Nahrávka jazykové poradny je pořízena softwarovou telefonní ústřednou, která automaticky hovor zaznamená a předá systému SADA ke zpracování. Výsledek je pak odborným pracovníkům jazykové poradny dostupný ve webové aplikaci databáze LSSDD (v její administrátorské části) k dokončení zpracování a zveřejnění dotazu veřejnosti.
Název v anglickém jazyce
SADA - SEMI AUTOMATIC DATA ANALYSIS
Popis výsledku anglicky
Software SADA (Semi Automatic Data Analysis) is a semi-automatic system of processing the queries for recording them into the database LSSDD. The system facilitates searching and categorising the queries by language counsellors and database users.

Klasifikace

Druh
R - Software
CEP obor
—
OECD FORD obor
20205 - Automation and control systems

Návaznosti výsledku

Projekt
<a href="/cs/project/DG16P02B009" target="_blank" >DG16P02B009: Zpřístupnění dotazů jazykové poradny v lingvisticky strukturované databázi</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

Rok uplatnění
2019
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Interní identifikační kód produktu
ZCU/KKY/2019/003
Technické parametry
SW zajišťuje převod řeči (nahrávky) na text a rozpoznání jazykových témat v tomto textu obsažených. S ohledem na princip dekompozice se systém skládá ze dvou programů a každý z těchto programů řeší jednu část úlohy. Program Recognize (rozpoznávač řeči) převádí nahrávku řeči (záznam telefonního hovoru) na text. Program GetTopic (rozpoznávač jazykových témat) přiřazuje rozpoznanému textu jazyková témata, která se v něm objevují. Výsledky systému SADA se dále předávají systému lingvisticky strukturované softwarové databáze dotazů (LSSDD). Program Recognize slouží pro převod zaznamenaného telefonního hovoru do textové podoby. Je zkompilovaný pro OS GNU/Linux 64-Bit. Testování probíhalo na OS Ubuntu 16.04 LTS. Signál volajícího i volaného pochází z různých prostředí a po cestě k digitální telefonní ústředně, která hovor zaznamenává, prochází různými formami zpracování (různé způsoby kódování). Proto je vhodné řeč volajícího (tazatel) a volaného (jazyková poradna) rozpoznávat lehce odlišnými způsoby. Z toho důvodu ústředna ukládá každý ze signálů do zvláštního souboru a v tomto formátu očekává svůj vstup i program Recognize. Program GetTopic slouží k rozpoznání jazykových témat v textu (rozpoznané řeči). Jde o sadu skriptů v jazyce Python a natrénovaných neuronových sítí (klasifikátorů). Program dále používá celou řadu externích knihoven (např. Keras či TensorFlow v1.0). Kompletní seznam používaných knihoven a nástrojů lze získat výpisem nainstalovaných balíčků ve vytvořeném prostředí (např. pip freeze). Požadované verze knihoven jsou definovány v instalačním skriptu. Ačkoliv charakter programu nevylučuje použití na jiných operačních systémech (např. OS Windows), testování probíhalo na OS Ubuntu 16.04 LTS. Parametry modelů byly natrénovány metodami strojového učení s využitím anotovaných dat Jazykové poradny Ústavu pro jazyk český AV ČR.
Ekonomické parametry
Hlavním účelem předkládaného softwaru SADA je převést zvukové nahrávky Jazykové poradny Ústavu pro jazyk český AV ČR do takové strojově čitelné podoby, která umožní poradníkům z snadnější zařazení do finálních linguistických kategorií pro uložení záznamu do Linguisticky strukturované databáze dotazů. Licence je poskytována zdarma, příjemce licence musí mít zajištěna práva k nahrávkám Jazykové poradny a smí používat software pouze pro nekomerční účely k plnění Lingvisticky strukturované databáze dotazů. Jediným na první pohled zřetelným ekonomickým přínosem je úspora času badatelů při vkládání informací do databáze.
IČO vlastníka výsledku
49777513
Název vlastníka
Západočeská univerzita v Plzni

Podobné výsledky(10)

First Insight into the Processing of the Language Consulting Center Data Ontology Engineering Relationally Softwarové nástroje pro poloautomatické provazování katalogizačních záznamů s databází národních autorit a relevantními národními zdroji LOD (Linked Open Data)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

SADA - SYSTÉM PRO POLOAUTOMATICKOU ANALÝZU DAT PRO LINGVISTICKY STRUKTUROVANOU DATABÁZI DOTAZŮ JAZYKOVÉ PORADNY

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)