All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

SADA - SEMI AUTOMATIC DATA ANALYSIS

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F19%3A43957696" target="_blank" >RIV/49777513:23520/19:43957696 - isvavai.cz</a>

  • Result on the web

    <a href="http://www.kky.zcu.cz/cs/sw/sada" target="_blank" >http://www.kky.zcu.cz/cs/sw/sada</a>

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    čeština

  • Original language name

    SADA - SYSTÉM PRO POLOAUTOMATICKOU ANALÝZU DAT PRO LINGVISTICKY STRUKTUROVANOU DATABÁZI DOTAZŮ JAZYKOVÉ PORADNY

  • Original language description

    Hlavním účelem předkládaného softwaru SADA (Semi Automatic Data Analysis) pro poloautomatickou anotaci je usnadnění práce odborných pracovníků Jazykové poradny Ústavu pro jazyk český AV ČR při zpracování dotazů pro jejich vložení do lingvisticky strukturované softwarové databáze dotazů (LSSDD), dostupné na adrese https://dotazy.ujc.cas.cz/. Systém SADA uživateli pomáhá s anotací nahraných dotazů: poskytuje automatický přepis nahrávky, spolu s možností orientace ve zvukové nahrávce. Na základě tohoto přepisu navrhuje uživateli kategorii tématu dotazu usnadňující uživateli správné zařazení do databáze. Spolu s přepisem jsou k dispozici i časové značky usnadňující případnou orientaci v nahrávce. Klíčovými komponentami softwaru SADA je modul pro rozpoznávání mluvené řeči (ASR – z angl. Automatic Speech Recognition) a modul pro identifikaci témat (Topic Identification). Nahrávka jazykové poradny je pořízena softwarovou telefonní ústřednou, která automaticky hovor zaznamená a předá systému SADA ke zpracování. Výsledek je pak odborným pracovníkům jazykové poradny dostupný ve webové aplikaci databáze LSSDD (v její administrátorské části) k dokončení zpracování a zveřejnění dotazu veřejnosti.

  • Czech name

    SADA - SYSTÉM PRO POLOAUTOMATICKOU ANALÝZU DAT PRO LINGVISTICKY STRUKTUROVANOU DATABÁZI DOTAZŮ JAZYKOVÉ PORADNY

  • Czech description

    Hlavním účelem předkládaného softwaru SADA (Semi Automatic Data Analysis) pro poloautomatickou anotaci je usnadnění práce odborných pracovníků Jazykové poradny Ústavu pro jazyk český AV ČR při zpracování dotazů pro jejich vložení do lingvisticky strukturované softwarové databáze dotazů (LSSDD), dostupné na adrese https://dotazy.ujc.cas.cz/. Systém SADA uživateli pomáhá s anotací nahraných dotazů: poskytuje automatický přepis nahrávky, spolu s možností orientace ve zvukové nahrávce. Na základě tohoto přepisu navrhuje uživateli kategorii tématu dotazu usnadňující uživateli správné zařazení do databáze. Spolu s přepisem jsou k dispozici i časové značky usnadňující případnou orientaci v nahrávce. Klíčovými komponentami softwaru SADA je modul pro rozpoznávání mluvené řeči (ASR – z angl. Automatic Speech Recognition) a modul pro identifikaci témat (Topic Identification). Nahrávka jazykové poradny je pořízena softwarovou telefonní ústřednou, která automaticky hovor zaznamená a předá systému SADA ke zpracování. Výsledek je pak odborným pracovníkům jazykové poradny dostupný ve webové aplikaci databáze LSSDD (v její administrátorské části) k dokončení zpracování a zveřejnění dotazu veřejnosti.

Classification

  • Type

    R - Software

  • CEP classification

  • OECD FORD branch

    20205 - Automation and control systems

Result continuities

  • Project

    <a href="/en/project/DG16P02B009" target="_blank" >DG16P02B009: Access to a Lingustically Structured Database of Enquiries from the Language Consulting Centre</a><br>

  • Continuities

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

  • Publication year

    2019

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Internal product ID

    ZCU/KKY/2019/003

  • Technical parameters

    SW zajišťuje převod řeči (nahrávky) na text a rozpoznání jazykových témat v tomto textu obsažených. S ohledem na princip dekompozice se systém skládá ze dvou programů a každý z těchto programů řeší jednu část úlohy. Program Recognize (rozpoznávač řeči) převádí nahrávku řeči (záznam telefonního hovoru) na text. Program GetTopic (rozpoznávač jazykových témat) přiřazuje rozpoznanému textu jazyková témata, která se v něm objevují. Výsledky systému SADA se dále předávají systému lingvisticky strukturované softwarové databáze dotazů (LSSDD). Program Recognize slouží pro převod zaznamenaného telefonního hovoru do textové podoby. Je zkompilovaný pro OS GNU/Linux 64-Bit. Testování probíhalo na OS Ubuntu 16.04 LTS. Signál volajícího i volaného pochází z různých prostředí a po cestě k digitální telefonní ústředně, která hovor zaznamenává, prochází různými formami zpracování (různé způsoby kódování). Proto je vhodné řeč volajícího (tazatel) a volaného (jazyková poradna) rozpoznávat lehce odlišnými způsoby. Z toho důvodu ústředna ukládá každý ze signálů do zvláštního souboru a v tomto formátu očekává svůj vstup i program Recognize. Program GetTopic slouží k rozpoznání jazykových témat v textu (rozpoznané řeči). Jde o sadu skriptů v jazyce Python a natrénovaných neuronových sítí (klasifikátorů). Program dále používá celou řadu externích knihoven (např. Keras či TensorFlow v1.0). Kompletní seznam používaných knihoven a nástrojů lze získat výpisem nainstalovaných balíčků ve vytvořeném prostředí (např. pip freeze). Požadované verze knihoven jsou definovány v instalačním skriptu. Ačkoliv charakter programu nevylučuje použití na jiných operačních systémech (např. OS Windows), testování probíhalo na OS Ubuntu 16.04 LTS. Parametry modelů byly natrénovány metodami strojového učení s využitím anotovaných dat Jazykové poradny Ústavu pro jazyk český AV ČR.

  • Economical parameters

    Hlavním účelem předkládaného softwaru SADA je převést zvukové nahrávky Jazykové poradny Ústavu pro jazyk český AV ČR do takové strojově čitelné podoby, která umožní poradníkům z snadnější zařazení do finálních linguistických kategorií pro uložení záznamu do Linguisticky strukturované databáze dotazů. Licence je poskytována zdarma, příjemce licence musí mít zajištěna práva k nahrávkám Jazykové poradny a smí používat software pouze pro nekomerční účely k plnění Lingvisticky strukturované databáze dotazů. Jediným na první pohled zřetelným ekonomickým přínosem je úspora času badatelů při vkládání informací do databáze.

  • Owner IČO

    49777513

  • Owner name

    Západočeská univerzita v Plzni