Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

SADA - SYSTÉM PRO POLOAUTOMATICKOU ANALÝZU DAT PRO LINGVISTICKY STRUKTUROVANOU DATABÁZI DOTAZŮ JAZYKOVÉ PORADNY

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F19%3A43957696" target="_blank" >RIV/49777513:23520/19:43957696 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://www.kky.zcu.cz/cs/sw/sada" target="_blank" >http://www.kky.zcu.cz/cs/sw/sada</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    SADA - SYSTÉM PRO POLOAUTOMATICKOU ANALÝZU DAT PRO LINGVISTICKY STRUKTUROVANOU DATABÁZI DOTAZŮ JAZYKOVÉ PORADNY

  • Popis výsledku v původním jazyce

    Hlavním účelem předkládaného softwaru SADA (Semi Automatic Data Analysis) pro poloautomatickou anotaci je usnadnění práce odborných pracovníků Jazykové poradny Ústavu pro jazyk český AV ČR při zpracování dotazů pro jejich vložení do lingvisticky strukturované softwarové databáze dotazů (LSSDD), dostupné na adrese https://dotazy.ujc.cas.cz/. Systém SADA uživateli pomáhá s anotací nahraných dotazů: poskytuje automatický přepis nahrávky, spolu s možností orientace ve zvukové nahrávce. Na základě tohoto přepisu navrhuje uživateli kategorii tématu dotazu usnadňující uživateli správné zařazení do databáze. Spolu s přepisem jsou k dispozici i časové značky usnadňující případnou orientaci v nahrávce. Klíčovými komponentami softwaru SADA je modul pro rozpoznávání mluvené řeči (ASR – z angl. Automatic Speech Recognition) a modul pro identifikaci témat (Topic Identification). Nahrávka jazykové poradny je pořízena softwarovou telefonní ústřednou, která automaticky hovor zaznamená a předá systému SADA ke zpracování. Výsledek je pak odborným pracovníkům jazykové poradny dostupný ve webové aplikaci databáze LSSDD (v její administrátorské části) k dokončení zpracování a zveřejnění dotazu veřejnosti.

  • Název v anglickém jazyce

    SADA - SEMI AUTOMATIC DATA ANALYSIS

  • Popis výsledku anglicky

    Software SADA (Semi Automatic Data Analysis) is a semi-automatic system of processing the queries for recording them into the database LSSDD. The system facilitates searching and categorising the queries by language counsellors and database users.

Klasifikace

  • Druh

    R - Software

  • CEP obor

  • OECD FORD obor

    20205 - Automation and control systems

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/DG16P02B009" target="_blank" >DG16P02B009: Zpřístupnění dotazů jazykové poradny v lingvisticky strukturované databázi</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2019

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    ZCU/KKY/2019/003

  • Technické parametry

    SW zajišťuje převod řeči (nahrávky) na text a rozpoznání jazykových témat v tomto textu obsažených. S ohledem na princip dekompozice se systém skládá ze dvou programů a každý z těchto programů řeší jednu část úlohy. Program Recognize (rozpoznávač řeči) převádí nahrávku řeči (záznam telefonního hovoru) na text. Program GetTopic (rozpoznávač jazykových témat) přiřazuje rozpoznanému textu jazyková témata, která se v něm objevují. Výsledky systému SADA se dále předávají systému lingvisticky strukturované softwarové databáze dotazů (LSSDD). Program Recognize slouží pro převod zaznamenaného telefonního hovoru do textové podoby. Je zkompilovaný pro OS GNU/Linux 64-Bit. Testování probíhalo na OS Ubuntu 16.04 LTS. Signál volajícího i volaného pochází z různých prostředí a po cestě k digitální telefonní ústředně, která hovor zaznamenává, prochází různými formami zpracování (různé způsoby kódování). Proto je vhodné řeč volajícího (tazatel) a volaného (jazyková poradna) rozpoznávat lehce odlišnými způsoby. Z toho důvodu ústředna ukládá každý ze signálů do zvláštního souboru a v tomto formátu očekává svůj vstup i program Recognize. Program GetTopic slouží k rozpoznání jazykových témat v textu (rozpoznané řeči). Jde o sadu skriptů v jazyce Python a natrénovaných neuronových sítí (klasifikátorů). Program dále používá celou řadu externích knihoven (např. Keras či TensorFlow v1.0). Kompletní seznam používaných knihoven a nástrojů lze získat výpisem nainstalovaných balíčků ve vytvořeném prostředí (např. pip freeze). Požadované verze knihoven jsou definovány v instalačním skriptu. Ačkoliv charakter programu nevylučuje použití na jiných operačních systémech (např. OS Windows), testování probíhalo na OS Ubuntu 16.04 LTS. Parametry modelů byly natrénovány metodami strojového učení s využitím anotovaných dat Jazykové poradny Ústavu pro jazyk český AV ČR.

  • Ekonomické parametry

    Hlavním účelem předkládaného softwaru SADA je převést zvukové nahrávky Jazykové poradny Ústavu pro jazyk český AV ČR do takové strojově čitelné podoby, která umožní poradníkům z snadnější zařazení do finálních linguistických kategorií pro uložení záznamu do Linguisticky strukturované databáze dotazů. Licence je poskytována zdarma, příjemce licence musí mít zajištěna práva k nahrávkám Jazykové poradny a smí používat software pouze pro nekomerční účely k plnění Lingvisticky strukturované databáze dotazů. Jediným na první pohled zřetelným ekonomickým přínosem je úspora času badatelů při vkládání informací do databáze.

  • IČO vlastníka výsledku

    49777513

  • Název vlastníka

    Západočeská univerzita v Plzni