Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

SW pro automatické preklastrování textových řetězců ve specifickém formátu sběru dat pro Index spotřebitelských cen - DataClassAnalyzer

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24220%2F15%3A00002938" target="_blank" >RIV/46747885:24220/15:00002938 - isvavai.cz</a>

  • Nalezeny alternativní kódy

    RIV/46747885:24310/15:00002938

  • Výsledek na webu

    <a href="http://vyzkum.ef.tul.cz/td020047/index.php?content=metodika" target="_blank" >http://vyzkum.ef.tul.cz/td020047/index.php?content=metodika</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    SW pro automatické preklastrování textových řetězců ve specifickém formátu sběru dat pro Index spotřebitelských cen - DataClassAnalyzer

  • Popis výsledku v původním jazyce

    Program byl vyvinut pouze pro účely řešení projektu a slouží pro kvalitativní očištění velkých souborů dat s typizovanými textovými poznámkami. Program byl vyvinut v prostředí Windows Presentation Foundation, v programovacím jazyce C#. Pro spuštění programu na osobním počítači je třeba instalace doplňku .Net verze 3.0 a vyšší. Načítání souboru dat bylo upraveno na míru formátu textových metadat z cenových šetření pro Index spotřebitelských cen Českého statistického úřadu. Samotné automatické preklastrování se skládá ze tří kroků: 1. krok: definice minimální četnosti výskytu společných znaků pro klastrování. 2. krok: definování společných řetězců na principu řetězcové metriky Levenshteinovy vzdálenosti. 3. krok: automatické vytvoření prvotních klastrů společných znaků, které jsou charakterizovány „tagy“. Na základě stejných či podobných textových řetězců mohou být v programu dále efektivněji manuálně klastrovány podobné variety. Datovými výstupy pro další zpracování jsou: heat mapa poskytující informaci o zastoupení podobných variet na podúrovni cenového reprezentanta v regionech a *.csv soubory pro každého cenového reprezentanta s „tagy“ určující příslušnost ke klastru znaků, *.grp soubory obsahující klastry znaků pro konkrétní „tagy“. V případě opakování celé text-miningové úlohy je možné grp soubory znovu použít k předdefinování „tagů“..

  • Název v anglickém jazyce

    SW for Automatic Pre-clustering of theText Strings in a Specific Consumer Price Index Data Collection Format - DataClassAnalyzer

  • Popis výsledku anglicky

    The program was developed in Windows Presentation Foundation, the programming language is C#. The run of the program on a personal computer is enabled by installing .Net version 3.0 or higher. Retrieving data set has been tailored to format text metadata of the Czech Statistical Office, collected within the price survey for the Consumer Price Index. Automatic pre-clustering consists of three steps: Step 1: Determine the minimum frequency of common features for clustering. Step 2: defining common strings on the principle of chain metrics Levenshtein distance. Step 3: Automatic creation of initial clusters of common characters that are characterized by „tags“. Based on the same or similar text strings further cost-effective manual clustering is possible. Data outputs for further processing are: heat map provides information on the representation of similar varieties within the basic items in the regions and * .csv files for each basic item containing „tags“ indicating cluster membership of varieties, *.grp files containing cluster-specific „tags“. In case of new or additional data, grp files can be reused to redefine „tags“..

Klasifikace

  • Druh

    R - Software

  • CEP obor

    IN - Informatika

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/TD020047" target="_blank" >TD020047: Regionální cenový index jako indikátor reálných sociálních a ekonomických disparit</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2015

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    TD020047V00X

  • Technické parametry

    SW vyvinutý v prostředí Windows Presentation Foundation v programovacím jazyce C# využívající teorie Levenshteinovy vzdálenosti textových řetězců..

  • Ekonomické parametry

    Speciální software byl vyvinut především pro orgány veřejné správy – uživatele Metodiky certifikované MMR ČR (č. 007 /2015) s ekonomickým přínosem zefektivnění hospodářsko-politických opatření v oblasti regionální politiky..

  • IČO vlastníka výsledku

    46747885

  • Název vlastníka

    Technická univerzita v Liberci