All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

SW for Automatic Pre-clustering of theText Strings in a Specific Consumer Price Index Data Collection Format - DataClassAnalyzer

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24220%2F15%3A00002938" target="_blank" >RIV/46747885:24220/15:00002938 - isvavai.cz</a>

  • Alternative codes found

    RIV/46747885:24310/15:00002938

  • Result on the web

    <a href="http://vyzkum.ef.tul.cz/td020047/index.php?content=metodika" target="_blank" >http://vyzkum.ef.tul.cz/td020047/index.php?content=metodika</a>

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    čeština

  • Original language name

    SW pro automatické preklastrování textových řetězců ve specifickém formátu sběru dat pro Index spotřebitelských cen - DataClassAnalyzer

  • Original language description

    Program byl vyvinut pouze pro účely řešení projektu a slouží pro kvalitativní očištění velkých souborů dat s typizovanými textovými poznámkami. Program byl vyvinut v prostředí Windows Presentation Foundation, v programovacím jazyce C#. Pro spuštění programu na osobním počítači je třeba instalace doplňku .Net verze 3.0 a vyšší. Načítání souboru dat bylo upraveno na míru formátu textových metadat z cenových šetření pro Index spotřebitelských cen Českého statistického úřadu. Samotné automatické preklastrování se skládá ze tří kroků: 1. krok: definice minimální četnosti výskytu společných znaků pro klastrování. 2. krok: definování společných řetězců na principu řetězcové metriky Levenshteinovy vzdálenosti. 3. krok: automatické vytvoření prvotních klastrů společných znaků, které jsou charakterizovány „tagy“. Na základě stejných či podobných textových řetězců mohou být v programu dále efektivněji manuálně klastrovány podobné variety. Datovými výstupy pro další zpracování jsou: heat mapa poskytující informaci o zastoupení podobných variet na podúrovni cenového reprezentanta v regionech a *.csv soubory pro každého cenového reprezentanta s „tagy“ určující příslušnost ke klastru znaků, *.grp soubory obsahující klastry znaků pro konkrétní „tagy“. V případě opakování celé text-miningové úlohy je možné grp soubory znovu použít k předdefinování „tagů“..

  • Czech name

    SW pro automatické preklastrování textových řetězců ve specifickém formátu sběru dat pro Index spotřebitelských cen - DataClassAnalyzer

  • Czech description

    Program byl vyvinut pouze pro účely řešení projektu a slouží pro kvalitativní očištění velkých souborů dat s typizovanými textovými poznámkami. Program byl vyvinut v prostředí Windows Presentation Foundation, v programovacím jazyce C#. Pro spuštění programu na osobním počítači je třeba instalace doplňku .Net verze 3.0 a vyšší. Načítání souboru dat bylo upraveno na míru formátu textových metadat z cenových šetření pro Index spotřebitelských cen Českého statistického úřadu. Samotné automatické preklastrování se skládá ze tří kroků: 1. krok: definice minimální četnosti výskytu společných znaků pro klastrování. 2. krok: definování společných řetězců na principu řetězcové metriky Levenshteinovy vzdálenosti. 3. krok: automatické vytvoření prvotních klastrů společných znaků, které jsou charakterizovány „tagy“. Na základě stejných či podobných textových řetězců mohou být v programu dále efektivněji manuálně klastrovány podobné variety. Datovými výstupy pro další zpracování jsou: heat mapa poskytující informaci o zastoupení podobných variet na podúrovni cenového reprezentanta v regionech a *.csv soubory pro každého cenového reprezentanta s „tagy“ určující příslušnost ke klastru znaků, *.grp soubory obsahující klastry znaků pro konkrétní „tagy“. V případě opakování celé text-miningové úlohy je možné grp soubory znovu použít k předdefinování „tagů“..

Classification

  • Type

    R - Software

  • CEP classification

    IN - Informatics

  • OECD FORD branch

Result continuities

  • Project

    <a href="/en/project/TD020047" target="_blank" >TD020047: Regional Price Index as an Indicator of Real Social and Economic Disparities</a><br>

  • Continuities

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

  • Publication year

    2015

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Internal product ID

    TD020047V00X

  • Technical parameters

    SW vyvinutý v prostředí Windows Presentation Foundation v programovacím jazyce C# využívající teorie Levenshteinovy vzdálenosti textových řetězců..

  • Economical parameters

    Speciální software byl vyvinut především pro orgány veřejné správy – uživatele Metodiky certifikované MMR ČR (č. 007 /2015) s ekonomickým přínosem zefektivnění hospodářsko-politických opatření v oblasti regionální politiky..

  • Owner IČO

    46747885

  • Owner name

    Technická univerzita v Liberci