SW for Automatic Pre-clustering of theText Strings in a Specific Consumer Price Index Data Collection Format - DataClassAnalyzer

The result's identifiers

Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24220%2F15%3A00002938" target="_blank" >RIV/46747885:24220/15:00002938 - isvavai.cz</a>
Alternative codes found
RIV/46747885:24310/15:00002938
Result on the web
<a href="http://vyzkum.ef.tul.cz/td020047/index.php?content=metodika" target="_blank" >http://vyzkum.ef.tul.cz/td020047/index.php?content=metodika</a>
DOI - Digital Object Identifier
—

Alternative languages

Result language
čeština
Original language name
SW pro automatické preklastrování textových řetězců ve specifickém formátu sběru dat pro Index spotřebitelských cen - DataClassAnalyzer
Original language description
Program byl vyvinut pouze pro účely řešení projektu a slouží pro kvalitativní očištění velkých souborů dat s typizovanými textovými poznámkami. Program byl vyvinut v prostředí Windows Presentation Foundation, v programovacím jazyce C#. Pro spuštění programu na osobním počítači je třeba instalace doplňku .Net verze 3.0 a vyšší. Načítání souboru dat bylo upraveno na míru formátu textových metadat z cenových šetření pro Index spotřebitelských cen Českého statistického úřadu. Samotné automatické preklastrování se skládá ze tří kroků: 1. krok: definice minimální četnosti výskytu společných znaků pro klastrování. 2. krok: definování společných řetězců na principu řetězcové metriky Levenshteinovy vzdálenosti. 3. krok: automatické vytvoření prvotních klastrů společných znaků, které jsou charakterizovány „tagy“. Na základě stejných či podobných textových řetězců mohou být v programu dále efektivněji manuálně klastrovány podobné variety. Datovými výstupy pro další zpracování jsou: heat mapa poskytující informaci o zastoupení podobných variet na podúrovni cenového reprezentanta v regionech a *.csv soubory pro každého cenového reprezentanta s „tagy“ určující příslušnost ke klastru znaků, *.grp soubory obsahující klastry znaků pro konkrétní „tagy“. V případě opakování celé text-miningové úlohy je možné grp soubory znovu použít k předdefinování „tagů“..
Czech name
SW pro automatické preklastrování textových řetězců ve specifickém formátu sběru dat pro Index spotřebitelských cen - DataClassAnalyzer
Czech description
Program byl vyvinut pouze pro účely řešení projektu a slouží pro kvalitativní očištění velkých souborů dat s typizovanými textovými poznámkami. Program byl vyvinut v prostředí Windows Presentation Foundation, v programovacím jazyce C#. Pro spuštění programu na osobním počítači je třeba instalace doplňku .Net verze 3.0 a vyšší. Načítání souboru dat bylo upraveno na míru formátu textových metadat z cenových šetření pro Index spotřebitelských cen Českého statistického úřadu. Samotné automatické preklastrování se skládá ze tří kroků: 1. krok: definice minimální četnosti výskytu společných znaků pro klastrování. 2. krok: definování společných řetězců na principu řetězcové metriky Levenshteinovy vzdálenosti. 3. krok: automatické vytvoření prvotních klastrů společných znaků, které jsou charakterizovány „tagy“. Na základě stejných či podobných textových řetězců mohou být v programu dále efektivněji manuálně klastrovány podobné variety. Datovými výstupy pro další zpracování jsou: heat mapa poskytující informaci o zastoupení podobných variet na podúrovni cenového reprezentanta v regionech a *.csv soubory pro každého cenového reprezentanta s „tagy“ určující příslušnost ke klastru znaků, *.grp soubory obsahující klastry znaků pro konkrétní „tagy“. V případě opakování celé text-miningové úlohy je možné grp soubory znovu použít k předdefinování „tagů“..

Classification

Type
R - Software
CEP classification
IN - Informatics
OECD FORD branch
—

Result continuities

Project
<a href="/en/project/TD020047" target="_blank" >TD020047: Regional Price Index as an Indicator of Real Social and Economic Disparities</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

Publication year
2015
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

Internal product ID
TD020047V00X
Technical parameters
SW vyvinutý v prostředí Windows Presentation Foundation v programovacím jazyce C# využívající teorie Levenshteinovy vzdálenosti textových řetězců..
Economical parameters
Speciální software byl vyvinut především pro orgány veřejné správy – uživatele Metodiky certifikované MMR ČR (č. 007 /2015) s ekonomickým přínosem zefektivnění hospodářsko-politických opatření v oblasti regionální politiky..
Owner IČO
46747885
Owner name
Technická univerzita v Liberci

Similar results(10)

Clustering algorithms based on sampling Abstracting Strings for Model Checking of C Programs Clustering and large data files

What are you looking for?

Quick search

Smart search

SW for Automatic Pre-clustering of theText Strings in a Specific Consumer Price Index Data Collection Format - DataClassAnalyzer

The result's identifiers

Alternative languages

Classification

Result continuities

Others

Data specific for result type

Similar results(10)

What are you looking for?

Quick search

Smart search

Result description

The result's identifiers

The result's identifiers

Alternative languages

Alternative languages

Classification

Classification

Result continuities

Result continuities

Others

Others

Data specific for result type

Data specific for result type

Similar results(10)