SW for Automatic Pre-clustering of theText Strings in a Specific Consumer Price Index Data Collection Format - DataClassAnalyzer
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24220%2F15%3A00002938" target="_blank" >RIV/46747885:24220/15:00002938 - isvavai.cz</a>
Alternative codes found
RIV/46747885:24310/15:00002938
Result on the web
<a href="http://vyzkum.ef.tul.cz/td020047/index.php?content=metodika" target="_blank" >http://vyzkum.ef.tul.cz/td020047/index.php?content=metodika</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
SW pro automatické preklastrování textových řetězců ve specifickém formátu sběru dat pro Index spotřebitelských cen - DataClassAnalyzer
Original language description
Program byl vyvinut pouze pro účely řešení projektu a slouží pro kvalitativní očištění velkých souborů dat s typizovanými textovými poznámkami. Program byl vyvinut v prostředí Windows Presentation Foundation, v programovacím jazyce C#. Pro spuštění programu na osobním počítači je třeba instalace doplňku .Net verze 3.0 a vyšší. Načítání souboru dat bylo upraveno na míru formátu textových metadat z cenových šetření pro Index spotřebitelských cen Českého statistického úřadu. Samotné automatické preklastrování se skládá ze tří kroků: 1. krok: definice minimální četnosti výskytu společných znaků pro klastrování. 2. krok: definování společných řetězců na principu řetězcové metriky Levenshteinovy vzdálenosti. 3. krok: automatické vytvoření prvotních klastrů společných znaků, které jsou charakterizovány „tagy“. Na základě stejných či podobných textových řetězců mohou být v programu dále efektivněji manuálně klastrovány podobné variety. Datovými výstupy pro další zpracování jsou: heat mapa poskytující informaci o zastoupení podobných variet na podúrovni cenového reprezentanta v regionech a *.csv soubory pro každého cenového reprezentanta s „tagy“ určující příslušnost ke klastru znaků, *.grp soubory obsahující klastry znaků pro konkrétní „tagy“. V případě opakování celé text-miningové úlohy je možné grp soubory znovu použít k předdefinování „tagů“..
Czech name
SW pro automatické preklastrování textových řetězců ve specifickém formátu sběru dat pro Index spotřebitelských cen - DataClassAnalyzer
Czech description
Program byl vyvinut pouze pro účely řešení projektu a slouží pro kvalitativní očištění velkých souborů dat s typizovanými textovými poznámkami. Program byl vyvinut v prostředí Windows Presentation Foundation, v programovacím jazyce C#. Pro spuštění programu na osobním počítači je třeba instalace doplňku .Net verze 3.0 a vyšší. Načítání souboru dat bylo upraveno na míru formátu textových metadat z cenových šetření pro Index spotřebitelských cen Českého statistického úřadu. Samotné automatické preklastrování se skládá ze tří kroků: 1. krok: definice minimální četnosti výskytu společných znaků pro klastrování. 2. krok: definování společných řetězců na principu řetězcové metriky Levenshteinovy vzdálenosti. 3. krok: automatické vytvoření prvotních klastrů společných znaků, které jsou charakterizovány „tagy“. Na základě stejných či podobných textových řetězců mohou být v programu dále efektivněji manuálně klastrovány podobné variety. Datovými výstupy pro další zpracování jsou: heat mapa poskytující informaci o zastoupení podobných variet na podúrovni cenového reprezentanta v regionech a *.csv soubory pro každého cenového reprezentanta s „tagy“ určující příslušnost ke klastru znaků, *.grp soubory obsahující klastry znaků pro konkrétní „tagy“. V případě opakování celé text-miningové úlohy je možné grp soubory znovu použít k předdefinování „tagů“..
Classification
Type
R - Software
CEP classification
IN - Informatics
OECD FORD branch
—
Result continuities
Project
<a href="/en/project/TD020047" target="_blank" >TD020047: Regional Price Index as an Indicator of Real Social and Economic Disparities</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2015
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
TD020047V00X
Technical parameters
SW vyvinutý v prostředí Windows Presentation Foundation v programovacím jazyce C# využívající teorie Levenshteinovy vzdálenosti textových řetězců..
Economical parameters
Speciální software byl vyvinut především pro orgány veřejné správy – uživatele Metodiky certifikované MMR ČR (č. 007 /2015) s ekonomickým přínosem zefektivnění hospodářsko-politických opatření v oblasti regionální politiky..
Owner IČO
46747885
Owner name
Technická univerzita v Liberci