SW pro automatické preklastrování textových řetězců ve specifickém formátu sběru dat pro Index spotřebitelských cen - DataClassAnalyzer
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24220%2F15%3A00002938" target="_blank" >RIV/46747885:24220/15:00002938 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/46747885:24310/15:00002938
Výsledek na webu
<a href="http://vyzkum.ef.tul.cz/td020047/index.php?content=metodika" target="_blank" >http://vyzkum.ef.tul.cz/td020047/index.php?content=metodika</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
SW pro automatické preklastrování textových řetězců ve specifickém formátu sběru dat pro Index spotřebitelských cen - DataClassAnalyzer
Popis výsledku v původním jazyce
Program byl vyvinut pouze pro účely řešení projektu a slouží pro kvalitativní očištění velkých souborů dat s typizovanými textovými poznámkami. Program byl vyvinut v prostředí Windows Presentation Foundation, v programovacím jazyce C#. Pro spuštění programu na osobním počítači je třeba instalace doplňku .Net verze 3.0 a vyšší. Načítání souboru dat bylo upraveno na míru formátu textových metadat z cenových šetření pro Index spotřebitelských cen Českého statistického úřadu. Samotné automatické preklastrování se skládá ze tří kroků: 1. krok: definice minimální četnosti výskytu společných znaků pro klastrování. 2. krok: definování společných řetězců na principu řetězcové metriky Levenshteinovy vzdálenosti. 3. krok: automatické vytvoření prvotních klastrů společných znaků, které jsou charakterizovány „tagy“. Na základě stejných či podobných textových řetězců mohou být v programu dále efektivněji manuálně klastrovány podobné variety. Datovými výstupy pro další zpracování jsou: heat mapa poskytující informaci o zastoupení podobných variet na podúrovni cenového reprezentanta v regionech a *.csv soubory pro každého cenového reprezentanta s „tagy“ určující příslušnost ke klastru znaků, *.grp soubory obsahující klastry znaků pro konkrétní „tagy“. V případě opakování celé text-miningové úlohy je možné grp soubory znovu použít k předdefinování „tagů“..
Název v anglickém jazyce
SW for Automatic Pre-clustering of theText Strings in a Specific Consumer Price Index Data Collection Format - DataClassAnalyzer
Popis výsledku anglicky
The program was developed in Windows Presentation Foundation, the programming language is C#. The run of the program on a personal computer is enabled by installing .Net version 3.0 or higher. Retrieving data set has been tailored to format text metadata of the Czech Statistical Office, collected within the price survey for the Consumer Price Index. Automatic pre-clustering consists of three steps: Step 1: Determine the minimum frequency of common features for clustering. Step 2: defining common strings on the principle of chain metrics Levenshtein distance. Step 3: Automatic creation of initial clusters of common characters that are characterized by „tags“. Based on the same or similar text strings further cost-effective manual clustering is possible. Data outputs for further processing are: heat map provides information on the representation of similar varieties within the basic items in the regions and * .csv files for each basic item containing „tags“ indicating cluster membership of varieties, *.grp files containing cluster-specific „tags“. In case of new or additional data, grp files can be reused to redefine „tags“..
Klasifikace
Druh
R - Software
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/TD020047" target="_blank" >TD020047: Regionální cenový index jako indikátor reálných sociálních a ekonomických disparit</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2015
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
TD020047V00X
Technické parametry
SW vyvinutý v prostředí Windows Presentation Foundation v programovacím jazyce C# využívající teorie Levenshteinovy vzdálenosti textových řetězců..
Ekonomické parametry
Speciální software byl vyvinut především pro orgány veřejné správy – uživatele Metodiky certifikované MMR ČR (č. 007 /2015) s ekonomickým přínosem zefektivnění hospodářsko-politických opatření v oblasti regionální politiky..
IČO vlastníka výsledku
46747885
Název vlastníka
Technická univerzita v Liberci