Softwarový modul pro import dat ze slovenských webových portálů
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F12%3A43918029" target="_blank" >RIV/49777513:23520/12:43918029 - isvavai.cz</a>
Výsledek na webu
<a href="http://www.kky.zcu.cz/cs/sw/sk-import" target="_blank" >http://www.kky.zcu.cz/cs/sw/sk-import</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Softwarový modul pro import dat ze slovenských webových portálů
Popis výsledku v původním jazyce
Softwarový modul realizuje import dat ze slovenských webových portálů, jejich převod a filtraci z formátu HTML do čistého textu v zadaném kódování. Algoritmy pro filtraci do čistého textu jsou adaptovány na základě trénovacích dat. Natrénovaný klasifikátor každý fragment HTML stránky zařadí do jedné ze dvou tříd - čistý text článku nebo ostatní. Následně je ponechán pouze čistý text. Součástí softwarového modulu jsou i nástroj pro automatické sledování RSS kanálů. Tento nástroj usnadňuje automatizovanézpracování nových dat.
Název v anglickém jazyce
Software module for importing data from Slovak web portals
Popis výsledku anglicky
The software module implements data importing algorithms tailored for Slovak web portals. It also performs the conversion and text cleaning of the source HTML page into a clean text in a given encoding. The algorithms for text cleaning are adapted usingthe training data. The trained classifier classifies each fragment of an HTML page into two classes - clean text of the page or "other". The following post-processing algorithm keeps just the clean text. The integral part of the module is a tool for automatized downloading of RSS channels. This tool simplifies an automatized processing of new data.
Klasifikace
Druh
R - Software
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
—
Návaznosti
N - Vyzkumna aktivita podporovana z neverejnych zdroju
Ostatní
Rok uplatnění
2012
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
SK-Import-2012
Technické parametry
Výsledek byl implementován v programovacím jazyce Python nad databázovým systémem MySQL. Pro získání licence kontaktujte: Jan Švec, Katedra kybernetiky, ZČU v Plzni, tel. 2557, více na http://www.kky.zcu.cz/cs/sw/sk-import
Ekonomické parametry
Výsledek vznikl na základě Smlouvy o dílo uzavřené mezi SpeechTech, s.r.o. a ZČU v Plzni dne 15.10.2012, reg. č. SML/5200/0055/12. Cena díle je 100.000 Kč. Výsledek umožňuje automatické zpracování vstupních jazykových dat za účelem tvorby jazykového modelu pro slovenštinu. Více na http://www.kky.zcu.cz/cs/sw/sk-import
IČO vlastníka výsledku
49777513
Název vlastníka
Západočeská univerzita v Plzni