Software module for importing data from Slovak web portals
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F12%3A43918029" target="_blank" >RIV/49777513:23520/12:43918029 - isvavai.cz</a>
Result on the web
<a href="http://www.kky.zcu.cz/cs/sw/sk-import" target="_blank" >http://www.kky.zcu.cz/cs/sw/sk-import</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Softwarový modul pro import dat ze slovenských webových portálů
Original language description
Softwarový modul realizuje import dat ze slovenských webových portálů, jejich převod a filtraci z formátu HTML do čistého textu v zadaném kódování. Algoritmy pro filtraci do čistého textu jsou adaptovány na základě trénovacích dat. Natrénovaný klasifikátor každý fragment HTML stránky zařadí do jedné ze dvou tříd - čistý text článku nebo ostatní. Následně je ponechán pouze čistý text. Součástí softwarového modulu jsou i nástroj pro automatické sledování RSS kanálů. Tento nástroj usnadňuje automatizovanézpracování nových dat.
Czech name
Softwarový modul pro import dat ze slovenských webových portálů
Czech description
Softwarový modul realizuje import dat ze slovenských webových portálů, jejich převod a filtraci z formátu HTML do čistého textu v zadaném kódování. Algoritmy pro filtraci do čistého textu jsou adaptovány na základě trénovacích dat. Natrénovaný klasifikátor každý fragment HTML stránky zařadí do jedné ze dvou tříd - čistý text článku nebo ostatní. Následně je ponechán pouze čistý text. Součástí softwarového modulu jsou i nástroj pro automatické sledování RSS kanálů. Tento nástroj usnadňuje automatizovanézpracování nových dat.
Classification
Type
R - Software
CEP classification
JD - Use of computers, robotics and its application
OECD FORD branch
—
Result continuities
Project
—
Continuities
N - Vyzkumna aktivita podporovana z neverejnych zdroju
Others
Publication year
2012
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
SK-Import-2012
Technical parameters
Výsledek byl implementován v programovacím jazyce Python nad databázovým systémem MySQL. Pro získání licence kontaktujte: Jan Švec, Katedra kybernetiky, ZČU v Plzni, tel. 2557, více na http://www.kky.zcu.cz/cs/sw/sk-import
Economical parameters
Výsledek vznikl na základě Smlouvy o dílo uzavřené mezi SpeechTech, s.r.o. a ZČU v Plzni dne 15.10.2012, reg. č. SML/5200/0055/12. Cena díle je 100.000 Kč. Výsledek umožňuje automatické zpracování vstupních jazykových dat za účelem tvorby jazykového modelu pro slovenštinu. Více na http://www.kky.zcu.cz/cs/sw/sk-import
Owner IČO
49777513
Owner name
Západočeská univerzita v Plzni