Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Softwarový modul pro import dat ze slovenských webových portálů

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F12%3A43918029" target="_blank" >RIV/49777513:23520/12:43918029 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://www.kky.zcu.cz/cs/sw/sk-import" target="_blank" >http://www.kky.zcu.cz/cs/sw/sk-import</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Softwarový modul pro import dat ze slovenských webových portálů

  • Popis výsledku v původním jazyce

    Softwarový modul realizuje import dat ze slovenských webových portálů, jejich převod a filtraci z formátu HTML do čistého textu v zadaném kódování. Algoritmy pro filtraci do čistého textu jsou adaptovány na základě trénovacích dat. Natrénovaný klasifikátor každý fragment HTML stránky zařadí do jedné ze dvou tříd - čistý text článku nebo ostatní. Následně je ponechán pouze čistý text. Součástí softwarového modulu jsou i nástroj pro automatické sledování RSS kanálů. Tento nástroj usnadňuje automatizovanézpracování nových dat.

  • Název v anglickém jazyce

    Software module for importing data from Slovak web portals

  • Popis výsledku anglicky

    The software module implements data importing algorithms tailored for Slovak web portals. It also performs the conversion and text cleaning of the source HTML page into a clean text in a given encoding. The algorithms for text cleaning are adapted usingthe training data. The trained classifier classifies each fragment of an HTML page into two classes - clean text of the page or "other". The following post-processing algorithm keeps just the clean text. The integral part of the module is a tool for automatized downloading of RSS channels. This tool simplifies an automatized processing of new data.

Klasifikace

  • Druh

    R - Software

  • CEP obor

    JD - Využití počítačů, robotika a její aplikace

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

  • Návaznosti

    N - Vyzkumna aktivita podporovana z neverejnych zdroju

Ostatní

  • Rok uplatnění

    2012

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    SK-Import-2012

  • Technické parametry

    Výsledek byl implementován v programovacím jazyce Python nad databázovým systémem MySQL. Pro získání licence kontaktujte: Jan Švec, Katedra kybernetiky, ZČU v Plzni, tel. 2557, více na http://www.kky.zcu.cz/cs/sw/sk-import

  • Ekonomické parametry

    Výsledek vznikl na základě Smlouvy o dílo uzavřené mezi SpeechTech, s.r.o. a ZČU v Plzni dne 15.10.2012, reg. č. SML/5200/0055/12. Cena díle je 100.000 Kč. Výsledek umožňuje automatické zpracování vstupních jazykových dat za účelem tvorby jazykového modelu pro slovenštinu. Více na http://www.kky.zcu.cz/cs/sw/sk-import

  • IČO vlastníka výsledku

    49777513

  • Název vlastníka

    Západočeská univerzita v Plzni