All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Development of the centralized interface for the web content and social networks data mining.

Public support

  • Provider

    Ministry of Culture

  • Programme

    Programme for the Support of Applied Research and Exp. Development of National and Cultural Identity dor the Years 2016-2022 (in short, "NAKI II")

  • Call for proposals

    NAKI II 2 (SMK02018DG002)

  • Main participants

    Národní knihovna České republiky<br>Sociologický ústav AV ČR, v. v. i.<br>Západočeská univerzita v Plzni / Fakulta aplikovaných věd

  • Contest type

    VS - Public tender

  • Contract ID

    16/2018/OVV

Alternative language

  • Project name in Czech

    Vývoj centralizovaného rozhraní pro vytěžování velkých dat z webových archivů

  • Annotation in Czech

    Projekt předkládá ucelené řešení problematiky zpřístupnění dat z českého webového archivu a jejich poskytnutí badatelské obci pro vědecké a výzkumné využití. Propojuje oblast digital humanities, tj. studium humanitních věd na základě digitálních nebo elektronických dat, s možnostmi využití dat z českého webového archivu. Národní knihovna České republiky již od roku 2005 kontinuálně ukládá obsah českého webu a disponuje tak jednou z největších sbírek dat tohoto charakteru. Ta poskytuje komplexní představu o tvorbě, propojování a interpretaci unikátních elektronických dat (webových zdrojů), které je možno porovnávat napříč časovým spektrem. Hlavním cílem projektu je zpracování dat českého webového archivu za účelem umožnění široké odborné veřejnosti využívat potenciálu dlouhodobě shromažďovaných a dosud z velké části nezpracovaných dat. Projekt bude rozdělen na tři hlavní pilíře - datovou, procesní a badatelskou část, které jsou vzájemně propojeny. Cílem datové části projektu je příprava dat pro badatelskou analýzu v oblasti relevantních dat pro specifikované badatelské záměry. To zahrnuje vytvoření plně integrovaného fasetového a full-textového vyhledávače, který umožní badatelům jasně definovat část dat, kterou potřebují pro realizaci svého výzkumu. Na vyhledávač pak bude navázána exportní aplikace, která umožní badatelům získat datové sety pro jejich výzkum ve formátech, které běžně využívají ke své práci. Procesní část projektu je zaměřena na vytvoření a aplikaci automatických analytických nástrojů na relevantní data. Jedná se zejména o automatické přiřazení metadat dokumentům s využitím metod rozpoznávání řeči a metod sémantické analýzy textu. Cílem badatelské části projektu je vytvoření sociologických výzkumů, které konkrétně aplikují zpracovaná data, ale zároveň definují, jak mají vypadat výstupy cílů z předchozích částí.

Scientific branches

  • R&D category

    AP - Applied research

  • OECD FORD - main branch

    60500 - Other Humanities and the Arts

  • OECD FORD - secondary branch

    50401 - Sociology

  • OECD FORD - another secondary branch

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

  • CEP - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)

    AF - Documentation, librarianship, work with information<br>AO - Sociology, demography<br>BC - Theory and management systems<br>BD - Information theory<br>IN - Informatics

Completed project evaluation

  • Provider evaluation

    V - Vynikající výsledky projektu (s mezinárodním významem atd.)

  • Project results evaluation

    The issue of data mining and open source solutions is currently very relevant. New solutions enable the streamlining of research, the improvement of output quality, and, in general, the implementation of the philosophy of so-called digital humanities. The project is of high quality, and its outputs are usable both domestically and abroad. The project's goals, in terms of their number, quality, and composition, were achieved 100%. The achieved results were successfully presented abroad. The developed software tools are comparable and competitive with similar foreign products in terms of their quality and offered capabilities.

Solution timeline

  • Realization period - beginning

    Mar 1, 2018

  • Realization period - end

    Dec 31, 2022

  • Project status

    U - Finished project

  • Latest support payment

    Feb 1, 2022

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP23-MK0-DG-U

  • Data delivery date

    Jun 6, 2023

Finance

  • Total approved costs

    24,550 thou. CZK

  • Public financial support

    24,550 thou. CZK

  • Other public sources

    0 thou. CZK

  • Non public and foreign sources

    0 thou. CZK