Vše
Vše

Co hledáte?

Vše
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Vývoj centralizovaného rozhraní pro vytěžování velkých dat z webových archivů

Cíle projektu

Projekt předkládá ucelené řešení problematiky zpřístupnění dat z českého webového archivu a jejich poskytnutí badatelské obci pro vědecké a výzkumné využití. Propojuje oblast digital humanities, tj. studium humanitních věd na základě digitálních nebo elektronických dat, s možnostmi využití dat z českého webového archivu. Národní knihovna České republiky již od roku 2005 kontinuálně ukládá obsah českého webu a disponuje tak jednou z největších sbírek dat tohoto charakteru. Ta poskytuje komplexní představu o tvorbě, propojování a interpretaci unikátních elektronických dat (webových zdrojů), které je možno porovnávat napříč časovým spektrem. Hlavním cílem projektu je zpracování dat českého webového archivu za účelem umožnění široké odborné veřejnosti využívat potenciálu dlouhodobě shromažďovaných a dosud z velké části nezpracovaných dat. Projekt bude rozdělen na tři hlavní pilíře - datovou, procesní a badatelskou část, které jsou vzájemně propojeny. Cílem datové části projektu je příprava dat pro badatelskou analýzu v oblasti relevantních dat pro specifikované badatelské záměry. To zahrnuje vytvoření plně integrovaného fasetového a full-textového vyhledávače, který umožní badatelům jasně definovat část dat, kterou potřebují pro realizaci svého výzkumu. Na vyhledávač pak bude navázána exportní aplikace, která umožní badatelům získat datové sety pro jejich výzkum ve formátech, které běžně využívají ke své práci. Procesní část projektu je zaměřena na vytvoření a aplikaci automatických analytických nástrojů na relevantní data. Jedná se zejména o automatické přiřazení metadat dokumentům s využitím metod rozpoznávání řeči a metod sémantické analýzy textu. Cílem badatelské části projektu je vytvoření sociologických výzkumů, které konkrétně aplikují zpracovaná data, ale zároveň definují, jak mají vypadat výstupy cílů z předchozích částí.

Klíčová slova

web archivedatasetshumanitiesbig data

Veřejná podpora

  • Poskytovatel

    Ministerstvo kultury

  • Program

    Program na podporu aplikovaného výzkumu a experimentálního vývoje národní a kulturní identity na léta 2016 až 2022 (NAKI II)

  • Veřejná soutěž

    NAKI II 2 (SMK02018DG002)

  • Hlavní účastníci

    Národní knihovna České republiky
    Sociologický ústav AV ČR, v. v. i.
    Západočeská univerzita v Plzni / Fakulta aplikovaných věd

  • Druh soutěže

    VS - Veřejná soutěž

  • Číslo smlouvy

    16/2018/OVV

Alternativní jazyk

  • Název projektu anglicky

    Development of the centralized interface for the web content and social networks data mining.

  • Anotace anglicky

    The project presents a comprehensive solution of the access to data from the Czech Web Archive and the way, how to provide them to the researchers for scientific and research reuse. The project connects a topic of the digital humanities - the study of the humanities based on digital or electronic data - with the possibilities of the content reusing from the Czech Web Archive. National Library of the Czech Republic continuously stores Czech Web content and has one of the biggest collections dating from 2005. It brings a comprehensive understanding of creating, linking and interpreting the unique electronic data (web resources) that can be compared across many years. The project aims to process, analyze, categorize, and then offer the content of Web Archive for specific research utilization. There are three main pillars to solve in the frame of the project activities - the data management section, data processing section and finally the R&D data reusing section. All of them will be interconnected altogether. The goal of the data section is to prepare data for the deep research analysis of the relevant content for highly specialized research purposes. The aim is to integrate faceted and full-text search engines that enables to define data sets useful for the research of humanities. Data processing section focuses on the development and direct application of the automated analysis tools on the relevant data sets - e. g. by using speech recognition methods or topic detection. The aim of the R&D data reusing section is to create a sociological research based on the utilization of automaticMally pre-processed data sets and to define, how the datasets can be used also in the other areas of humanities.

Vědní obory

  • Kategorie VaV

    AP - Aplikovaný výzkum

  • OECD FORD - hlavní obor

    60500 - Other Humanities and the Arts

  • OECD FORD - vedlejší obor

    50401 - Sociology

  • OECD FORD - další vedlejší obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

  • CEP - odpovídající obory
    (dle převodníku)

    AF - Dokumentace, knihovnictví, práce s informacemi
    AO - Sociologie, demografie
    BC - Teorie a systémy řízení
    BD - Teorie informace
    IN - Informatika

Hodnocení dokončeného projektu

  • Hodnocení poskytovatelem

    V - Vynikající výsledky projektu (s mezinárodním významem atd.)

  • Zhodnocení výsledků projektu

    Problematika vytěžování dat a open source řešením je v současnosti velice aktuální. Nová řešení umožňují zefektivnit výzkum, zvýšit kvalitu výstupů a ve všeobecnosti uvést do praxe filozofii tzv. digital humanities. Projekt je vysoce kvalitní a jeho výstupy jsou využitelné doma i v zahraničí. Cíle projektu byly, pokud jde o jejich počet, kvalitu a skladbu, naplněny na 100 %. Dosažené výsledky byly úspěšně prezentované i v zahraničí. Vyvinuté softwarové nástroje jsou svou kvalitou a možnostmi, které nabízejí, srovnatelné a konkurenceschopné s obdobnými zahraničními produkty.

Termíny řešení

  • Zahájení řešení

    1. 3. 2018

  • Ukončení řešení

    31. 12. 2022

  • Poslední stav řešení

    U - Ukončený projekt

  • Poslední uvolnění podpory

    1. 2. 2022

Dodání dat do CEP

  • Důvěrnost údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Systémové označení dodávky dat

    CEP23-MK0-DG-U

  • Datum dodání záznamu

    6. 6. 2023

Finance

  • Celkové uznané náklady

    24 550 tis. Kč

  • Výše podpory ze státního rozpočtu

    24 550 tis. Kč

  • Ostatní veřejné zdroje financování

    0 tis. Kč

  • Neveřejné tuz. a zahr. zdroje finan.

    0 tis. Kč

Základní informace

Uznané náklady

24 550 tis. Kč

Statní podpora

24 550 tis. Kč

100%


Poskytovatel

Ministerstvo kultury

OECD FORD

Other Humanities and the Arts

Doba řešení

01. 03. 2018 - 31. 12. 2022