Vývoj centralizovaného rozhraní pro vytěžování velkých dat z webových archivů

Veřejná podpora

Poskytovatel
Ministerstvo kultury
Program
Program na podporu aplikovaného výzkumu a experimentálního vývoje národní a kulturní identity na léta 2016 až 2022 (NAKI II)
Veřejná soutěž
NAKI II 2 (SMK02018DG002)
Hlavní účastníci
Národní knihovna České republiky Sociologický ústav AV ČR, v. v. i. Západočeská univerzita v Plzni / Fakulta aplikovaných věd
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
16/2018/OVV

Alternativní jazyk

Název projektu anglicky
Development of the centralized interface for the web content and social networks data mining.
Anotace anglicky
The project presents a comprehensive solution of the access to data from the Czech Web Archive and the way, how to provide them to the researchers for scientific and research reuse. The project connects a topic of the digital humanities - the study of the humanities based on digital or electronic data - with the possibilities of the content reusing from the Czech Web Archive. National Library of the Czech Republic continuously stores Czech Web content and has one of the biggest collections dating from 2005. It brings a comprehensive understanding of creating, linking and interpreting the unique electronic data (web resources) that can be compared across many years. The project aims to process, analyze, categorize, and then offer the content of Web Archive for specific research utilization. There are three main pillars to solve in the frame of the project activities - the data management section, data processing section and finally the R&D data reusing section. All of them will be interconnected altogether. The goal of the data section is to prepare data for the deep research analysis of the relevant content for highly specialized research purposes. The aim is to integrate faceted and full-text search engines that enables to define data sets useful for the research of humanities. Data processing section focuses on the development and direct application of the automated analysis tools on the relevant data sets - e. g. by using speech recognition methods or topic detection. The aim of the R&D data reusing section is to create a sociological research based on the utilization of automaticMally pre-processed data sets and to define, how the datasets can be used also in the other areas of humanities.

Vědní obory

Kategorie VaV
AP - Aplikovaný výzkum
OECD FORD - hlavní obor
60500 - Other Humanities and the Arts
OECD FORD - vedlejší obor
50401 - Sociology
OECD FORD - další vedlejší obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
CEP - odpovídající obory (dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
AF - Dokumentace, knihovnictví, práce s informacemi AO - Sociologie, demografie BC - Teorie a systémy řízení BD - Teorie informace IN - Informatika

Hodnocení dokončeného projektu

Hodnocení poskytovatelem
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Zhodnocení výsledků projektu
Problematika vytěžování dat a open source řešením je v současnosti velice aktuální. Nová řešení umožňují zefektivnit výzkum, zvýšit kvalitu výstupů a ve všeobecnosti uvést do praxe filozofii tzv. digital humanities. Projekt je vysoce kvalitní a jeho výstupy jsou využitelné doma i v zahraničí. Cíle projektu byly, pokud jde o jejich počet, kvalitu a skladbu, naplněny na 100 %. Dosažené výsledky byly úspěšně prezentované i v zahraničí. Vyvinuté softwarové nástroje jsou svou kvalitou a možnostmi, které nabízejí, srovnatelné a konkurenceschopné s obdobnými zahraničními produkty.

Termíny řešení

Zahájení řešení
1. 3. 2018
Ukončení řešení
31. 12. 2022
Poslední stav řešení
U - Ukončený projekt
Poslední uvolnění podpory
1. 2. 2022

Dodání dat do CEP

Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP23-MK0-DG-U
Datum dodání záznamu
6. 6. 2023

Finance

Celkové uznané náklady
24 550 tis. Kč
Výše podpory ze státního rozpočtu
24 550 tis. Kč
Ostatní veřejné zdroje financování
0 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč

Podobné projekty(10)

Výzkumná infrastruktura pro diachronní bohemistiku (LM2015081) Poskytování informací o starším českém jazyce (zejména o staročeském lexiku) prostřednictvím veřejné počítačové sítě Internet (GA405/00/1732) Historie češtiny v korpusovém kontinuu (TQ01000072)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Vývoj centralizovaného rozhraní pro vytěžování velkých dat z webových archivů

Veřejná podpora

Alternativní jazyk

Vědní obory

Hodnocení dokončeného projektu

Termíny řešení

Dodání dat do CEP

Finance

Podobné projekty(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Cíle projektu

Veřejná podpora

Veřejná podpora

Alternativní jazyk

Alternativní jazyk

Vědní obory

Vědní obory

Hodnocení dokončeného projektu

Hodnocení dokončeného projektu

Termíny řešení

Termíny řešení

Dodání dat do CEP

Dodání dat do CEP

Finance

Finance

Podobné projekty(10)