Webové archivy a sociální vědy: příležitosti, problémy a řešení
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68378025%3A_____%2F19%3A00522603" target="_blank" >RIV/68378025:_____/19:00522603 - isvavai.cz</a>
Výsledek na webu
<a href="https://cvvm.soc.cas.cz/index.php?option=com_content&view=article&id=5126&lang=en" target="_blank" >https://cvvm.soc.cas.cz/index.php?option=com_content&view=article&id=5126&lang=en</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.13060/1214438X.2019.1.17.495" target="_blank" >10.13060/1214438X.2019.1.17.495</a>
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Webové archivy a sociální vědy: příležitosti, problémy a řešení
Popis výsledku v původním jazyce
Tento článek se věnuje úvodu do problematiky webových archivů, které mohou sloužit jako zdroj dat částečně vypovídající o dynamické proměně současné společnosti a komunikace. V první části článku je představen smysl webových archivů a jejich současné institucionální zakotvení jak v České republice, tak v zahraničí. V druhé části je diskutována otázka přístupu k datům z webových archivů. Omezení v přístupu jsou na jedné straně technická, kdy se musí výzkumník vypořádat s velkým množstvím dat a nároky na výpočetní kapacitu, a na druhé straně právní a etická. Jako částečné řešení omezení v přístupu k datům navrhuje článek mimo jiné vytvoření a provozování analytického rozhraní, ze kterého by výzkumníci mohli získávat agregované výstupy z webových archivu. Třetí závěrečná část článku se věnuje metodologickým omezením dat uložených ve webových archivech. Zabývá se především otázkami reprezentativity, neúplnosti a heterogenity těchto dat. Autoři článku nabízí dílčí řešení otázky omezené reprezentativity celoplošných sklizní prostřednictvím kvalitního výběru dat z webového archivu, a to jak pomocí tematického zúžení, tak pomocí pravděpodobnostního váženého výběru dat z archivu. Článek také zdůrazňuje, že pozorovaná změna webu se kromě změny chování aktérů může dít i z důvodů změny populace používající internet, změny technologie a v neposlední řadě kvůli změně metodologie sběru dat. Je proto důležité vytvářet velmi pečlivou dokumentaci sběru dat webového archivu a v případě využívání analytického rozhraní i přesný popis metod, které má výzkumník v rozhraní k dispozici.
Název v anglickém jazyce
Web Archives and Social Sciences: Opportunities, Problems and Solutions
Popis výsledku anglicky
This article provides an introduction to the subject matter of web archives, which can serve as sources of data that help us draw a picture of the dynamic change of contemporary society and communication. In the first section of the article, we explain the purpose of web archives and their current institutional framework both in the Czech Republic and abroad. In the second section, we discuss issues of accessing web archive data. We distinguish technological access limitations, where the researcher is faced with large amounts of data and computing requirements, legal, and ethical limitations. As a partial solution to data access limitations, the article proposes creating and operating an analytical interface through which researchers could obtain aggregate web archive data. Finally, the third section of the article deals with the methodological limitations of web archive data. It primarily focuses on issues of representativeness, incompleteness and heterogeneity of such data. As a partial solution to the problem of limited representativeness of full-domain harvests, the authors propose implementing weighted random sampling of web archive data. Furthermore, the article stresses that observed changes to online content are based not only on changes in actors’ behaviours but possibly also shifts in the population of internet users, technological innovations and, last but not least, modifications of data collection methodology. It is, therefore, important for web archives to document their data collection efforts carefully and complete any analytical interfaces they provide with a precise description of the methods available to researchers.
Klasifikace
Druh
J<sub>ost</sub> - Ostatní články v recenzovaných periodicích
CEP obor
—
OECD FORD obor
50802 - Media and socio-cultural communication
Návaznosti výsledku
Projekt
<a href="/cs/project/DG18P02OVV016" target="_blank" >DG18P02OVV016: Vývoj centralizovaného rozhraní pro vytěžování velkých dat z webových archivů</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2019
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Naše společnost
ISSN
1214-438X
e-ISSN
—
Svazek periodika
17
Číslo periodika v rámci svazku
1
Stát vydavatele periodika
CZ - Česká republika
Počet stran výsledku
16
Strana od-do
43-58
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—