Blýskání na lepší data z českých digitálních knihoven
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00094943%3A_____%2F23%3AN0000025" target="_blank" >RIV/00094943:_____/23:N0000025 - isvavai.cz</a>
Výsledek na webu
<a href="https://casopispromodernifilologii.ff.cuni.cz/wp-content/uploads/sites/9/2023/07/Boris_Lehecka_274-292.pdf" target="_blank" >https://casopispromodernifilologii.ff.cuni.cz/wp-content/uploads/sites/9/2023/07/Boris_Lehecka_274-292.pdf</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.14712/23366591.2023.2.7" target="_blank" >10.14712/23366591.2023.2.7</a>
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Blýskání na lepší data z českých digitálních knihoven
Popis výsledku v původním jazyce
V humanitních vědách je analýza primární a sekundární literatury důležitou součástí výzkumné práce. Vedle jazykových korpusů lze za vhodný zdroj psaných textů v posledních letech považovat digitální knihovny, které v České republice v letech 1992-2022 digitalizovaly přibližně 98,7 milionu stran. Článek uvádí příklady ze zahraničí a podává stručný přehled o datových zdrojích v českém prostředí. Zaměřuje se na nedávno ukončený projekt DL4DH, jehož cílem je nabídnout badatelům přístup k velkým objemům dat z digitální knihovny Kramerius ve standardizovaných formátech (prostý text, ALTO, CSV/TSV, TEI, JSON) prostřednictvím nové webové aplikace a rozhraní REST API. Data mohou obsahovat údaje z nástrojů UDPipe a NameTag vyvinutých a provozovaných výzkumnou infrastrukturou LINDAT/CLARIAH-CZ.
Název v anglickém jazyce
There are Better Data Ahead From Czech Digital Libraries
Popis výsledku anglicky
In the humanities, analysis of primary and secondary literature is an important area of research work. Besides language corpora, digital libraries, which digitized approximately 98.7 million pages in the Czech Republic between 1992 and 2022, can be considered a suitable source of written texts in recent years. The article presents an example from abroad and gives a brief overview of data sources in the Czech environment. It focuses on the recently completed DL4DH project, which aims to offer researchers access to large volumes of data from the Kramerius digital library in standardized formats (plain text, ALTO, CSV/TSV, TEI, JSON), on demand enriched by the UDPipe and NameTag tools (developed and operated by the RI of LINDAT/CLARIAH-CZ), through a new web application and a REST API.
Klasifikace
Druh
J<sub>SC</sub> - Článek v periodiku v databázi SCOPUS
CEP obor
—
OECD FORD obor
60500 - Other Humanities and the Arts
Návaznosti výsledku
Projekt
—
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2023
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Časopis pro moderní filologii
ISSN
0008-7386
e-ISSN
—
Svazek periodika
105
Číslo periodika v rámci svazku
2
Stát vydavatele periodika
CZ - Česká republika
Počet stran výsledku
19
Strana od-do
274–292
Kód UT WoS článku
—
EID výsledku v databázi Scopus
2-s2.0-85165878242