A functional sample of algorithms used to counter imbalances in the use of information sources (e.g., dominance of male sources at the expense of female sources, etc.).
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F22%3A00374831" target="_blank" >RIV/68407700:21230/22:00374831 - isvavai.cz</a>
Result on the web
<a href="https://quest.ms.mff.cuni.cz/parczech/teitok/irozhlas/index.php" target="_blank" >https://quest.ms.mff.cuni.cz/parczech/teitok/irozhlas/index.php</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Funkční vzorek algoritmů sloužící k potlačování nerovnováh při využívání zdrojů informací (např. dominance mužských zdrojů na úkor ženských apod.).
Original language description
Funkční vzorek algoritmů sloužící k potlačování nerovnováh při využívání zdrojů informací. Funkční vzorek implementuje a ověřuje různé sady pravidel, které umožňují automatizovaně detekovat citace a jejich citační zdroje a vytvořit tak výchozí verzi výsledku detekovaných citací. Vstupem je datová kolekce iRozhlas, která obsahuje 104 677 článků publikovaných na serveru iRozhlas v období 1.4.2017-31.5.2022. Všechny články byly zpracované procedurami UDPipe a NameTag a pravidlovou procedurou pro detekci citací. Výstupem je seznam záznamů obsahujících citaci a její citační zdroj. Každý záznam je reprezentován jako 6tice následujících položek: - Vlastní citace – reprezentována jako sekvence slov mezi dvěma uvozovkami. Pokusně se pro vybrané citační fráze (slovesa) detekují i nepřímé citace jako vedlejší věty ve formě sekvence slov. - Vlastní jména – sekvence slov reprezentující vlastní jména citované osoby. - Příjmení – slovo určující příjmení citované osoby. - Role mluvčího – slovo určují vztah citované osoby k její instituci. - Instituce – sekvence slov reprezentující název instituce, ke které má citovaná osoba určitý vztah. - Citační fráze – detekované sloveso uvozující citaci. Každá položka je reprezentována jako seznam slov, která jsou identifikována svými identifikátory podle vstupního souboru. Některé položky mohou být i prázdné seznamy, např. pokud není instituce uvedena, případně nejsou uvedena vlastní jména citované osoby.
Czech name
Funkční vzorek algoritmů sloužící k potlačování nerovnováh při využívání zdrojů informací (např. dominance mužských zdrojů na úkor ženských apod.).
Czech description
Funkční vzorek algoritmů sloužící k potlačování nerovnováh při využívání zdrojů informací. Funkční vzorek implementuje a ověřuje různé sady pravidel, které umožňují automatizovaně detekovat citace a jejich citační zdroje a vytvořit tak výchozí verzi výsledku detekovaných citací. Vstupem je datová kolekce iRozhlas, která obsahuje 104 677 článků publikovaných na serveru iRozhlas v období 1.4.2017-31.5.2022. Všechny články byly zpracované procedurami UDPipe a NameTag a pravidlovou procedurou pro detekci citací. Výstupem je seznam záznamů obsahujících citaci a její citační zdroj. Každý záznam je reprezentován jako 6tice následujících položek: - Vlastní citace – reprezentována jako sekvence slov mezi dvěma uvozovkami. Pokusně se pro vybrané citační fráze (slovesa) detekují i nepřímé citace jako vedlejší věty ve formě sekvence slov. - Vlastní jména – sekvence slov reprezentující vlastní jména citované osoby. - Příjmení – slovo určující příjmení citované osoby. - Role mluvčího – slovo určují vztah citované osoby k její instituci. - Instituce – sekvence slov reprezentující název instituce, ke které má citovaná osoba určitý vztah. - Citační fráze – detekované sloveso uvozující citaci. Každá položka je reprezentována jako seznam slov, která jsou identifikována svými identifikátory podle vstupního souboru. Některé položky mohou být i prázdné seznamy, např. pokud není instituce uvedena, případně nejsou uvedena vlastní jména citované osoby.
Classification
Type
G<sub>funk</sub> - Functional sample
CEP classification
—
OECD FORD branch
50801 - Journalism
Result continuities
Project
<a href="/en/project/TL05000057" target="_blank" >TL05000057: The Signal and the Noise in the Era of Journalism 5.0 - A Comparative Perspective of Journalistic Genres of Automated Content</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2022
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
TL05000057-V2
Numerical identification
TL05000057-V2
Technical parameters
Kolekci iRozhlas s více než 100 tis. články jsme, podobně jako korpus SiR 1.0, zpřístupnili na platformě TEITOK, viz odkaz https://quest.ms.mff.cuni.cz/parczech/teitok/irozhlas/index.php. Jedná se o vývojářskou verzi, která aktuálně nabízí články s automaticky doplněnými lingvistickými anotacemi nástroji UDPipe a NameTag a citacemi detekovanými pravidlovou procedurou. S každou další verzí pravidlové procedury budeme zpřístupňovat její výsledky. Pro uživatele jsme připravili několik ukázkových dotazů (viz Typické dotazy výše). Jejich spuštění je přímočaré, a sice kliknutím na dotaz se dotaz zkopíruje do řádku dotaz v jazyce CQL a kliknutím na Hledat se dotaz spustí. Například dotazem <attrib>[]* a:[feats = ".*Gender=Masc.*" & feats = ".*Animacy=Anim.*"]+ []*</attrib> :: a.attrib_atype="SOURCE:.*" & a.name_type="PER" je možné hledat citační zdroje obsahující slovo rodu mužského životného, které se vyskytuje ve jmenné entitě typu "PER" (osoba). V dotazu se využívají automatické lingvistické anotace procedur UDPipe a NameTag.
Economical parameters
Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence jako licence za časově omezený přístup, a to za poplatek 1 000,- Kč na měsíc, nebo 10 000,- Kč za rok.
Application category by cost
—
Owner IČO
68407700
Owner name
CESKE VYSOKE UCENI TECHNICKE V PRAZE
Owner country
CZ - CZECH REPUBLIC
Usage type
V - Výsledek je využíván vlastníkem
Licence fee requirement
Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek
Web page
https://quest.ms.mff.cuni.cz/parczech/teitok/irozhlas/index.php