Funkční vzorek algoritmů sloužící k potlačování nerovnováh při využívání zdrojů informací (např. dominance mužských zdrojů na úkor ženských apod.).
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F22%3A00374831" target="_blank" >RIV/68407700:21230/22:00374831 - isvavai.cz</a>
Výsledek na webu
<a href="https://quest.ms.mff.cuni.cz/parczech/teitok/irozhlas/index.php" target="_blank" >https://quest.ms.mff.cuni.cz/parczech/teitok/irozhlas/index.php</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Funkční vzorek algoritmů sloužící k potlačování nerovnováh při využívání zdrojů informací (např. dominance mužských zdrojů na úkor ženských apod.).
Popis výsledku v původním jazyce
Funkční vzorek algoritmů sloužící k potlačování nerovnováh při využívání zdrojů informací. Funkční vzorek implementuje a ověřuje různé sady pravidel, které umožňují automatizovaně detekovat citace a jejich citační zdroje a vytvořit tak výchozí verzi výsledku detekovaných citací. Vstupem je datová kolekce iRozhlas, která obsahuje 104 677 článků publikovaných na serveru iRozhlas v období 1.4.2017-31.5.2022. Všechny články byly zpracované procedurami UDPipe a NameTag a pravidlovou procedurou pro detekci citací. Výstupem je seznam záznamů obsahujících citaci a její citační zdroj. Každý záznam je reprezentován jako 6tice následujících položek: - Vlastní citace – reprezentována jako sekvence slov mezi dvěma uvozovkami. Pokusně se pro vybrané citační fráze (slovesa) detekují i nepřímé citace jako vedlejší věty ve formě sekvence slov. - Vlastní jména – sekvence slov reprezentující vlastní jména citované osoby. - Příjmení – slovo určující příjmení citované osoby. - Role mluvčího – slovo určují vztah citované osoby k její instituci. - Instituce – sekvence slov reprezentující název instituce, ke které má citovaná osoba určitý vztah. - Citační fráze – detekované sloveso uvozující citaci. Každá položka je reprezentována jako seznam slov, která jsou identifikována svými identifikátory podle vstupního souboru. Některé položky mohou být i prázdné seznamy, např. pokud není instituce uvedena, případně nejsou uvedena vlastní jména citované osoby.
Název v anglickém jazyce
A functional sample of algorithms used to counter imbalances in the use of information sources (e.g., dominance of male sources at the expense of female sources, etc.).
Popis výsledku anglicky
A functional sample of algorithms used to suppress imbalances in the use of information sources. The functional sample implements and verifies different sets of rules that allow automated detection of citations and their citation sources to produce a default version of the result of the detected citations. The input is the iRozhlas data collection, which contains 104,677 articles published on the iRozhlas server between April 1, 2017 and May 31, 2022. All articles were processed with the UDPipe and NameTag procedures and the citation detection rule procedure. The output is a list of records containing the citation and its citation source. Each record is represented as a 6tuple of the following items: - The actual citation - represented as a sequence of words between two quotes. For selected citation phrases (verbs), indirect quotations are also detected experimentally as subordinate clauses in the form of a sequence of words. - Proper names - a sequence of words representing the proper names of the person quoted. - Last name - a word specifying the last name of the quoted person. - Speaker role - a word specifying the relationship of the quoted person to their institution. - Institution - a sequence of words representing the name of the institution to which the person quoted has a particular relationship. - Citation phrase - a detected verb quoting the citation. Each entry is represented as a list of words that are identified by their identifiers according to the input file. Some entries may also be empty lists, e.g. if the institution is not listed or the proper names of the person cited are not listed.
Klasifikace
Druh
G<sub>funk</sub> - Funkční vzorek
CEP obor
—
OECD FORD obor
50801 - Journalism
Návaznosti výsledku
Projekt
<a href="/cs/project/TL05000057" target="_blank" >TL05000057: Signál a šum v éře Žurnalistiky 5.0 - komparativní perspektiva novinářských žánrů automatizovaných obsahů</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2022
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
TL05000057-V2
Číselná identifikace
TL05000057-V2
Technické parametry
Kolekci iRozhlas s více než 100 tis. články jsme, podobně jako korpus SiR 1.0, zpřístupnili na platformě TEITOK, viz odkaz https://quest.ms.mff.cuni.cz/parczech/teitok/irozhlas/index.php. Jedná se o vývojářskou verzi, která aktuálně nabízí články s automaticky doplněnými lingvistickými anotacemi nástroji UDPipe a NameTag a citacemi detekovanými pravidlovou procedurou. S každou další verzí pravidlové procedury budeme zpřístupňovat její výsledky. Pro uživatele jsme připravili několik ukázkových dotazů (viz Typické dotazy výše). Jejich spuštění je přímočaré, a sice kliknutím na dotaz se dotaz zkopíruje do řádku dotaz v jazyce CQL a kliknutím na Hledat se dotaz spustí. Například dotazem <attrib>[]* a:[feats = ".*Gender=Masc.*" & feats = ".*Animacy=Anim.*"]+ []*</attrib> :: a.attrib_atype="SOURCE:.*" & a.name_type="PER" je možné hledat citační zdroje obsahující slovo rodu mužského životného, které se vyskytuje ve jmenné entitě typu "PER" (osoba). V dotazu se využívají automatické lingvistické anotace procedur UDPipe a NameTag.
Ekonomické parametry
Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence jako licence za časově omezený přístup, a to za poplatek 1 000,- Kč na měsíc, nebo 10 000,- Kč za rok.
Kategorie aplik. výsledku dle nákladů
—
IČO vlastníka výsledku
68407700
Název vlastníka
CESKE VYSOKE UCENI TECHNICKE V PRAZE
Stát vlastníka
CZ - Česká republika
Druh možnosti využití
V - Výsledek je využíván vlastníkem
Požadavek na licenční poplatek
Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek
Adresa www stránky s výsledkem
https://quest.ms.mff.cuni.cz/parczech/teitok/irozhlas/index.php