Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Funkční vzorek algoritmů sloužící k potlačování nerovnováh při využívání zdrojů informací (např. dominance mužských zdrojů na úkor ženských apod.).

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F22%3A00374831" target="_blank" >RIV/68407700:21230/22:00374831 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://quest.ms.mff.cuni.cz/parczech/teitok/irozhlas/index.php" target="_blank" >https://quest.ms.mff.cuni.cz/parczech/teitok/irozhlas/index.php</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Funkční vzorek algoritmů sloužící k potlačování nerovnováh při využívání zdrojů informací (např. dominance mužských zdrojů na úkor ženských apod.).

  • Popis výsledku v původním jazyce

    Funkční vzorek algoritmů sloužící k potlačování nerovnováh při využívání zdrojů informací. Funkční vzorek implementuje a ověřuje různé sady pravidel, které umožňují automatizovaně detekovat citace a jejich citační zdroje a vytvořit tak výchozí verzi výsledku detekovaných citací. Vstupem je datová kolekce iRozhlas, která obsahuje 104 677 článků publikovaných na serveru iRozhlas v období 1.4.2017-31.5.2022. Všechny články byly zpracované procedurami UDPipe a NameTag a pravidlovou procedurou pro detekci citací. Výstupem je seznam záznamů obsahujících citaci a její citační zdroj. Každý záznam je reprezentován jako 6tice následujících položek: - Vlastní citace – reprezentována jako sekvence slov mezi dvěma uvozovkami. Pokusně se pro vybrané citační fráze (slovesa) detekují i nepřímé citace jako vedlejší věty ve formě sekvence slov. - Vlastní jména – sekvence slov reprezentující vlastní jména citované osoby. - Příjmení – slovo určující příjmení citované osoby. - Role mluvčího – slovo určují vztah citované osoby k její instituci. - Instituce – sekvence slov reprezentující název instituce, ke které má citovaná osoba určitý vztah. - Citační fráze – detekované sloveso uvozující citaci. Každá položka je reprezentována jako seznam slov, která jsou identifikována svými identifikátory podle vstupního souboru. Některé položky mohou být i prázdné seznamy, např. pokud není instituce uvedena, případně nejsou uvedena vlastní jména citované osoby.

  • Název v anglickém jazyce

    A functional sample of algorithms used to counter imbalances in the use of information sources (e.g., dominance of male sources at the expense of female sources, etc.).

  • Popis výsledku anglicky

    A functional sample of algorithms used to suppress imbalances in the use of information sources. The functional sample implements and verifies different sets of rules that allow automated detection of citations and their citation sources to produce a default version of the result of the detected citations. The input is the iRozhlas data collection, which contains 104,677 articles published on the iRozhlas server between April 1, 2017 and May 31, 2022. All articles were processed with the UDPipe and NameTag procedures and the citation detection rule procedure. The output is a list of records containing the citation and its citation source. Each record is represented as a 6tuple of the following items: - The actual citation - represented as a sequence of words between two quotes. For selected citation phrases (verbs), indirect quotations are also detected experimentally as subordinate clauses in the form of a sequence of words. - Proper names - a sequence of words representing the proper names of the person quoted. - Last name - a word specifying the last name of the quoted person. - Speaker role - a word specifying the relationship of the quoted person to their institution. - Institution - a sequence of words representing the name of the institution to which the person quoted has a particular relationship. - Citation phrase - a detected verb quoting the citation. Each entry is represented as a list of words that are identified by their identifiers according to the input file. Some entries may also be empty lists, e.g. if the institution is not listed or the proper names of the person cited are not listed.

Klasifikace

  • Druh

    G<sub>funk</sub> - Funkční vzorek

  • CEP obor

  • OECD FORD obor

    50801 - Journalism

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/TL05000057" target="_blank" >TL05000057: Signál a šum v éře Žurnalistiky 5.0 - komparativní perspektiva novinářských žánrů automatizovaných obsahů</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2022

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    TL05000057-V2

  • Číselná identifikace

    TL05000057-V2

  • Technické parametry

    Kolekci iRozhlas s více než 100 tis. články jsme, podobně jako korpus SiR 1.0, zpřístupnili na platformě TEITOK, viz odkaz https://quest.ms.mff.cuni.cz/parczech/teitok/irozhlas/index.php. Jedná se o vývojářskou verzi, která aktuálně nabízí články s automaticky doplněnými lingvistickými anotacemi nástroji UDPipe a NameTag a citacemi detekovanými pravidlovou procedurou. S každou další verzí pravidlové procedury budeme zpřístupňovat její výsledky. Pro uživatele jsme připravili několik ukázkových dotazů (viz Typické dotazy výše). Jejich spuštění je přímočaré, a sice kliknutím na dotaz se dotaz zkopíruje do řádku dotaz v jazyce CQL a kliknutím na Hledat se dotaz spustí. Například dotazem <attrib>[]* a:[feats = ".*Gender=Masc.*" & feats = ".*Animacy=Anim.*"]+ []*</attrib> :: a.attrib_atype="SOURCE:.*" & a.name_type="PER" je možné hledat citační zdroje obsahující slovo rodu mužského životného, které se vyskytuje ve jmenné entitě typu "PER" (osoba). V dotazu se využívají automatické lingvistické anotace procedur UDPipe a NameTag.

  • Ekonomické parametry

    Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence jako licence za časově omezený přístup, a to za poplatek 1 000,- Kč na měsíc, nebo 10 000,- Kč za rok.

  • Kategorie aplik. výsledku dle nákladů

  • IČO vlastníka výsledku

    68407700

  • Název vlastníka

    CESKE VYSOKE UCENI TECHNICKE V PRAZE

  • Stát vlastníka

    CZ - Česká republika

  • Druh možnosti využití

    V - Výsledek je využíván vlastníkem

  • Požadavek na licenční poplatek

    Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek

  • Adresa www stránky s výsledkem

    https://quest.ms.mff.cuni.cz/parczech/teitok/irozhlas/index.php