All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

A functional sample of algorithms used to counter imbalances in the use of information sources (e.g., dominance of male sources at the expense of female sources, etc.).

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F22%3A00374831" target="_blank" >RIV/68407700:21230/22:00374831 - isvavai.cz</a>

  • Result on the web

    <a href="https://quest.ms.mff.cuni.cz/parczech/teitok/irozhlas/index.php" target="_blank" >https://quest.ms.mff.cuni.cz/parczech/teitok/irozhlas/index.php</a>

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    čeština

  • Original language name

    Funkční vzorek algoritmů sloužící k potlačování nerovnováh při využívání zdrojů informací (např. dominance mužských zdrojů na úkor ženských apod.).

  • Original language description

    Funkční vzorek algoritmů sloužící k potlačování nerovnováh při využívání zdrojů informací. Funkční vzorek implementuje a ověřuje různé sady pravidel, které umožňují automatizovaně detekovat citace a jejich citační zdroje a vytvořit tak výchozí verzi výsledku detekovaných citací. Vstupem je datová kolekce iRozhlas, která obsahuje 104 677 článků publikovaných na serveru iRozhlas v období 1.4.2017-31.5.2022. Všechny články byly zpracované procedurami UDPipe a NameTag a pravidlovou procedurou pro detekci citací. Výstupem je seznam záznamů obsahujících citaci a její citační zdroj. Každý záznam je reprezentován jako 6tice následujících položek: - Vlastní citace – reprezentována jako sekvence slov mezi dvěma uvozovkami. Pokusně se pro vybrané citační fráze (slovesa) detekují i nepřímé citace jako vedlejší věty ve formě sekvence slov. - Vlastní jména – sekvence slov reprezentující vlastní jména citované osoby. - Příjmení – slovo určující příjmení citované osoby. - Role mluvčího – slovo určují vztah citované osoby k její instituci. - Instituce – sekvence slov reprezentující název instituce, ke které má citovaná osoba určitý vztah. - Citační fráze – detekované sloveso uvozující citaci. Každá položka je reprezentována jako seznam slov, která jsou identifikována svými identifikátory podle vstupního souboru. Některé položky mohou být i prázdné seznamy, např. pokud není instituce uvedena, případně nejsou uvedena vlastní jména citované osoby.

  • Czech name

    Funkční vzorek algoritmů sloužící k potlačování nerovnováh při využívání zdrojů informací (např. dominance mužských zdrojů na úkor ženských apod.).

  • Czech description

    Funkční vzorek algoritmů sloužící k potlačování nerovnováh při využívání zdrojů informací. Funkční vzorek implementuje a ověřuje různé sady pravidel, které umožňují automatizovaně detekovat citace a jejich citační zdroje a vytvořit tak výchozí verzi výsledku detekovaných citací. Vstupem je datová kolekce iRozhlas, která obsahuje 104 677 článků publikovaných na serveru iRozhlas v období 1.4.2017-31.5.2022. Všechny články byly zpracované procedurami UDPipe a NameTag a pravidlovou procedurou pro detekci citací. Výstupem je seznam záznamů obsahujících citaci a její citační zdroj. Každý záznam je reprezentován jako 6tice následujících položek: - Vlastní citace – reprezentována jako sekvence slov mezi dvěma uvozovkami. Pokusně se pro vybrané citační fráze (slovesa) detekují i nepřímé citace jako vedlejší věty ve formě sekvence slov. - Vlastní jména – sekvence slov reprezentující vlastní jména citované osoby. - Příjmení – slovo určující příjmení citované osoby. - Role mluvčího – slovo určují vztah citované osoby k její instituci. - Instituce – sekvence slov reprezentující název instituce, ke které má citovaná osoba určitý vztah. - Citační fráze – detekované sloveso uvozující citaci. Každá položka je reprezentována jako seznam slov, která jsou identifikována svými identifikátory podle vstupního souboru. Některé položky mohou být i prázdné seznamy, např. pokud není instituce uvedena, případně nejsou uvedena vlastní jména citované osoby.

Classification

  • Type

    G<sub>funk</sub> - Functional sample

  • CEP classification

  • OECD FORD branch

    50801 - Journalism

Result continuities

  • Project

    <a href="/en/project/TL05000057" target="_blank" >TL05000057: The Signal and the Noise in the Era of Journalism 5.0 - A Comparative Perspective of Journalistic Genres of Automated Content</a><br>

  • Continuities

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

  • Publication year

    2022

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Internal product ID

    TL05000057-V2

  • Numerical identification

    TL05000057-V2

  • Technical parameters

    Kolekci iRozhlas s více než 100 tis. články jsme, podobně jako korpus SiR 1.0, zpřístupnili na platformě TEITOK, viz odkaz https://quest.ms.mff.cuni.cz/parczech/teitok/irozhlas/index.php. Jedná se o vývojářskou verzi, která aktuálně nabízí články s automaticky doplněnými lingvistickými anotacemi nástroji UDPipe a NameTag a citacemi detekovanými pravidlovou procedurou. S každou další verzí pravidlové procedury budeme zpřístupňovat její výsledky. Pro uživatele jsme připravili několik ukázkových dotazů (viz Typické dotazy výše). Jejich spuštění je přímočaré, a sice kliknutím na dotaz se dotaz zkopíruje do řádku dotaz v jazyce CQL a kliknutím na Hledat se dotaz spustí. Například dotazem <attrib>[]* a:[feats = ".*Gender=Masc.*" & feats = ".*Animacy=Anim.*"]+ []*</attrib> :: a.attrib_atype="SOURCE:.*" & a.name_type="PER" je možné hledat citační zdroje obsahující slovo rodu mužského životného, které se vyskytuje ve jmenné entitě typu "PER" (osoba). V dotazu se využívají automatické lingvistické anotace procedur UDPipe a NameTag.

  • Economical parameters

    Licenci je možno udělit jako bezúplatnou pro nekomerční účely. V případě udělení licence pro komerční využití, byl stanoven odhad ceny poskytnuté licence jako licence za časově omezený přístup, a to za poplatek 1 000,- Kč na měsíc, nebo 10 000,- Kč za rok.

  • Application category by cost

  • Owner IČO

    68407700

  • Owner name

    CESKE VYSOKE UCENI TECHNICKE V PRAZE

  • Owner country

    CZ - CZECH REPUBLIC

  • Usage type

    V - Výsledek je využíván vlastníkem

  • Licence fee requirement

    Z - Poskytovatel licence na výsledek nepožaduje v některých případech licenční poplatek

  • Web page

    https://quest.ms.mff.cuni.cz/parczech/teitok/irozhlas/index.php