Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

ParlaMint II: advancing comparable parliamentary corpora across Europe

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F25%3AE92RXEI9" target="_blank" >RIV/00216208:11320/25:E92RXEI9 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://www.scopus.com/inward/record.uri?eid=2-s2.0-85213520565&doi=10.1007%2fs10579-024-09798-w&partnerID=40&md5=c3f087d6467a5db6f0572ca15faba47f" target="_blank" >https://www.scopus.com/inward/record.uri?eid=2-s2.0-85213520565&doi=10.1007%2fs10579-024-09798-w&partnerID=40&md5=c3f087d6467a5db6f0572ca15faba47f</a>

  • DOI - Digital Object Identifier

    <a href="http://dx.doi.org/10.1007/s10579-024-09798-w" target="_blank" >10.1007/s10579-024-09798-w</a>

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    ParlaMint II: advancing comparable parliamentary corpora across Europe

  • Popis výsledku v původním jazyce

    The paper presents the results of the ParlaMint II project, which comprise comparable corpora of parliamentary debates of 29 European countries and autonomous regions, covering at least the period from 2015 to 2022, and containing over 1 billion words. The corpora are uniformly encoded, contain rich metadata about their 24 thousand speakers, and are linguistically annotated up to the level of Universal Dependencies syntax and named entities. The paper focuses on the enhancement made since the ParlaMint I project and presents the compilation of the corpora, including the encoding infrastructure, use of GitHub, the production of individual corpora, the common pipeline for producing their distribution, and use of CLARIN services for dissemination. It then gives a quantitative overview of the produced corpora, followed by the qualitative additions made within the ParlaMint II project, namely metadata localisation, the addition of new metadata, such as the political orientation of political parties, the machine translation of the corpora to English and its tagging with semantic classes, and the production of pilot speech corpora. Finally, outreach activities and further work are discussed. © The Author(s) 2024.

  • Název v anglickém jazyce

    ParlaMint II: advancing comparable parliamentary corpora across Europe

  • Popis výsledku anglicky

    The paper presents the results of the ParlaMint II project, which comprise comparable corpora of parliamentary debates of 29 European countries and autonomous regions, covering at least the period from 2015 to 2022, and containing over 1 billion words. The corpora are uniformly encoded, contain rich metadata about their 24 thousand speakers, and are linguistically annotated up to the level of Universal Dependencies syntax and named entities. The paper focuses on the enhancement made since the ParlaMint I project and presents the compilation of the corpora, including the encoding infrastructure, use of GitHub, the production of individual corpora, the common pipeline for producing their distribution, and use of CLARIN services for dissemination. It then gives a quantitative overview of the produced corpora, followed by the qualitative additions made within the ParlaMint II project, namely metadata localisation, the addition of new metadata, such as the political orientation of political parties, the machine translation of the corpora to English and its tagging with semantic classes, and the production of pilot speech corpora. Finally, outreach activities and further work are discussed. © The Author(s) 2024.

Klasifikace

  • Druh

    J<sub>SC</sub> - Článek v periodiku v databázi SCOPUS

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

  • Návaznosti

Ostatní

  • Rok uplatnění

    2024

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název periodika

    Language Resources and Evaluation

  • ISSN

    1574-020X

  • e-ISSN

  • Svazek periodika

    2024

  • Číslo periodika v rámci svazku

    2024

  • Stát vydavatele periodika

    US - Spojené státy americké

  • Počet stran výsledku

    32

  • Strana od-do

    1-32

  • Kód UT WoS článku

  • EID výsledku v databázi Scopus

    2-s2.0-85213520565