Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Named Entity Linking in English-Czech Parallel Corpus

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F24%3A00137343" target="_blank" >RIV/00216224:14330/24:00137343 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://link.springer.com/book/10.1007/978-3-031-70563-2" target="_blank" >https://link.springer.com/book/10.1007/978-3-031-70563-2</a>

  • DOI - Digital Object Identifier

    <a href="http://dx.doi.org/10.1007/978-3-031-70563-2_12" target="_blank" >10.1007/978-3-031-70563-2_12</a>

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Named Entity Linking in English-Czech Parallel Corpus

  • Popis výsledku v původním jazyce

    We present a procedure to build relatively quickly new resources with annotated named entities and their linking to Wikidata. First, we applied state-of-the-art models for named entity recognition on a sentence-aligned parallel English-Czech corpus. We selected the most common entity classes: person, location, organization, and miscellaneous. Second, we manually checked the corpus in a suitably set annotation application. Third, we used a state-of-the-art tool for named entity linking and enhanced the ranking using sentence embeddings obtained by sentence transformers. We then checked manually whether the linking to knowledge bases was correct. As a result, we added two annotation layers to an existing parallel corpus: one with the named entities and one with links to Wikidata. The corpus contains 14,881 parallel Czech-English sentences and 3,769 links to Wikidata. The corpus can be used for training more robust named entity recognition and named entity linking models and for linguistic research of parallel news texts.

  • Název v anglickém jazyce

    Named Entity Linking in English-Czech Parallel Corpus

  • Popis výsledku anglicky

    We present a procedure to build relatively quickly new resources with annotated named entities and their linking to Wikidata. First, we applied state-of-the-art models for named entity recognition on a sentence-aligned parallel English-Czech corpus. We selected the most common entity classes: person, location, organization, and miscellaneous. Second, we manually checked the corpus in a suitably set annotation application. Third, we used a state-of-the-art tool for named entity linking and enhanced the ranking using sentence embeddings obtained by sentence transformers. We then checked manually whether the linking to knowledge bases was correct. As a result, we added two annotation layers to an existing parallel corpus: one with the named entities and one with links to Wikidata. The corpus contains 14,881 parallel Czech-English sentences and 3,769 links to Wikidata. The corpus can be used for training more robust named entity recognition and named entity linking models and for linguistic research of parallel news texts.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

  • Návaznosti

    S - Specificky vyzkum na vysokych skolach

Ostatní

  • Rok uplatnění

    2024

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Text, Speech, and Dialogue : 27th International Conference, TSD 2024, Brno, Czech Republic, September 9–13, 2024, Proceedings, Part I

  • ISBN

    9783031705625

  • ISSN

    0302-9743

  • e-ISSN

  • Počet stran výsledku

    12

  • Strana od-do

    147-158

  • Název nakladatele

    Springer International Publishing

  • Místo vydání

    Cham

  • Místo konání akce

    Brno

  • Datum konání akce

    9. 9. 2024

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku

    001307840300012