Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Word and Sentence Boundaries in Automatic Text Processing

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A90101%2F21%3A10441926" target="_blank" >RIV/00216208:90101/21:10441926 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://verso.is.cuni.cz/pub/verso.fpl?fname=obd_publikace_handle&handle=OrDcTI_9UH" target="_blank" >https://verso.is.cuni.cz/pub/verso.fpl?fname=obd_publikace_handle&handle=OrDcTI_9UH</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    portugalština

  • Název v původním jazyce

    Os limites da palavra e da sentença no processamento automático de textos

  • Popis výsledku v původním jazyce

    Este trabalho tem como objetivo apresentar os principais desafios linguísticos envolvidos na etapa de pré-processamento de um corpus composto por teses e dissertações da área de petróleo e gás. Como resultado, além do levantamento de questões específicas do domínio e de textos técnico-científicos, medimos o quanto o tratamento destas mesmas questões dificulta o processamento automático, e disponibilizamos para a comunidade de PLN de língua portuguesa um corpus padrão-ouro no que se refere apenas a tokenização e sentenciação, repleto de casos complexos, que serve para avaliação de métodos automáticos de segmentação, contribuindo também para a qualidade das etapas posteriores de processamento.

  • Název v anglickém jazyce

    Word and Sentence Boundaries in Automatic Text Processing

  • Popis výsledku anglicky

    This paper aims to explore the major linguistic challenges involved in the preprocessing of a corpus composed of theses and dissertations from the Oil and Gas domain. Besides posing specific questions related to this domain and to scientific texts, we measured to which extent dealing with these matters hinders the automatic processing. We built a gold standard corpus of tokenization and sentence segmentation comprising several difficult cases, which are now available to the Portuguese NLP community. This corpus can be used to evaluate automatic tokenization methods, as well as to improve the quality of subsequent steps in processing.

Klasifikace

  • Druh

    J<sub>ost</sub> - Ostatní články v recenzovaných periodicích

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

  • Návaznosti

Ostatní

  • Rok uplatnění

    2021

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název periodika

    Revista Brasileira de Iniciação Científica

  • ISSN

    2359-232X

  • e-ISSN

  • Svazek periodika

    8

  • Číslo periodika v rámci svazku

    15.10.2021

  • Stát vydavatele periodika

    BR - Brazilská federativní republika

  • Počet stran výsledku

    21

  • Strana od-do

    1-21

  • Kód UT WoS článku

  • EID výsledku v databázi Scopus