Word and Sentence Boundaries in Automatic Text Processing
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A90101%2F21%3A10441926" target="_blank" >RIV/00216208:90101/21:10441926 - isvavai.cz</a>
Výsledek na webu
<a href="https://verso.is.cuni.cz/pub/verso.fpl?fname=obd_publikace_handle&handle=OrDcTI_9UH" target="_blank" >https://verso.is.cuni.cz/pub/verso.fpl?fname=obd_publikace_handle&handle=OrDcTI_9UH</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
portugalština
Název v původním jazyce
Os limites da palavra e da sentença no processamento automático de textos
Popis výsledku v původním jazyce
Este trabalho tem como objetivo apresentar os principais desafios linguísticos envolvidos na etapa de pré-processamento de um corpus composto por teses e dissertações da área de petróleo e gás. Como resultado, além do levantamento de questões específicas do domínio e de textos técnico-científicos, medimos o quanto o tratamento destas mesmas questões dificulta o processamento automático, e disponibilizamos para a comunidade de PLN de língua portuguesa um corpus padrão-ouro no que se refere apenas a tokenização e sentenciação, repleto de casos complexos, que serve para avaliação de métodos automáticos de segmentação, contribuindo também para a qualidade das etapas posteriores de processamento.
Název v anglickém jazyce
Word and Sentence Boundaries in Automatic Text Processing
Popis výsledku anglicky
This paper aims to explore the major linguistic challenges involved in the preprocessing of a corpus composed of theses and dissertations from the Oil and Gas domain. Besides posing specific questions related to this domain and to scientific texts, we measured to which extent dealing with these matters hinders the automatic processing. We built a gold standard corpus of tokenization and sentence segmentation comprising several difficult cases, which are now available to the Portuguese NLP community. This corpus can be used to evaluate automatic tokenization methods, as well as to improve the quality of subsequent steps in processing.
Klasifikace
Druh
J<sub>ost</sub> - Ostatní články v recenzovaných periodicích
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
—
Návaznosti
—
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Revista Brasileira de Iniciação Científica
ISSN
2359-232X
e-ISSN
—
Svazek periodika
8
Číslo periodika v rámci svazku
15.10.2021
Stát vydavatele periodika
BR - Brazilská federativní republika
Počet stran výsledku
21
Strana od-do
1-21
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—