Word and Sentence Boundaries in Automatic Text Processing

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A90101%2F21%3A10441926" target="_blank" >RIV/00216208:90101/21:10441926 - isvavai.cz</a>
Výsledek na webu
<a href="https://verso.is.cuni.cz/pub/verso.fpl?fname=obd_publikace_handle&handle=OrDcTI_9UH" target="_blank" >https://verso.is.cuni.cz/pub/verso.fpl?fname=obd_publikace_handle&handle=OrDcTI_9UH</a>
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
portugalština
Název v původním jazyce
Os limites da palavra e da sentença no processamento automático de textos
Popis výsledku v původním jazyce
Este trabalho tem como objetivo apresentar os principais desafios linguísticos envolvidos na etapa de pré-processamento de um corpus composto por teses e dissertações da área de petróleo e gás. Como resultado, além do levantamento de questões específicas do domínio e de textos técnico-científicos, medimos o quanto o tratamento destas mesmas questões dificulta o processamento automático, e disponibilizamos para a comunidade de PLN de língua portuguesa um corpus padrão-ouro no que se refere apenas a tokenização e sentenciação, repleto de casos complexos, que serve para avaliação de métodos automáticos de segmentação, contribuindo também para a qualidade das etapas posteriores de processamento.
Název v anglickém jazyce
Word and Sentence Boundaries in Automatic Text Processing
Popis výsledku anglicky
This paper aims to explore the major linguistic challenges involved in the preprocessing of a corpus composed of theses and dissertations from the Oil and Gas domain. Besides posing specific questions related to this domain and to scientific texts, we measured to which extent dealing with these matters hinders the automatic processing. We built a gold standard corpus of tokenization and sentence segmentation comprising several difficult cases, which are now available to the Portuguese NLP community. This corpus can be used to evaluate automatic tokenization methods, as well as to improve the quality of subsequent steps in processing.

Klasifikace

Druh
J<sub>ost</sub> - Ostatní články v recenzovaných periodicích
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

Projekt
—
Návaznosti
—

Ostatní

Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Název periodika
Revista Brasileira de Iniciação Científica
ISSN
2359-232X
e-ISSN
—
Svazek periodika
8
Číslo periodika v rámci svazku
15.10.2021
Stát vydavatele periodika
BR - Brazilská federativní republika
Počet stran výsledku
21
Strana od-do
1-21
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—

Podobné výsledky(10)

Dialogy o elektrorozvodných sítích - automatická analýza a vyhodnocení doménově specifického korpusu textů General framework for mining, processing and storing large amounts of electronic texts for language modeling purposes The Joy of Parallelism with CzEng 1.0

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Word and Sentence Boundaries in Automatic Text Processing

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)