Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Optimization of Regular Expression Evaluation within the Manatee Corpus Management System

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F14%3A00077511" target="_blank" >RIV/00216224:14330/14:00077511 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Optimization of Regular Expression Evaluation within the Manatee Corpus Management System

  • Popis výsledku v původním jazyce

    This paper is concerned with searching large text corpora ? electronic collections of texts. Often these are subject to queries specified by means of regular expressions. Such queries go beyond a simple keyword search that can be quickly evaluated usingan inverted index, usually they are rather processed by third-party regular expression libraries and take significantly more time to evaluate. In this paper we present an index-based approach for optimization of regular expression evaluation that we calln-gram prefetching. It is based on the assumption that most regular expression queries on text corpora contain at least some fixed string portions representing clues that can be used for developing heuristics that would prune the number of potentially matching strings. The presented work has been designed and implemented within the Manatee corpus management system.

  • Název v anglickém jazyce

    Optimization of Regular Expression Evaluation within the Manatee Corpus Management System

  • Popis výsledku anglicky

    This paper is concerned with searching large text corpora ? electronic collections of texts. Often these are subject to queries specified by means of regular expressions. Such queries go beyond a simple keyword search that can be quickly evaluated usingan inverted index, usually they are rather processed by third-party regular expression libraries and take significantly more time to evaluate. In this paper we present an index-based approach for optimization of regular expression evaluation that we calln-gram prefetching. It is based on the assumption that most regular expression queries on text corpora contain at least some fixed string portions representing clues that can be used for developing heuristics that would prune the number of potentially matching strings. The presented work has been designed and implemented within the Manatee corpus management system.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    IN - Informatika

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/LM2010013" target="_blank" >LM2010013: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach

Ostatní

  • Rok uplatnění

    2014

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Eighth Workshop on Recent Advances in Slavonic Natural Language Processing

  • ISBN

  • ISSN

    2336-4289

  • e-ISSN

  • Počet stran výsledku

    12

  • Strana od-do

    37-48

  • Název nakladatele

    Tribun EU

  • Místo vydání

    Brno

  • Místo konání akce

    Brno

  • Datum konání akce

    1. 1. 2014

  • Typ akce podle státní příslušnosti

    CST - Celostátní akce

  • Kód UT WoS článku