Suffixové pole pro velkou abecedu
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F08%3A00101220" target="_blank" >RIV/00216208:11320/08:00101220 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Suffix Array for Large Alphabet
Popis výsledku v původním jazyce
Burrows-Wheeler Transform (BWT) is used as the main part in block compression which has a good balance of speed and compression ratio. Suffix arrays are used in the coding phase of BWT and we focus on creating them for an alphabet larger than 256 symbols. The motivation for this work has been software project XBW - an application for compression of large XML files. The role of BWT is to reorder input before applying other algorithms. We describe and implement three families of algorithms for encoding. The first is inspired by the work of Sadakane and further improved by Larsson. The second family includes algorithm by Seward and algorithm by Itoh further improved by Kao. Finally we present algorithm by Karkkainen and Sanders for constructing su+-x arrays in linear time. As our main result we show that for textual data using syllables or words as symbols of alphabet improves both run time and compression ratio of block compression.
Název v anglickém jazyce
Suffix Array for Large Alphabet
Popis výsledku anglicky
Burrows-Wheeler Transform (BWT) is used as the main part in block compression which has a good balance of speed and compression ratio. Suffix arrays are used in the coding phase of BWT and we focus on creating them for an alphabet larger than 256 symbols. The motivation for this work has been software project XBW - an application for compression of large XML files. The role of BWT is to reorder input before applying other algorithms. We describe and implement three families of algorithms for encoding. The first is inspired by the work of Sadakane and further improved by Larsson. The second family includes algorithm by Seward and algorithm by Itoh further improved by Kao. Finally we present algorithm by Karkkainen and Sanders for constructing su+-x arrays in linear time. As our main result we show that for textual data using syllables or words as symbols of alphabet improves both run time and compression ratio of block compression.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2008
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
2008 Data Compression Conference (DCC 2008)
ISBN
0-7695-3121-0
ISSN
—
e-ISSN
—
Počet stran výsledku
1
Strana od-do
—
Název nakladatele
IEEE Computer Society Press
Místo vydání
Snowbird, Utah, USA
Místo konání akce
Snowbird, Utah, USA
Datum konání akce
1. 1. 2008
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000255196800093