Extrakce N-gramů z rozsáhlých textů
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F08%3A00500256" target="_blank" >RIV/49777513:23520/08:00500256 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Extrakce N-gramů z rozsáhlých textů
Popis výsledku v původním jazyce
V úlohách zpracování přirozeného jazyka jsou k reprezentaci textových dokumentů nejčastěji používána jednotlivá slova. Celkové výsledky lze však často vylepšit použitím dalších, sofistikovanějších položek. Mezi ně patří i N-gramy, pro jejichž extrakci byly publikovány algoritmy založené na různých principech. Existující techniky však nejsou primárně určeny pro zpracování velkého objemu dat, což je v současné době zásadní požadavek. V tomto článku prezentujeme lagoritmus pro exttrakci N-gramů z rozsáhlých textových korpusů. Srovnání s jinými přístupy naznačují, že naše řešení dosahuje výrazně lepších výsledků s ohledem na čas a množství zpracovaných dat.
Název v anglickém jazyce
N-gram Extraction from Large Datasets
Popis výsledku anglicky
In this paper, we present an algotihm for N-gram extraction from large datasets. To examine the overall time and memory complexities of our algorithm we employed the "Web 1T 5-gram Version 1" corpus released by Google. The experiments indicate that our approach reaches outstanding results among other available solutions in terms of speed and amount of processed data.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/2C06009" target="_blank" >2C06009: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2008
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Znalosti 2008
ISBN
978-80-227-2827-0
ISSN
—
e-ISSN
—
Počet stran výsledku
12
Strana od-do
—
Název nakladatele
Vydavateľstvo Slovenskej technickej univerzity
Místo vydání
Bratislava
Místo konání akce
Bratislava
Datum konání akce
15. 2. 2008
Typ akce podle státní příslušnosti
EUR - Evropská akce
Kód UT WoS článku
—