N-gram Extraction from Large Datasets
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F08%3A00500256" target="_blank" >RIV/49777513:23520/08:00500256 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Extrakce N-gramů z rozsáhlých textů
Original language description
V úlohách zpracování přirozeného jazyka jsou k reprezentaci textových dokumentů nejčastěji používána jednotlivá slova. Celkové výsledky lze však často vylepšit použitím dalších, sofistikovanějších položek. Mezi ně patří i N-gramy, pro jejichž extrakci byly publikovány algoritmy založené na různých principech. Existující techniky však nejsou primárně určeny pro zpracování velkého objemu dat, což je v současné době zásadní požadavek. V tomto článku prezentujeme lagoritmus pro exttrakci N-gramů z rozsáhlých textových korpusů. Srovnání s jinými přístupy naznačují, že naše řešení dosahuje výrazně lepších výsledků s ohledem na čas a množství zpracovaných dat.
Czech name
Extrakce N-gramů z rozsáhlých textů
Czech description
V úlohách zpracování přirozeného jazyka jsou k reprezentaci textových dokumentů nejčastěji používána jednotlivá slova. Celkové výsledky lze však často vylepšit použitím dalších, sofistikovanějších položek. Mezi ně patří i N-gramy, pro jejichž extrakci byly publikovány algoritmy založené na různých principech. Existující techniky však nejsou primárně určeny pro zpracování velkého objemu dat, což je v současné době zásadní požadavek. V tomto článku prezentujeme lagoritmus pro exttrakci N-gramů z rozsáhlých textových korpusů. Srovnání s jinými přístupy naznačují, že naše řešení dosahuje výrazně lepších výsledků s ohledem na čas a množství zpracovaných dat.
Classification
Type
D - Article in proceedings
CEP classification
JC - Computer hardware and software
OECD FORD branch
—
Result continuities
Project
<a href="/en/project/2C06009" target="_blank" >2C06009: Complex knowledge base tools for natural language communication with the semantic web</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2008
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Article name in the collection
Znalosti 2008
ISBN
978-80-227-2827-0
ISSN
—
e-ISSN
—
Number of pages
12
Pages from-to
—
Publisher name
Vydavateľstvo Slovenskej technickej univerzity
Place of publication
Bratislava
Event location
Bratislava
Event date
Feb 15, 2008
Type of event by nationality
EUR - Evropská akce
UT code for WoS article
—