The Use of N-Grams in Text Categorization
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F08%3A00500455" target="_blank" >RIV/49777513:23520/08:00500455 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
angličtina
Original language name
The Use of N-Grams in Text Categorization
Original language description
This work is focused on the analysis of word n-grams and their influence on document classification. N-grams are compared to itemsets in terms of classification accuracy and extraction complexity. N-gram extraction algorithms are presented as well.
Czech name
Využití N-Gramů při klasifikaci textu
Czech description
Práce se zabývá analýzou vlivu slovních n-gramů na klasifikaci textu. Vliv-n-gramů je srovnán s itemsety z hlediska úspěšnosti klasifikace i náročnosti extrakce. Prezentovány jsou i algoritmy na generování n-gramů, a to i z velmi rozsáhlých dat.
Classification
Type
O - Miscellaneous
CEP classification
JC - Computer hardware and software
OECD FORD branch
—
Result continuities
Project
<a href="/en/project/2C06009" target="_blank" >2C06009: Complex knowledge base tools for natural language communication with the semantic web</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2008
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů