A System for Predictive Writing
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F14%3A00077507" target="_blank" >RIV/00216224:14330/14:00077507 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
A System for Predictive Writing
Popis výsledku v původním jazyce
Most predictive writing systems are based on n-gram model with different size. Systems designed for English are easier than those for flective languages since even smaller models allow reasonable coverage. However, the same corpus size is significantly insufficient for languages with many word forms. The paper presents a new predictive writing system based on n-grams calculated from a large corpus. We designed the high-performance server-side script that returns either the most probable endings of a word or the most probable following words. We also designed the client-side script that is suitable for desktop computers without touchscreens. We calculated 150 millions most frequent n-grams for n = 1, . . . , 12 from a Czech corpus and evaluated the writing system on Czech texts. The system was then extended by custom-built model that can consist of domain or user specific n-grams.
Název v anglickém jazyce
A System for Predictive Writing
Popis výsledku anglicky
Most predictive writing systems are based on n-gram model with different size. Systems designed for English are easier than those for flective languages since even smaller models allow reasonable coverage. However, the same corpus size is significantly insufficient for languages with many word forms. The paper presents a new predictive writing system based on n-grams calculated from a large corpus. We designed the high-performance server-side script that returns either the most probable endings of a word or the most probable following words. We also designed the client-side script that is suitable for desktop computers without touchscreens. We calculated 150 millions most frequent n-grams for n = 1, . . . , 12 from a Czech corpus and evaluated the writing system on Czech texts. The system was then extended by custom-built model that can consist of domain or user specific n-grams.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
AI - Jazykověda
OECD FORD obor
—
Návaznosti výsledku
Projekt
—
Návaznosti
S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2014
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Eighth Workshop on Recent Advances in Slavonic Natural Language Processing
ISBN
—
ISSN
2336-4289
e-ISSN
—
Počet stran výsledku
8
Strana od-do
11-18
Název nakladatele
Tribun EU
Místo vydání
Brno
Místo konání akce
Brno
Datum konání akce
1. 1. 2014
Typ akce podle státní příslušnosti
CST - Celostátní akce
Kód UT WoS článku
—