Slovenské vzory dělení: čas pro změnu?
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F04%3A00010851" target="_blank" >RIV/00216224:14330/04:00010851 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Slovenské vzory dělení: čas pro změnu?
Popis výsledku v původním jazyce
Dělení slov neboli algoritmická segmentace velké množiny řetězců nějakého jazyka je problém častější než by se na první pohled zdálo. Pro volně šiřitelné slovenské dělení slov zatím existuje pouze řešení vycházející z~definice slabiky ve slovenštině, bezrozsáhlého pokrytí výjimek. Z~více než miliónu shromážděných a rozdělených slov se podařilo vygenerovat programem PatGen nové volně šiřitelné vzory, které se s~nepravidelnostmi jazyka vyrovnávají lépe než dosud dostupné řešení. Výsledek je použitelný nejen v~distribucích TeXu, ale i v~dalších systémech jako například OpenOffice.org. Použité a diskutované techniky bootstrappingu, stratifikace a generování vzorů jsou použitelné při řešení širokého spektra dalších segmentačních aplikací.
Název v anglickém jazyce
Slovak Hyphenation: a Time for Change?
Popis výsledku anglicky
Hyphenation, or more generally algorithmic segmentation of big wordlist of some language is frequent problem. For Slovak language, there is only version based on the syllable principle available, without coverage of many exceptions. From a wordlist of million collected words we have generated by the PatGen program new freely available patterns that fill this gap. The result is directly usable not only in TeX distributions, but in other systems as well (OpenOffice.org). The techniques of bootstrapping, stratification and patterns generation are handy for solution of plenty of various segmentation tasks.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
—
Návaznosti
Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2004
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
SLT 2004, sborník 4.ročníku semináře o Linuxu a TeXu
ISBN
80-7302-068-8
ISSN
—
e-ISSN
—
Počet stran výsledku
6
Strana od-do
67-72
Název nakladatele
Konvoj
Místo vydání
Brno
Místo konání akce
Znojmo
Datum konání akce
24. 6. 2004
Typ akce podle státní příslušnosti
EUR - Evropská akce
Kód UT WoS článku
—