Towards Perfection of Machine Learning of Competing Patterns: The Use Case of Czechoslovak Patterns Development
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F23%3A00132397" target="_blank" >RIV/00216224:14330/23:00132397 - isvavai.cz</a>
Výsledek na webu
<a href="https://www.fi.muni.cz/usr/sojka/papers/sojka-sojka-raslan-2023.pdf" target="_blank" >https://www.fi.muni.cz/usr/sojka/papers/sojka-sojka-raslan-2023.pdf</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Towards Perfection of Machine Learning of Competing Patterns: The Use Case of Czechoslovak Patterns Development
Popis výsledku v původním jazyce
Finding space- and time-effective even <em>perfect</em> solution to the dictionary problem is an important practical and research problem, which solving may lead to a breakthrough in computation. Competing pattern technology from TeX is a special case, where for a given dictionary a word segmentation is stored in the competing patterns yet with very good generalization quality. Recently, the unreasonable effectiveness of pattern generation has been shown---it is possible to use hyphenation patterns to solve the dictionary problem jointly even for several languages without compromise. <p> In this article, we study the effectiveness of <tt>patgen</tt> for the supervised machine learning of the generation of the Czechoslovak hyphenation patterns. We show the machine learning techniques to develop competing patterns that are close to being perfect. We evaluate the new approach by improvements and space savings we gained during the development and finetuning of Czechoslovak hyphenation patterns.</p>
Název v anglickém jazyce
Towards Perfection of Machine Learning of Competing Patterns: The Use Case of Czechoslovak Patterns Development
Popis výsledku anglicky
Finding space- and time-effective even <em>perfect</em> solution to the dictionary problem is an important practical and research problem, which solving may lead to a breakthrough in computation. Competing pattern technology from TeX is a special case, where for a given dictionary a word segmentation is stored in the competing patterns yet with very good generalization quality. Recently, the unreasonable effectiveness of pattern generation has been shown---it is possible to use hyphenation patterns to solve the dictionary problem jointly even for several languages without compromise. <p> In this article, we study the effectiveness of <tt>patgen</tt> for the supervised machine learning of the generation of the Czechoslovak hyphenation patterns. We show the machine learning techniques to develop competing patterns that are close to being perfect. We evaluate the new approach by improvements and space savings we gained during the development and finetuning of Czechoslovak hyphenation patterns.</p>
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/LM2023062" target="_blank" >LM2023062: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2023
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Recent Advances in Slavonic Natural Language Processing (RASLAN 2023)
ISBN
9788026317937
ISSN
2336-4289
e-ISSN
—
Počet stran výsledku
8
Strana od-do
113-120
Název nakladatele
Tribun EU
Místo vydání
Brno
Místo konání akce
Kouty nad Desnou
Datum konání akce
8. 12. 2023
Typ akce podle státní příslušnosti
EUR - Evropská akce
Kód UT WoS článku
—