Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F11%3A00056802" target="_blank" >RIV/00216224:14330/11:00056802 - isvavai.cz</a>
Výsledek na webu
<a href="http://nlp.fi.muni.cz/projects/chared/" target="_blank" >http://nlp.fi.muni.cz/projects/chared/</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Chared
Popis výsledku v původním jazyce
Chared is a software tool which can detect character encoding of a text document provided the language of the document is known. The language of the text has to be specified as an input parameter so that the corresponding language model can be used. Thepackage contains models for a wide range of languages (currently 57 --- covering all major languages). Furthermore, it provides a training script to learn models for additional languages using a set of user supplied sample html pages in the given language. The detection algorithm is based on determining similarity of byte trigrams vectors. In general, chared should be more accurate than other character encoding detection tools with no language constraints. This is an important advantage allowing precisecharacter decoding needed for building large textual corpora. The tool has been used for building corpora in American Spanish, Arabic, Czech, French, Japanese, Russian, Tajik, and six Turkic languages consisting of 70 billions tokens alt
Název v anglickém jazyce
Chared
Popis výsledku anglicky
Chared is a software tool which can detect character encoding of a text document provided the language of the document is known. The language of the text has to be specified as an input parameter so that the corresponding language model can be used. Thepackage contains models for a wide range of languages (currently 57 --- covering all major languages). Furthermore, it provides a training script to learn models for additional languages using a set of user supplied sample html pages in the given language. The detection algorithm is based on determining similarity of byte trigrams vectors. In general, chared should be more accurate than other character encoding detection tools with no language constraints. This is an important advantage allowing precisecharacter decoding needed for building large textual corpora. The tool has been used for building corpora in American Spanish, Arabic, Czech, French, Japanese, Russian, Tajik, and six Turkic languages consisting of 70 billions tokens alt
Klasifikace
Druh
R - Software
CEP obor
AI - Jazykověda
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/LC536" target="_blank" >LC536: Centrum komputační lingvistiky</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2011
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
Chared
Technické parametry
Software pro detekci kódování znaků textových dokumentů. Implementace v jazyce Python. Licence: New BSD License. Odpovědná osoba pro jednání: doc. PhDr. Karel Pala, CSc.; email: pala@fi.muni.cz; telefon: 549495616; adresa: Karel Pala, Fakulta informatikyMasarykovy univerzity, Botanická 68a, 602 00 Brno.
Ekonomické parametry
Díky vyvinutí tohoto nástroje je dosahováno přesnější detekce kódování textových dokumentů ve velkých textových korpusech sestavovaných v Centru zpracování přirrozeného jazyka na Fakultě informatiky Masarykovy univerzity. V případě nasazení méně specializovaného méně přesného nástroje by bylo nutno procházet data ručně a odstraňovat nebo opravovat chybně kódované dokumenty, což by při rozsahu běžně zpracovávaných korpusů v řádu jednotek až desítek miliard slov znamenalo dodatečné náklady na školení a práci kvalifikovaného personálu. Zdrojový kód, dokumentace a další materiály jsou udržovány v anglickém jazyce, čímž je umožněna univerzální přístupnost nástroje. Software byl (v podobě instalačního balíku pro Python) stažen celkem 37 krát (viz http://code.google.com/p/chared/downloads/list, navštíveno 12. 4. 2012) a dále zpřístupněn v podobě kompletního zdrojového kódu a všech natrénovaných modelů. Lze tedy usuzovat, že je testován nebo nasazen dalšími uživateli i mimo Masarykovu univerzitu.
IČO vlastníka výsledku
00216224
Název vlastníka
Masarykova univerzita