Chared

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F11%3A00056802" target="_blank" >RIV/00216224:14330/11:00056802 - isvavai.cz</a>
Výsledek na webu
<a href="http://nlp.fi.muni.cz/projects/chared/" target="_blank" >http://nlp.fi.muni.cz/projects/chared/</a>
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
angličtina
Název v původním jazyce
Chared
Popis výsledku v původním jazyce
Chared is a software tool which can detect character encoding of a text document provided the language of the document is known. The language of the text has to be specified as an input parameter so that the corresponding language model can be used. Thepackage contains models for a wide range of languages (currently 57 --- covering all major languages). Furthermore, it provides a training script to learn models for additional languages using a set of user supplied sample html pages in the given language. The detection algorithm is based on determining similarity of byte trigrams vectors. In general, chared should be more accurate than other character encoding detection tools with no language constraints. This is an important advantage allowing precisecharacter decoding needed for building large textual corpora. The tool has been used for building corpora in American Spanish, Arabic, Czech, French, Japanese, Russian, Tajik, and six Turkic languages consisting of 70 billions tokens alt
Název v anglickém jazyce
Chared
Popis výsledku anglicky
Chared is a software tool which can detect character encoding of a text document provided the language of the document is known. The language of the text has to be specified as an input parameter so that the corresponding language model can be used. Thepackage contains models for a wide range of languages (currently 57 --- covering all major languages). Furthermore, it provides a training script to learn models for additional languages using a set of user supplied sample html pages in the given language. The detection algorithm is based on determining similarity of byte trigrams vectors. In general, chared should be more accurate than other character encoding detection tools with no language constraints. This is an important advantage allowing precisecharacter decoding needed for building large textual corpora. The tool has been used for building corpora in American Spanish, Arabic, Czech, French, Japanese, Russian, Tajik, and six Turkic languages consisting of 70 billions tokens alt

Klasifikace

Druh
R - Software
CEP obor
AI - Jazykověda
OECD FORD obor
—

Návaznosti výsledku

Projekt
<a href="/cs/project/LC536" target="_blank" >LC536: Centrum komputační lingvistiky</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach

Ostatní

Rok uplatnění
2011
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Interní identifikační kód produktu
Chared
Technické parametry
Software pro detekci kódování znaků textových dokumentů. Implementace v jazyce Python. Licence: New BSD License. Odpovědná osoba pro jednání: doc. PhDr. Karel Pala, CSc.; email: pala@fi.muni.cz; telefon: 549495616; adresa: Karel Pala, Fakulta informatikyMasarykovy univerzity, Botanická 68a, 602 00 Brno.
Ekonomické parametry
Díky vyvinutí tohoto nástroje je dosahováno přesnější detekce kódování textových dokumentů ve velkých textových korpusech sestavovaných v Centru zpracování přirrozeného jazyka na Fakultě informatiky Masarykovy univerzity. V případě nasazení méně specializovaného méně přesného nástroje by bylo nutno procházet data ručně a odstraňovat nebo opravovat chybně kódované dokumenty, což by při rozsahu běžně zpracovávaných korpusů v řádu jednotek až desítek miliard slov znamenalo dodatečné náklady na školení a práci kvalifikovaného personálu. Zdrojový kód, dokumentace a další materiály jsou udržovány v anglickém jazyce, čímž je umožněna univerzální přístupnost nástroje. Software byl (v podobě instalačního balíku pro Python) stažen celkem 37 krát (viz http://code.google.com/p/chared/downloads/list, navštíveno 12. 4. 2012) a dále zpřístupněn v podobě kompletního zdrojového kódu a všech natrénovaných modelů. Lze tedy usuzovat, že je testován nebo nasazen dalšími uživateli i mimo Masarykovu univerzitu.
IČO vlastníka výsledku
00216224
Název vlastníka
Masarykova univerzita

Podobné výsledky(10)

chared: Character Encoding Detection with a Known Language Scaling to Billion-plus Word Corpora Manatee/Bonito - A Modular Corpus Manager

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Chared

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)