Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F11%3A00056802" target="_blank" >RIV/00216224:14330/11:00056802 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://nlp.fi.muni.cz/projects/chared/" target="_blank" >http://nlp.fi.muni.cz/projects/chared/</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Chared

  • Popis výsledku v původním jazyce

    Chared is a software tool which can detect character encoding of a text document provided the language of the document is known. The language of the text has to be specified as an input parameter so that the corresponding language model can be used. Thepackage contains models for a wide range of languages (currently 57 --- covering all major languages). Furthermore, it provides a training script to learn models for additional languages using a set of user supplied sample html pages in the given language. The detection algorithm is based on determining similarity of byte trigrams vectors. In general, chared should be more accurate than other character encoding detection tools with no language constraints. This is an important advantage allowing precisecharacter decoding needed for building large textual corpora. The tool has been used for building corpora in American Spanish, Arabic, Czech, French, Japanese, Russian, Tajik, and six Turkic languages consisting of 70 billions tokens alt

  • Název v anglickém jazyce

    Chared

  • Popis výsledku anglicky

    Chared is a software tool which can detect character encoding of a text document provided the language of the document is known. The language of the text has to be specified as an input parameter so that the corresponding language model can be used. Thepackage contains models for a wide range of languages (currently 57 --- covering all major languages). Furthermore, it provides a training script to learn models for additional languages using a set of user supplied sample html pages in the given language. The detection algorithm is based on determining similarity of byte trigrams vectors. In general, chared should be more accurate than other character encoding detection tools with no language constraints. This is an important advantage allowing precisecharacter decoding needed for building large textual corpora. The tool has been used for building corpora in American Spanish, Arabic, Czech, French, Japanese, Russian, Tajik, and six Turkic languages consisting of 70 billions tokens alt

Klasifikace

  • Druh

    R - Software

  • CEP obor

    AI - Jazykověda

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/LC536" target="_blank" >LC536: Centrum komputační lingvistiky</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach

Ostatní

  • Rok uplatnění

    2011

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    Chared

  • Technické parametry

    Software pro detekci kódování znaků textových dokumentů. Implementace v jazyce Python. Licence: New BSD License. Odpovědná osoba pro jednání: doc. PhDr. Karel Pala, CSc.; email: pala@fi.muni.cz; telefon: 549495616; adresa: Karel Pala, Fakulta informatikyMasarykovy univerzity, Botanická 68a, 602 00 Brno.

  • Ekonomické parametry

    Díky vyvinutí tohoto nástroje je dosahováno přesnější detekce kódování textových dokumentů ve velkých textových korpusech sestavovaných v Centru zpracování přirrozeného jazyka na Fakultě informatiky Masarykovy univerzity. V případě nasazení méně specializovaného méně přesného nástroje by bylo nutno procházet data ručně a odstraňovat nebo opravovat chybně kódované dokumenty, což by při rozsahu běžně zpracovávaných korpusů v řádu jednotek až desítek miliard slov znamenalo dodatečné náklady na školení a práci kvalifikovaného personálu. Zdrojový kód, dokumentace a další materiály jsou udržovány v anglickém jazyce, čímž je umožněna univerzální přístupnost nástroje. Software byl (v podobě instalačního balíku pro Python) stažen celkem 37 krát (viz http://code.google.com/p/chared/downloads/list, navštíveno 12. 4. 2012) a dále zpřístupněn v podobě kompletního zdrojového kódu a všech natrénovaných modelů. Lze tedy usuzovat, že je testován nebo nasazen dalšími uživateli i mimo Masarykovu univerzitu.

  • IČO vlastníka výsledku

    00216224

  • Název vlastníka

    Masarykova univerzita