Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Databáze překladových ekvivalentů Treq 2.0

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F17%3A10366980" target="_blank" >RIV/00216208:11210/17:10366980 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://wiki.korpus.cz/doku.php/manualy:treq" target="_blank" >https://wiki.korpus.cz/doku.php/manualy:treq</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Databáze překladových ekvivalentů Treq 2.0

  • Popis výsledku v původním jazyce

    Treq je sbírka oboustranných česko-cizojazyčných slovníků, vytvořených automaticky z paralelního korpusu InterCorp. Originální a překladové texty jsou nejprve na základě statistických výpočtů zarovnány po slovech pomocí programu GIZA++. Zarovnané dvojice slov jsou pak setříděny a sumarizovány. Výsledek automatické excerpce není nijak revidován, jako ukazatel relevance překladového ekvivalentu však může posloužit relativní frekvence příslušné dvojice slov. Čím častěji se ekvivalent zadaného slova vyskytl ve srovnání s ostatními ekvivalenty, tím větší je pravděpodobnost, že je funkční. Ve verzi 2.0 můžeme kromě jednotlivých slov vyhledávat i víceslovnou jednotku a využít při hledání regulární výrazy. Můžeme si také vybrat, zda má být výsledek založen na překladech beletristického jádra, jednotlivých kolekcí, nebo všech textů v InterCorpu. Databáze vychází z 9. vydání korpusu InterCorp.

  • Název v anglickém jazyce

    Treq - Translation Equivalents Database 2.0

  • Popis výsledku anglicky

    Treq - Translation Equivalents Database R44 Popis anglicky Treq is a collection of bilingual Czech-foreign language dictionaries, built automatically from the InterCorp parallel corpus. The first step was to align the original and translated texts word-to-word using statistical methods provided by the GIZA++ program. The aligned word pairs were then sorted and summarized. The results of the automatic excerption were not reviewed; however, the relative frequency of a given pair may serve as an approximate indicator of reliability. The more often an equivalent of a given word occurs in comparison with other equivalents, the more useful it may be. In release 2.0, the queries accept regular expressions and multi-word units in addition to individual words. We can also choose whether the result should be based on translations of the core, individual collections, or all InterCorp texts. The database is extracted from InterCorp release 9.

Klasifikace

  • Druh

    R - Software

  • CEP obor

  • OECD FORD obor

    60203 - Linguistics

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/LM2015044" target="_blank" >LM2015044: Český národní korpus</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2017

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    Treq 2.0

  • Technické parametry

    https://github.com/czcorpus/Treq

  • Ekonomické parametry

    Aplikace je nasazena na http://treq.korpus.cz , průměrný počet uživatelských interakcí vyhodnocených Treqem se pohybuje okolo 450 denně.

  • IČO vlastníka výsledku

    00216208

  • Název vlastníka

    Univerzita Karlova v Praze