Databáze překladových ekvivalentů Treq 2.0
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F17%3A10366980" target="_blank" >RIV/00216208:11210/17:10366980 - isvavai.cz</a>
Výsledek na webu
<a href="https://wiki.korpus.cz/doku.php/manualy:treq" target="_blank" >https://wiki.korpus.cz/doku.php/manualy:treq</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Databáze překladových ekvivalentů Treq 2.0
Popis výsledku v původním jazyce
Treq je sbírka oboustranných česko-cizojazyčných slovníků, vytvořených automaticky z paralelního korpusu InterCorp. Originální a překladové texty jsou nejprve na základě statistických výpočtů zarovnány po slovech pomocí programu GIZA++. Zarovnané dvojice slov jsou pak setříděny a sumarizovány. Výsledek automatické excerpce není nijak revidován, jako ukazatel relevance překladového ekvivalentu však může posloužit relativní frekvence příslušné dvojice slov. Čím častěji se ekvivalent zadaného slova vyskytl ve srovnání s ostatními ekvivalenty, tím větší je pravděpodobnost, že je funkční. Ve verzi 2.0 můžeme kromě jednotlivých slov vyhledávat i víceslovnou jednotku a využít při hledání regulární výrazy. Můžeme si také vybrat, zda má být výsledek založen na překladech beletristického jádra, jednotlivých kolekcí, nebo všech textů v InterCorpu. Databáze vychází z 9. vydání korpusu InterCorp.
Název v anglickém jazyce
Treq - Translation Equivalents Database 2.0
Popis výsledku anglicky
Treq - Translation Equivalents Database R44 Popis anglicky Treq is a collection of bilingual Czech-foreign language dictionaries, built automatically from the InterCorp parallel corpus. The first step was to align the original and translated texts word-to-word using statistical methods provided by the GIZA++ program. The aligned word pairs were then sorted and summarized. The results of the automatic excerption were not reviewed; however, the relative frequency of a given pair may serve as an approximate indicator of reliability. The more often an equivalent of a given word occurs in comparison with other equivalents, the more useful it may be. In release 2.0, the queries accept regular expressions and multi-word units in addition to individual words. We can also choose whether the result should be based on translations of the core, individual collections, or all InterCorp texts. The database is extracted from InterCorp release 9.
Klasifikace
Druh
R - Software
CEP obor
—
OECD FORD obor
60203 - Linguistics
Návaznosti výsledku
Projekt
<a href="/cs/project/LM2015044" target="_blank" >LM2015044: Český národní korpus</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2017
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
Treq 2.0
Technické parametry
https://github.com/czcorpus/Treq
Ekonomické parametry
Aplikace je nasazena na http://treq.korpus.cz , průměrný počet uživatelských interakcí vyhodnocených Treqem se pohybuje okolo 450 denně.
IČO vlastníka výsledku
00216208
Název vlastníka
Univerzita Karlova v Praze