Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Kvantitativní charakteristiky termínů

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F17%3A10360105" target="_blank" >RIV/00216208:11210/17:10360105 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Kvantitativní charakteristiky termínů

  • Popis výsledku v původním jazyce

    Kniha představuje novou metodu automatického vyhledávání termínů v odborných textech, která je založena na data miningu, tedy na vytěžování informací z velkých objemů (korpusových) dat. Výzkum je zaměřen nejen na samotnou úspěšnost rozpoznávání, tedy na co nejvyšší počet správně vyhledaných termínů, ale v první řadě na vlastnosti, které při identifikaci jednoslovných a víceslovných termínů hrají nejdůležitější roli. Tím přispívá k prohloubení našich znalostí o termínech a o terminologii obecně. Můžeme kostatovat, že automatické vyhledávání jazykových jevů může přispět k jejich bližšímu poznání a že i čistě kvantitativní přístup, jako je data mining, je vyodný pro zkoumání lingvistického (korpusového) materiálu.

  • Název v anglickém jazyce

    Quantitative Characteristics of Terms

  • Popis výsledku anglicky

    The new method of automatic term recognition TERMIT is focused not only on the high number of correctly labeled terms, but also on the most important attributes of a term (in terms of their role in automatic term identification process). The method is based on data mining, i.e. finding meaningful information in very large corpus data. It was able to both successfuly identify terms in academic texts and find constitutive features of a term as a terminological unit. The single-word term (SWT) can be characterized as a word with a low frequency in corpus (SYN2010) that occurs considerably more often in specialized texts of a given field than in non-academic texts, occurs in a small number of academic disciplines, its distribution in the corpus (SYN2010) is uneven as is the distance between its two instances. The multi-word term (MWT) is a stable collocation consisting of words with low frequency and contains at least one (and often more) single-word term. Based on the characteristics of SWT and MWT, it is possible to classify individual tokens in texts as terms or non-terms with a success rate of more than 95 %. Automatically identified terms can be used to identify percentage of SWT or MWT in different academic disciplines, as well as find terms shared by two or more domains in order to assess their relationship. In general, we can conclude that an automatic recognition of a languge phenomenon can contribute to its haracterization and that a purely quantitative approach (such as data mining) can be used to research linguistic (corpus) material.

Klasifikace

  • Druh

    B - Odborná kniha

  • CEP obor

  • OECD FORD obor

    60203 - Linguistics

Návaznosti výsledku

  • Projekt

  • Návaznosti

    I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace

Ostatní

  • Rok uplatnění

    2017

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • ISBN

    978-80-7422-561-1

  • Počet stran knihy

    128

  • Název nakladatele

    Nakladatelství Lidové noviny - Český národní korpus

  • Místo vydání

    Praha

  • Kód UT WoS knihy