Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Finding Terms in Corpora for Many Languages with the Sketch Engine

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F14%3A00075387" target="_blank" >RIV/00216224:14330/14:00075387 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://aclweb.org/anthology/E/E14/E14-2014.pdf" target="_blank" >http://aclweb.org/anthology/E/E14/E14-2014.pdf</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Finding Terms in Corpora for Many Languages with the Sketch Engine

  • Popis výsledku v původním jazyce

    Term candidates for a domain, in a language, can be found by taking a corpus for the domain, and a refer- ence corpus for the language identifying the grammatical shape of a term in the language tokenising, lemmatising and POS-tagging both corpora identifying (and counting) the items in each corpus which match the grammatical shape for each item in the domain corpus, compar- ing its frequency with its frequency in the refence corpus. Then, the items with the highest frequency in the domain corpus in comparison to the reference cor- pus will be the top term candidates. None of the steps above are unusual or innova- tive for NLP (see, e. g., (Aker et al., 2013), (Go- jun et al., 2012)). However it is far from trivial to implement them all, for numerous languages, in an environment that makes it easy for non- programmers to find the terms in a domain. This is what we have done in the Sketch Engine (Kilgarriff et al., 2004), and will demonstrate.

  • Název v anglickém jazyce

    Finding Terms in Corpora for Many Languages with the Sketch Engine

  • Popis výsledku anglicky

    Term candidates for a domain, in a language, can be found by taking a corpus for the domain, and a refer- ence corpus for the language identifying the grammatical shape of a term in the language tokenising, lemmatising and POS-tagging both corpora identifying (and counting) the items in each corpus which match the grammatical shape for each item in the domain corpus, compar- ing its frequency with its frequency in the refence corpus. Then, the items with the highest frequency in the domain corpus in comparison to the reference cor- pus will be the top term candidates. None of the steps above are unusual or innova- tive for NLP (see, e. g., (Aker et al., 2013), (Go- jun et al., 2012)). However it is far from trivial to implement them all, for numerous languages, in an environment that makes it easy for non- programmers to find the terms in a domain. This is what we have done in the Sketch Engine (Kilgarriff et al., 2004), and will demonstrate.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    IN - Informatika

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/LM2010013" target="_blank" >LM2010013: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach

Ostatní

  • Rok uplatnění

    2014

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Proceedings of the Demonstrations at the 14th Conferencethe European Chapter of the Association for Computational Linguistics

  • ISBN

    9781937284756

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    4

  • Strana od-do

    53-56

  • Název nakladatele

    The Association for Computational Linguistics

  • Místo vydání

    Gothenburg, Sweden

  • Místo konání akce

    Gothenburg, Sweden

  • Datum konání akce

    1. 1. 2014

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku