Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Longest-commonest Match

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F15%3A00080952" target="_blank" >RIV/00216224:14330/15:00080952 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://elex.link/elex2015/proceedings/eLex_2015_26_Kilgarriff+etal.pdf" target="_blank" >https://elex.link/elex2015/proceedings/eLex_2015_26_Kilgarriff+etal.pdf</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Longest-commonest Match

  • Popis výsledku v původním jazyce

    Finding two-word collocations is a well-studied task within natural language processing. The result of this task for a given headword is usually a list of collocations sorted by a salience score. In corpus manager Sketch Engine, these pairs are extractedfrom data using a word sketch grammar relation rules and log-dice statistics resulting in a sorted list of triples . The longest?commonest match is a straightforward extension of these two-word collocations into multiword expressions. The resulting expressions are also very useful for representing the most common realisation of the collocational pair and to facilitate the interpretation of the raw triplet because sometimes, for such a triple, it is not clear from what texts it comes. We present here analgorithm behind the longest?commonest match together with a simple evaluation. The longest?commonest match is already implemented in Sketch Engine.

  • Název v anglickém jazyce

    Longest-commonest Match

  • Popis výsledku anglicky

    Finding two-word collocations is a well-studied task within natural language processing. The result of this task for a given headword is usually a list of collocations sorted by a salience score. In corpus manager Sketch Engine, these pairs are extractedfrom data using a word sketch grammar relation rules and log-dice statistics resulting in a sorted list of triples . The longest?commonest match is a straightforward extension of these two-word collocations into multiword expressions. The resulting expressions are also very useful for representing the most common realisation of the collocational pair and to facilitate the interpretation of the raw triplet because sometimes, for such a triple, it is not clear from what texts it comes. We present here analgorithm behind the longest?commonest match together with a simple evaluation. The longest?commonest match is already implemented in Sketch Engine.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    IN - Informatika

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach

Ostatní

  • Rok uplatnění

    2015

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Electronic lexicography in the 21st century: linking lexical data in the digital age. Proceedings of the eLex 2015 conference, 11-13 August 2015, Herstmonceux Castle, United Kingdom.

  • ISBN

    9789619359433

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    8

  • Strana od-do

    397-404

  • Název nakladatele

    Trojina, Institute for Applied Slovene Studies

  • Místo vydání

    Jlubljana

  • Místo konání akce

    Herstmonceux

  • Datum konání akce

    1. 1. 2015

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku