Longest-commonest Match
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F15%3A00080952" target="_blank" >RIV/00216224:14330/15:00080952 - isvavai.cz</a>
Výsledek na webu
<a href="https://elex.link/elex2015/proceedings/eLex_2015_26_Kilgarriff+etal.pdf" target="_blank" >https://elex.link/elex2015/proceedings/eLex_2015_26_Kilgarriff+etal.pdf</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Longest-commonest Match
Popis výsledku v původním jazyce
Finding two-word collocations is a well-studied task within natural language processing. The result of this task for a given headword is usually a list of collocations sorted by a salience score. In corpus manager Sketch Engine, these pairs are extractedfrom data using a word sketch grammar relation rules and log-dice statistics resulting in a sorted list of triples . The longest?commonest match is a straightforward extension of these two-word collocations into multiword expressions. The resulting expressions are also very useful for representing the most common realisation of the collocational pair and to facilitate the interpretation of the raw triplet because sometimes, for such a triple, it is not clear from what texts it comes. We present here analgorithm behind the longest?commonest match together with a simple evaluation. The longest?commonest match is already implemented in Sketch Engine.
Název v anglickém jazyce
Longest-commonest Match
Popis výsledku anglicky
Finding two-word collocations is a well-studied task within natural language processing. The result of this task for a given headword is usually a list of collocations sorted by a salience score. In corpus manager Sketch Engine, these pairs are extractedfrom data using a word sketch grammar relation rules and log-dice statistics resulting in a sorted list of triples . The longest?commonest match is a straightforward extension of these two-word collocations into multiword expressions. The resulting expressions are also very useful for representing the most common realisation of the collocational pair and to facilitate the interpretation of the raw triplet because sometimes, for such a triple, it is not clear from what texts it comes. We present here analgorithm behind the longest?commonest match together with a simple evaluation. The longest?commonest match is already implemented in Sketch Engine.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2015
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Electronic lexicography in the 21st century: linking lexical data in the digital age. Proceedings of the eLex 2015 conference, 11-13 August 2015, Herstmonceux Castle, United Kingdom.
ISBN
9789619359433
ISSN
—
e-ISSN
—
Počet stran výsledku
8
Strana od-do
397-404
Název nakladatele
Trojina, Institute for Applied Slovene Studies
Místo vydání
Jlubljana
Místo konání akce
Herstmonceux
Datum konání akce
1. 1. 2015
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—