A New Approach to Pseudoword Generation
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F10%3APU89518" target="_blank" >RIV/00216305:26230/10:PU89518 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
A New Approach to Pseudoword Generation
Popis výsledku v původním jazyce
Sense-tagged corpora are used to evaluate word sense disambiguation (WSD)systems. Manual creation of such resources is often prohibitively expensive.That is why the concept of pseudowords - conflations of two or moreunambiguous words - has been integrated into WSD evaluation experiments. Thispaper presents a new method of pseudoword generation which takes into accountsemantic-relatedness of the candidate words forming parts of the pseudowords tothe particular senses of the word to be disambiguated. We compare the newapproach to its alternatives and show that the results on pseudowords, that aremore similar to real ambiguous words, better correspond to the actual results.Two techniques assessing the similarity are studied - the first one takesadvantageof manually created dictionaries (wordnets), the second one builds onthe automatically computed statistical data obtained from large corpora. Prosand cons of the two techniques are discussed and the results on a standard taskare demonstra
Název v anglickém jazyce
A New Approach to Pseudoword Generation
Popis výsledku anglicky
Sense-tagged corpora are used to evaluate word sense disambiguation (WSD)systems. Manual creation of such resources is often prohibitively expensive.That is why the concept of pseudowords - conflations of two or moreunambiguous words - has been integrated into WSD evaluation experiments. Thispaper presents a new method of pseudoword generation which takes into accountsemantic-relatedness of the candidate words forming parts of the pseudowords tothe particular senses of the word to be disambiguated. We compare the newapproach to its alternatives and show that the results on pseudowords, that aremore similar to real ambiguous words, better correspond to the actual results.Two techniques assessing the similarity are studied - the first one takesadvantageof manually created dictionaries (wordnets), the second one builds onthe automatically computed statistical data obtained from large corpora. Prosand cons of the two techniques are discussed and the results on a standard taskare demonstra
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/7E10054" target="_blank" >7E10054: Medical EcoSystem-Personalized Event-Based Suveillance</a><br>
Návaznosti
Z - Vyzkumny zamer (s odkazem do CEZ)<br>S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2010
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC'10)
ISBN
2-9517408-6-7
ISSN
—
e-ISSN
—
Počet stran výsledku
5
Strana od-do
—
Název nakladatele
European Language Resources Association
Místo vydání
Valletta
Místo konání akce
Valletta
Datum konání akce
17. 5. 2010
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—