Identifying Novel Information using latent Semantic Analysis in the WiQA Task at CLEF 2006
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F07%3A00502230" target="_blank" >RIV/49777513:23520/07:00502230 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Identifying Novel Information using latent Semantic Analysis in the WiQA Task at CLEF 2006
Popis výsledku v původním jazyce
In our two-stage system for the English monolingual WiQA Task, snippets were first retrieved if they contained an exact match with the title. Candidates were then passed to the Latent Semantic Analysis component which judged them Novel if their match with the article text was less than a threshold. In Run 1, the ten best swnippes were returned and in Run 2 the twenty best. Run 1 was superior, with Average Yield per Topic 2.46 and Precision 0.37. Compared to other groups, our performance was in the middle of the range excerpt for Precision where our system was the best. We attribute this to our use of exact title matches in the IR stage. In future work we will vary the approach used depending on the topic type, exploit co-references in conjuction with exact matches and make use of the elaborate hyperlink stucture which is a unique and most interesting aspect of the Wikipedia.
Název v anglickém jazyce
Identifying Novel Information using latent Semantic Analysis in the WiQA Task at CLEF 2006
Popis výsledku anglicky
In our two-stage system for the English monolingual WiQA Task, snippets were first retrieved if they contained an exact match with the title. Candidates were then passed to the Latent Semantic Analysis component which judged them Novel if their match with the article text was less than a threshold. In Run 1, the ten best swnippes were returned and in Run 2 the twenty best. Run 1 was superior, with Average Yield per Topic 2.46 and Precision 0.37. Compared to other groups, our performance was in the middle of the range excerpt for Precision where our system was the best. We attribute this to our use of exact title matches in the IR stage. In future work we will vary the approach used depending on the topic type, exploit co-references in conjuction with exact matches and make use of the elaborate hyperlink stucture which is a unique and most interesting aspect of the Wikipedia.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—
Návaznosti výsledku
Projekt
—
Návaznosti
S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2007
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Evaluation of Multilingual and Multi-modal Information Retrieval
ISBN
978-3-540-74998-1
ISSN
—
e-ISSN
—
Počet stran výsledku
9
Strana od-do
—
Název nakladatele
Springer
Místo vydání
Berlin
Místo konání akce
Alicante
Datum konání akce
22. 9. 2006
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000250568000066