Sentence compression for the LSA-based summarizer
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F06%3A00000632" target="_blank" >RIV/49777513:23520/06:00000632 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
angličtina
Original language name
Sentence compression for the LSA-based summarizer
Original language description
We present a simple sentence compression approach for our summarizer based on latent semantic analysis (LSA). The summarization method assesses each sentence by an LSA score. The compression algorithm removes unimportant clauses from a full sentence. Firstly, a sentence is divided into clauses by Charniak parser,then compresion cnadidates are generated and finally, the best cnadiate is selected to represent the sentence. The candidates gain an impotance score which is directly proportional to its LSA score and indirectly to its length. We evaluated the approach in two ways. By intrinsic evaluation we found that the compressions produced by our algorithm are better than bvaseline ones but still worse than what humans can make. Then we compared the resulting sumaries with human abstracts by a standard n-gram based ROUGE measure.
Czech name
Komprese vět pro sumarizátor založený na LSA
Czech description
Prezentujeme jednoduchý přístup ke kompresi vět pro náš sumarizátor, který je založen na latentní sémantické analýze. Sumarizační metoda ohodnocuje každou větu LSA skórem. Kompresní algoritmus odstraňuje nepotřebné vedlejší věty ze souvětí. Nejprve je souvětí rozděleno na jednoduché věty Charniak parserem, potom jsou vygenerováni kandidáti komprese (možné finální podoby souvětí po kompresi) a nakonec nejlepší kandidát je vybrán pro reprezentaci souvětí. Kandidáti jsou ohodnoceni skórem, které je přímo úměrné LSA skóre a nepřímo úměrné délce kandidáta (v počtu slov). Při vyhodnocení jsme zjistili, že komprese produkované tímto algoritmem jsou lepší než b
Classification
Type
D - Article in proceedings
CEP classification
JC - Computer hardware and software
OECD FORD branch
—
Result continuities
Project
—
Continuities
S - Specificky vyzkum na vysokych skolach
Others
Publication year
2006
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Article name in the collection
Information systems implementation and modelling
ISBN
80-86840-19-0
ISSN
—
e-ISSN
—
Number of pages
8
Pages from-to
141-148
Publisher name
MARQ
Place of publication
Ostrava
Event location
Přerov
Event date
Jan 1, 2006
Type of event by nationality
EUR - Evropská akce
UT code for WoS article
—