Acceleration of dRMSD Calculation and Efficient Usage of GPU Caches
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F15%3A00083460" target="_blank" >RIV/00216224:14330/15:00083460 - isvavai.cz</a>
Výsledek na webu
<a href="http://dx.doi.org/10.1109/HPCSim.2015.7237020" target="_blank" >http://dx.doi.org/10.1109/HPCSim.2015.7237020</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/HPCSim.2015.7237020" target="_blank" >10.1109/HPCSim.2015.7237020</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Acceleration of dRMSD Calculation and Efficient Usage of GPU Caches
Popis výsledku v původním jazyce
In this paper, we introduce the GPU acceleration of dRMSD algorithm, used to compare different structures of a molecule. Comparing to multithreaded CPU implementation, we have reached 13.4x speedup in clustering and 62.7x speedup in 1:1 dRMSD computationusing mid-end GPU. The dRMSD computation exposes strong memory locality and thus is compute-bound. Along with conservative implementation using shared memory, we have decided to implement variants of the algorithm using GPU caches to maintain memory locality. Our implementation using cache reaches 96.5 % and 91.6 % of shared memory performance on Fermi and Maxwell, respectively. We have identified several performance pitfalls related to cache blocking in compute-bound codes and suggested optimization techniques to improve the performance.
Název v anglickém jazyce
Acceleration of dRMSD Calculation and Efficient Usage of GPU Caches
Popis výsledku anglicky
In this paper, we introduce the GPU acceleration of dRMSD algorithm, used to compare different structures of a molecule. Comparing to multithreaded CPU implementation, we have reached 13.4x speedup in clustering and 62.7x speedup in 1:1 dRMSD computationusing mid-end GPU. The dRMSD computation exposes strong memory locality and thus is compute-bound. Along with conservative implementation using shared memory, we have decided to implement variants of the algorithm using GPU caches to maintain memory locality. Our implementation using cache reaches 96.5 % and 91.6 % of shared memory performance on Fermi and Maxwell, respectively. We have identified several performance pitfalls related to cache blocking in compute-bound codes and suggested optimization techniques to improve the performance.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/EE2.3.30.0037" target="_blank" >EE2.3.30.0037: Zaměstnáním nejlepších mladých vědců k rozvoji mezinárodní spolupráce</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2015
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of IEEE International Conference on High Performance Computing & Simulation
ISBN
9781467378123
ISSN
—
e-ISSN
—
Počet stran výsledku
8
Strana od-do
47-54
Název nakladatele
IEEE
Místo vydání
neuveden
Místo konání akce
Amsterdam, The Nederlands
Datum konání akce
1. 1. 2015
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—