Acceleration of dRMSD Calculation and Efficient Usage of GPU Caches

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F15%3A00083460" target="_blank" >RIV/00216224:14330/15:00083460 - isvavai.cz</a>
Výsledek na webu
<a href="http://dx.doi.org/10.1109/HPCSim.2015.7237020" target="_blank" >http://dx.doi.org/10.1109/HPCSim.2015.7237020</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/HPCSim.2015.7237020" target="_blank" >10.1109/HPCSim.2015.7237020</a>

Alternativní jazyky

Jazyk výsledku
angličtina
Název v původním jazyce
Acceleration of dRMSD Calculation and Efficient Usage of GPU Caches
Popis výsledku v původním jazyce
In this paper, we introduce the GPU acceleration of dRMSD algorithm, used to compare different structures of a molecule. Comparing to multithreaded CPU implementation, we have reached 13.4x speedup in clustering and 62.7x speedup in 1:1 dRMSD computationusing mid-end GPU. The dRMSD computation exposes strong memory locality and thus is compute-bound. Along with conservative implementation using shared memory, we have decided to implement variants of the algorithm using GPU caches to maintain memory locality. Our implementation using cache reaches 96.5 % and 91.6 % of shared memory performance on Fermi and Maxwell, respectively. We have identified several performance pitfalls related to cache blocking in compute-bound codes and suggested optimization techniques to improve the performance.
Název v anglickém jazyce
Acceleration of dRMSD Calculation and Efficient Usage of GPU Caches
Popis výsledku anglicky
In this paper, we introduce the GPU acceleration of dRMSD algorithm, used to compare different structures of a molecule. Comparing to multithreaded CPU implementation, we have reached 13.4x speedup in clustering and 62.7x speedup in 1:1 dRMSD computationusing mid-end GPU. The dRMSD computation exposes strong memory locality and thus is compute-bound. Along with conservative implementation using shared memory, we have decided to implement variants of the algorithm using GPU caches to maintain memory locality. Our implementation using cache reaches 96.5 % and 91.6 % of shared memory performance on Fermi and Maxwell, respectively. We have identified several performance pitfalls related to cache blocking in compute-bound codes and suggested optimization techniques to improve the performance.

Klasifikace

Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—

Návaznosti výsledku

Projekt
<a href="/cs/project/EE2.3.30.0037" target="_blank" >EE2.3.30.0037: Zaměstnáním nejlepších mladých vědců k rozvoji mezinárodní spolupráce</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

Rok uplatnění
2015
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Název statě ve sborníku
Proceedings of IEEE International Conference on High Performance Computing & Simulation
ISBN
9781467378123
ISSN
—
e-ISSN
—
Počet stran výsledku
8
Strana od-do
47-54
Název nakladatele
IEEE
Místo vydání
neuveden
Místo konání akce
Amsterdam, The Nederlands
Datum konání akce
1. 1. 2015
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—

Podobné výsledky(10)

A GPU acceleration of 3-D Fourier reconstruction in cryo-EM Detailed Analysis and Optimization of CUDA K-means Algorithm Optimizing CUDA code by kernel fusion: application on BLAS

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Acceleration of dRMSD Calculation and Efficient Usage of GPU Caches

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)