CUDA1-核函数
前言两个月前,我接下了移植实验室三维重建系统到gpu上执行的任务,以期实现实时重建的效果。现在,我将结合近两个月的学习更新一系列博文,以总结cuda的核心知识点。关于cuda学习资料,我推荐nvidia官方出版的《gpu高性能编程——cuda实战》与《cuda编程指南》两书,本系
CUDA9-cufft+blas
A. cuFFT: FFT变换库 在实数值与复数值之间进行傅里叶变换 i. 算法特性: ○ 当输入大小能被表示成〖(2〗^a+3^b+5^c+7^d)时算法效率最优,基本因子越小速度越快 ○ 算法复杂度Ο(n logn ) ○ 单精度比双精度
CUDA4-共享内存
线程协作实例: <数组和> 123456789101112131415161718__global__ void sum(float *a) __shared__ float cache[threadsPerBlock]; int tid =
CUDA3-矢量实例
通过前面博文的介绍我们已经对CUDA有一定了解了,相信大家还记得第一篇博文中,代码的矢量和简单实例,在这里我将对其进行丰富,并详细介绍其中的细节。 代码如下: 1234567891011121314151617181920212223242526272829303132__glo
CUDA2-线性层次结构
线程层次:流、 格、块、线程 函数并行:一个核函数由多个线程并行执行,每个线程执行相同工作,并且有唯一线程ID。 结构说明: (如右图) a. 一个内核函数运行在一个线程格(Grid)上; b. 一个线程格(Grid)由多个大小相同的线程块(Block)组成;
Hexo Introduction
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the