利用CUDA计算向量与矩阵每一行的欧式距离

程序员文章站 2022-03-06 13:57:09

...

本文作为笔者的学习笔记，代码仅供参考。
代码实现：计算向量a（n维）到矩阵b（n*n）每一行的欧式距离，并将结果输出到向量c（n维）。
其中，向量a与矩阵b中的元素均规定为整数，输出的向量c中数据类型为浮点数。
具体如下：

#include<stdio.h>
#include<cuda.h>

const int BLOCK_SIZE = 5;
const int GRID_SIZE = 5;
#define N 10
__global__ void dist(int *a,int *b,float *c)
{
	float t;
	int row = blockIdx.y * blockDim.y + threadIdx.y;
	int col = blockIdx.x * blockDim.x + threadIdx.x;
	t =(a[blockIdx.x])*(a[blockIdx.x])-(b[row*N+col])*(b[row*N+col]);
	if (t<0){
		t=(-1)*t;
		c[blockIdx.x] = sqrt(t);
	}
	c[blockIdx.x] = sqrt(t);
}

int main(void)
{

	int a[N],b[N*N];
	float c[N];
	int *d_a,*d_b;
	float *d_c;
	int size = N * sizeof(int);
	int i,j;
	
	cudaMalloc(&d_a,size);
	cudaMalloc(&d_b,size*N);
	cudaMalloc(&d_c,N*sizeof(float));
	
	//对矩阵a，b进行初始化
	for (i=1;i<N;i++)
	{
		a[i] = i;
		for (j=1;j<N;j++)
		{
			b[i*N+j]=i+j;
		}
	}
	
	cudaMemcpy(d_a,a,size,cudaMemcpyHostToDevice);
	
	cudaMemcpy(d_b,b,size*N,cudaMemcpyHostToDevice);
	
	dim3 threadBlock(BLOCK_SIZE,BLOCK_SIZE);
	dim3 grid(GRID_SIZE,GRID_SIZE);
	dist<<<grid,threadBlock>>>(d_a,d_b,d_c);
	
	cudaMemcpy(c,d_c,N*sizeof(float),cudaMemcpyDeviceToHost);
	for (i=0;i<N;i++)
	{
		printf("%f\n",c[i]);
	}
	cudaFree(d_a);
	cudaFree(d_b);
	cudaFree(d_c); 
	return 0;

}

代码尚待完善，目前发现的不足如下：

矩阵b的列数实际上可以是任意正整数，这里只将其指定为方阵。
向量a与矩阵b中的元素限制为正整数，实际上可以扩大为浮点数。
向量a与矩阵b在程序中事先初始化的，结果暂时就通过printf打印，欲使代码实际可用，还需根据实际情况进行修改。
仅对GPU上的数据进行了内存分配，在CPU上存储的对应a,b两数组未进行内存分配设置。

相关标签：并行计算并行计算 cuda

上一篇： webpack笔记

下一篇： webpack4.0的配置及简单使用