欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

利用CUDA计算向量与矩阵每一行的欧式距离

程序员文章站 2022-03-06 13:57:09
...

本文作为笔者的学习笔记,代码仅供参考。
代码实现:计算向量a(n维)到矩阵b(n*n)每一行的欧式距离,并将结果输出到向量c(n维)。
其中,向量a与矩阵b中的元素均规定为整数,输出的向量c中数据类型为浮点数。
具体如下:

#include<stdio.h>
#include<cuda.h>

const int BLOCK_SIZE = 5;
const int GRID_SIZE = 5;
#define N 10
__global__ void dist(int *a,int *b,float *c)
{
	float t;
	int row = blockIdx.y * blockDim.y + threadIdx.y;
	int col = blockIdx.x * blockDim.x + threadIdx.x;
	t =(a[blockIdx.x])*(a[blockIdx.x])-(b[row*N+col])*(b[row*N+col]);
	if (t<0){
		t=(-1)*t;
		c[blockIdx.x] = sqrt(t);
	}
	c[blockIdx.x] = sqrt(t);
}

int main(void)
{

	int a[N],b[N*N];
	float c[N];
	int *d_a,*d_b;
	float *d_c;
	int size = N * sizeof(int);
	int i,j;
	
	cudaMalloc(&d_a,size);
	cudaMalloc(&d_b,size*N);
	cudaMalloc(&d_c,N*sizeof(float));
	
	//对矩阵a,b进行初始化
	for (i=1;i<N;i++)
	{
		a[i] = i;
		for (j=1;j<N;j++)
		{
			b[i*N+j]=i+j;
		}
	}
	
	cudaMemcpy(d_a,a,size,cudaMemcpyHostToDevice);
	
	cudaMemcpy(d_b,b,size*N,cudaMemcpyHostToDevice);
	
	dim3 threadBlock(BLOCK_SIZE,BLOCK_SIZE);
	dim3 grid(GRID_SIZE,GRID_SIZE);
	dist<<<grid,threadBlock>>>(d_a,d_b,d_c);
	
	cudaMemcpy(c,d_c,N*sizeof(float),cudaMemcpyDeviceToHost);
	for (i=0;i<N;i++)
	{
		printf("%f\n",c[i]);
	}
	cudaFree(d_a);
	cudaFree(d_b);
	cudaFree(d_c); 
	return 0;

}

代码尚待完善,目前发现的不足如下:

  • 矩阵b的列数实际上可以是任意正整数,这里只将其指定为方阵。
  • 向量a与矩阵b中的元素限制为正整数,实际上可以扩大为浮点数。
  • 向量a与矩阵b在程序中事先初始化的,结果暂时就通过printf打印,欲使代码实际可用,还需根据实际情况进行修改。
  • 仅对GPU上的数据进行了内存分配,在CPU上存储的对应a,b两数组未进行内存分配设置。