326 lines
8.6 KiB
Plaintext
326 lines
8.6 KiB
Plaintext
/**************************************************************************
|
||
多项式计算函数。按下面的要求编辑此文件:
|
||
1. 将你的学号、姓名,以注释的方式写到下面;
|
||
2. 实现不同版本的多项式计算函数;
|
||
3. 编辑peval_fun_rec peval_fun_tab数组,将你的最好的答案
|
||
(最小CPE、最小C10)作为数组的前两项
|
||
***************************************************************************/
|
||
|
||
/*
|
||
学号:201209054233
|
||
姓名:夜半加班狂
|
||
*/
|
||
|
||
|
||
|
||
#include <stdio.h>
|
||
#include <stdlib.h>
|
||
#include <cuda_runtime.h>
|
||
typedef int (*peval_fun)(int*, int, int);
|
||
|
||
typedef struct {
|
||
peval_fun f;
|
||
char *descr;
|
||
} peval_fun_rec, *peval_fun_ptr;
|
||
|
||
|
||
/**************************************************************************
|
||
Edit this comment to indicate your name and Andrew ID
|
||
#ifdef ASSIGN
|
||
Submission by Harry Q. Bovik, bovik@andrew.cmu.edu
|
||
#else
|
||
Instructor's version.
|
||
Created by Randal E. Bryant, Randy.Bryant@cs.cmu.edu, 10/07/02
|
||
#endif
|
||
***************************************************************************/
|
||
|
||
/*
|
||
实现一个指定的常系数多项式计算
|
||
第一次,请直接运行程序,以便获知你需要实现的常系数是啥
|
||
*/
|
||
int const_poly_eval(int *not_use, int not_use2, int x)
|
||
{
|
||
int result = 0;
|
||
/* int i;
|
||
int xpwr = 1; // x的幂次
|
||
int a[4] = {21,90,42,88};
|
||
for (i = 0; i <= 3; i++) {
|
||
result += a[i]*xpwr;
|
||
xpwr *= x;
|
||
}
|
||
*/
|
||
// 90 = 64 + 32 - 4 - 2
|
||
// 42 = 32 + 8 + 2
|
||
// 88 = 64 + 16 + 8
|
||
int x64,x32,x16,x8,x4,x2;
|
||
|
||
x64 = x << 6;
|
||
x32 = x << 5;
|
||
x16 = x << 4;
|
||
x8 = x << 3;
|
||
x4 = x << 2;
|
||
x2 = x << 1;
|
||
result = 21 + x64+x32-x4-x2 + ((x32+x8+x2) + (x64+x16+x8)*x)*x;
|
||
return result;
|
||
}
|
||
|
||
|
||
|
||
/* 多项式计算函数。注意:这个只是一个参考实现,你需要实现自己的版本 */
|
||
|
||
/*
|
||
友情提示:lcc支持ATT格式的嵌入式汇编,例如
|
||
|
||
_asm("movl %eax,%ebx");
|
||
_asm("pushl %edx");
|
||
|
||
可以在lcc中project->configuration->Compiler->Code Generation->Generate .asm,
|
||
将其选中后,可以在lcc目录下面生成对应程序的汇编代码实现。通过查看汇编文件,
|
||
你可以了解编译器是如何实现你的代码的。有些实现可能非常低效。
|
||
你可以在适当的地方加入嵌入式汇编,来大幅度提高计算性能。
|
||
*/
|
||
|
||
int poly_eval(int *a, int degree, int x)
|
||
{
|
||
int result = 0;
|
||
int i;
|
||
int xpwr = 1; /* x的幂次 */
|
||
// printf("阶=%d\n",degree);
|
||
for (i = 0; i <= degree; i++) {
|
||
result += a[i]*xpwr;
|
||
xpwr *= x;
|
||
}
|
||
return result;
|
||
}
|
||
|
||
/* CUDA优化的多项式计算函数 - 低CPE版本 */
|
||
int cuda_poly_eval_low_cpe(int *a, int degree, int x)
|
||
{
|
||
// 对于低CPE版本,我们使用CUDA并行计算多项式的各个项
|
||
// 然后将结果传回主机进行求和
|
||
|
||
// 分配设备内存
|
||
int *d_a, *d_results;
|
||
cudaError_t err;
|
||
|
||
// 分配内存
|
||
err = cudaMalloc(&d_a, (degree + 1) * sizeof(int));
|
||
if (err != cudaSuccess) {
|
||
printf("CUDA Error: %s\n", cudaGetErrorString(err));
|
||
return 0;
|
||
}
|
||
|
||
err = cudaMalloc(&d_results, (degree + 1) * sizeof(int));
|
||
if (err != cudaSuccess) {
|
||
printf("CUDA Error: %s\n", cudaGetErrorString(err));
|
||
cudaFree(d_a);
|
||
return 0;
|
||
}
|
||
|
||
// 将系数从主机复制到设备
|
||
err = cudaMemcpy(d_a, a, (degree + 1) * sizeof(int), cudaMemcpyHostToDevice);
|
||
if (err != cudaSuccess) {
|
||
printf("CUDA Error: %s\n", cudaGetErrorString(err));
|
||
cudaFree(d_a);
|
||
cudaFree(d_results);
|
||
return 0;
|
||
}
|
||
|
||
// 定义CUDA核函数
|
||
dim3 blockDim(256);
|
||
dim3 gridDim((degree + 1 + blockDim.x - 1) / blockDim.x);
|
||
|
||
// 启动核函数
|
||
cudaPolyEvalLowCPE<<<gridDim, blockDim>>>(d_a, degree, x, d_results);
|
||
|
||
// 检查核函数执行错误
|
||
err = cudaGetLastError();
|
||
if (err != cudaSuccess) {
|
||
printf("CUDA Error: %s\n", cudaGetErrorString(err));
|
||
cudaFree(d_a);
|
||
cudaFree(d_results);
|
||
return 0;
|
||
}
|
||
|
||
// 分配主机内存用于结果
|
||
int *h_results = (int *)malloc((degree + 1) * sizeof(int));
|
||
if (h_results == NULL) {
|
||
printf("Memory allocation error\n");
|
||
cudaFree(d_a);
|
||
cudaFree(d_results);
|
||
return 0;
|
||
}
|
||
|
||
// 将结果从设备复制回主机
|
||
err = cudaMemcpy(h_results, d_results, (degree + 1) * sizeof(int), cudaMemcpyDeviceToHost);
|
||
if (err != cudaSuccess) {
|
||
printf("CUDA Error: %s\n", cudaGetErrorString(err));
|
||
free(h_results);
|
||
cudaFree(d_a);
|
||
cudaFree(d_results);
|
||
return 0;
|
||
}
|
||
|
||
// 在主机上求和
|
||
int result = 0;
|
||
for (int i = 0; i <= degree; i++) {
|
||
result += h_results[i];
|
||
}
|
||
|
||
// 释放内存
|
||
free(h_results);
|
||
cudaFree(d_a);
|
||
cudaFree(d_results);
|
||
|
||
return result;
|
||
}
|
||
|
||
/* CUDA优化的多项式计算函数 - 10阶优化版本 */
|
||
int cuda_poly_eval_degree10(int *a, int degree, int x)
|
||
{
|
||
// 对于10阶多项式,我们可以使用更优化的方法
|
||
// 使用CUDA并行计算,但针对10阶多项式进行特殊优化
|
||
|
||
// 分配设备内存
|
||
int *d_a, *d_result;
|
||
cudaError_t err;
|
||
|
||
// 分配内存
|
||
err = cudaMalloc(&d_a, (degree + 1) * sizeof(int));
|
||
if (err != cudaSuccess) {
|
||
printf("CUDA Error: %s\n", cudaGetErrorString(err));
|
||
return 0;
|
||
}
|
||
|
||
err = cudaMalloc(&d_result, sizeof(int));
|
||
if (err != cudaSuccess) {
|
||
printf("CUDA Error: %s\n", cudaGetErrorString(err));
|
||
cudaFree(d_a);
|
||
return 0;
|
||
}
|
||
|
||
// 将系数从主机复制到设备
|
||
err = cudaMemcpy(d_a, a, (degree + 1) * sizeof(int), cudaMemcpyHostToDevice);
|
||
if (err != cudaSuccess) {
|
||
printf("CUDA Error: %s\n", cudaGetErrorString(err));
|
||
cudaFree(d_a);
|
||
cudaFree(d_result);
|
||
return 0;
|
||
}
|
||
|
||
// 定义CUDA核函数
|
||
dim3 blockDim(256);
|
||
dim3 gridDim(1); // 只需要一个块,因为我们只需要一个结果
|
||
|
||
// 启动核函数
|
||
cudaPolyEvalDegree10<<<gridDim, blockDim>>>(d_a, degree, x, d_result);
|
||
|
||
// 检查核函数执行错误
|
||
err = cudaGetLastError();
|
||
if (err != cudaSuccess) {
|
||
printf("CUDA Error: %s\n", cudaGetErrorString(err));
|
||
cudaFree(d_a);
|
||
cudaFree(d_result);
|
||
return 0;
|
||
}
|
||
|
||
// 获取结果
|
||
int result;
|
||
err = cudaMemcpy(&result, d_result, sizeof(int), cudaMemcpyDeviceToHost);
|
||
if (err != cudaSuccess) {
|
||
printf("CUDA Error: %s\n", cudaGetErrorString(err));
|
||
cudaFree(d_a);
|
||
cudaFree(d_result);
|
||
return 0;
|
||
}
|
||
|
||
// 释放内存
|
||
cudaFree(d_a);
|
||
cudaFree(d_result);
|
||
|
||
return result;
|
||
}
|
||
|
||
/* CUDA核函数 - 低CPE版本 */
|
||
__global__ void cudaPolyEvalLowCPE(int *a, int degree, int x, int *results)
|
||
{
|
||
int idx = blockIdx.x * blockDim.x + threadIdx.x;
|
||
if (idx <= degree) {
|
||
// 计算x的幂
|
||
int xpwr = 1;
|
||
for (int i = 0; i < idx; i++) {
|
||
xpwr *= x;
|
||
}
|
||
|
||
// 计算这一项的结果
|
||
results[idx] = a[idx] * xpwr;
|
||
}
|
||
}
|
||
|
||
/* CUDA核函数 - 10阶优化版本 */
|
||
__global__ void cudaPolyEvalDegree10(int *a, int degree, int x, int *result)
|
||
{
|
||
// 使用共享内存来存储中间结果
|
||
__shared__ int shared_result;
|
||
|
||
// 只有第一个线程初始化共享结果
|
||
if (threadIdx.x == 0) {
|
||
shared_result = 0;
|
||
}
|
||
__syncthreads();
|
||
|
||
// 每个线程计算一部分项
|
||
int local_result = 0;
|
||
int xpwr = 1;
|
||
|
||
// 计算x的幂
|
||
for (int i = 0; i < threadIdx.x; i++) {
|
||
xpwr *= x;
|
||
}
|
||
|
||
// 计算这一项的结果
|
||
if (threadIdx.x <= degree) {
|
||
local_result = a[threadIdx.x] * xpwr;
|
||
}
|
||
|
||
// 使用原子操作累加结果
|
||
atomicAdd(&shared_result, local_result);
|
||
|
||
// 同步所有线程
|
||
__syncthreads();
|
||
|
||
// 只有第一个线程将结果写回全局内存
|
||
if (threadIdx.x == 0) {
|
||
*result = shared_result;
|
||
}
|
||
}
|
||
|
||
/*
|
||
这个表格包含多个数组元素,每一组元素(函数名字, "描述字符串")
|
||
将你认为最好的两个实现,放在最前面。
|
||
比如:
|
||
{my_poly_eval1, "超级垃圾实现"},
|
||
{my_poly_eval2, "好一点的实现"},
|
||
*/
|
||
|
||
peval_fun_rec peval_fun_tab[] =
|
||
{
|
||
|
||
/* 第一项,应当是你写的最好CPE的函数实现 */
|
||
{cuda_poly_eval_low_cpe, "CUDA optimized low CPE implementation"},
|
||
/* 第二项,应当是你写的在10阶时具有最好性能的实现 */
|
||
{cuda_poly_eval_degree10, "CUDA optimized degree 10 implementation"},
|
||
|
||
{poly_eval, "poly_eval: 参考实现"},
|
||
|
||
/* 下面的代码不能修改或者删除!!表明数组列表结束 */
|
||
{NULL, ""}
|
||
};
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|