欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

D:UPG brief

程序员文章站 2022-05-13 09:36:18
文章目录*处理单元图形处理单元,一个*大脑,控制整个计算机(包括GPU),GPU专注于图形图像处理(通用计算)。 设计目的上CPU使执行单元能够以很低的延迟获得数据和指令,因此采用复杂的控制逻辑和分支预测,以及大量的缓存来提高执行效率;GPU必须在有限的面积上实现超强运算能力和极高的存储器带宽,因此需要大量执行单元来运行更多相对简单的线程,在当前线程等待数据时切换到另一个处于就绪状态等待计算的线程。CPU对延迟更敏感,GPU则侧重于提高整体的数据吞吐量设计目标的不同决定了两者...

文章目录

  • *处理单元
  • 图形处理单元,
  • 一个*大脑,控制整个计算机(包括GPU),
  • GPU专注于图形图像处理(通用计算)。

  • 设计目的上
  • CPU使执行单元能够以很低的延迟获得数据和指令,因此采用复杂的控制逻辑和分支预测,以及大量的缓存来提高执行效率;
  • GPU必须在有限的面积上实现超强运算能力和极高的存储器带宽,因此需要大量执行单元来运行更多相对简单的线程,在当前线程等待数据时切换到另一个处于就绪状态等待计算的线程。
  • CPU对延迟更敏感,
  • GPU则侧重于提高整体的数据吞吐量
  • 设计目标的不同决定了两者在架构和性能上的巨大差距,
  • 图2.2
    • 部件的数量及用途比较
D:UPG brief

  • 本质上区别:
  • 向量机,阵列机。见1.5节。
  • 向量机通过向量处理获得性能,
    • 优化CPU程序时,
    • 向量化是重要的(编译时查看向量化报告开关-vec-report6,等级0~6自选);
  • 阵列机
    • 同一个控制器控制下的多个处理单元组成的,
    • 各处理单元没有指令控制部件,
    • 在控制器控制下,各处理单元各自对分配的数据并发完成同一指令运算,
    • 阵列机优化原则有数据对齐访问、避免分支分离

本文地址:https://blog.csdn.net/zhoutianzi12/article/details/109009051

相关标签: GPU编程与优化