基于GPU的通用计算已成为近几年人们关注的一个研究热点,谈起计算,我们一般都会先想到CPU,然而GPU同样具有运算能力,并且在特定的场景下由于CPU。从微架构上看,CPU擅长的是像操作系统、系统软件和通用应用程序这类拥有复杂指令调度、循环、分支、逻辑判断以及执行等的程序任务。它的并行优势是程序执行层面的,程序逻辑的复杂度也限定了程序执行的指令并行性,上百个并行程序执行的线程基本看不到。GPU擅长的是图形类的或者是非图形类的高度并行数值计算,GPU可以容纳上千个没有逻辑关系的数值计算线程,它的优势是无逻辑关系数据的并行计算。

    在一次数学建模比赛上,我们使用Python计算一些历史数据,然而由于数据量太大,在计算数据上花费了许多时间。我们使用了Python,Pandas, Numpy等常用的科学计算模块计算基站与接收机之间的距离,计算流程图如下所示:

图1 CPU计算数据流程

计算数据的代码如下所示

图2 CPU计算距离数据代码

    采用以上方案计算了1300万个数据(大约1.3GB),总共花费了4个小时32分钟的时间,并且占用了很多CPU资源,导致不能在电脑上继续工作。后来,分析其原因,发现CPU处理数据的流程和流水线类似,逐条地运行每条指令。从根本上说,CPU微架构的设计是面向指令执行高效率而设计的,因而CPU是计算机中设计最复杂的芯片。和GPU相比,CPU核心的重复设计部分不多,这种复杂性不能仅以晶体管的多寡来衡量,这种复杂性来自于实现:如程序分支预测,推测执行,多重嵌套分支执行,并行执行时候的指令相关性和数据相关性,多核协同处理时候的数据一致性等等复杂逻辑。GPU其实是由硬件实现的一组图形函数的集合,这些函数主要用于绘制各种图形所需要的运算。这些和像素,光影处理,3D坐标变换等相关的运算由GPU硬件加速来实现。图形运算的特点是大量同类型数据的密集运算——如浮点型数据的运算,本次计算的海量数据其实是浮点型的,GPU的微架构就是面向适合于浮点、矩阵类型的数值计算而设计的。GPU运算流程可以简化成下图:

图3 GPU计算数据流程

    与CPU计算类似,GPU同样是利用运算单元计算数据。目前市面上先进的CPU具有8个核心,而较好的GPU具有2000个以上的核心,对于数值计算而言,GPU所有核心能够同时参与运算。

    由于Pandas不支持GPU运算,故我们采用PyTorch将数据送到GPU中进行运算,其代码如下:

图4 GPU运算代码

 

    两种方案运算结果如下:

图5 运算时长对比

   

由上图可直观的看出,采用GPU方案计算数据所花费的时间仅仅为CPU方案的九分之一。可见,由于擅长浮点运算和并行运算,使用GPU可以极大加快计算程序的运行时间,使得GPU在深度学习中占据着主导地位。


©著作权归作者所有:来自51CTO博客作者mob604756f3c518的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. 练习2-10 计算分段函数[1] (10分)
  2. DolphinDB丨金融高频因子流批一体计算神器
  3. 算法的秘密+
  4. JavaScript学习之购物车全选、自动计算
  5. 启动延时缩短 50%-80%,函数计算发布镜像加速功能
  6. 公有云和超算中心对比,高性能计算用户选哪个好?
  7. class 运算符重载
  8. 数据中心与云
  9. JS 版的计算机仿真程序告诉你为什么现在要戴口罩

随机推荐

  1. Android木马分析简介
  2. Android实现颜色选取圆盘
  3. android复习题
  4. Day03
  5. 第三部分:Android 应用程序接口指南---第
  6. android 关于listview item设置高度的问
  7. Android Sensor传感器系统架构初探
  8. USB选择PTP功能时,如何同时显示内置、外置
  9. 初识Android
  10. Android智能电视应用程序开发浅谈(一)