实战：利用GPU计算海量数据

基于GPU的通用计算已成为近几年人们关注的一个研究热点，谈起计算，我们一般都会先想到CPU，然而GPU同样具有运算能力，并且在特定的场景下由于CPU。从微架构上看，CPU擅长的是像操作系统、系统软件和通用应用程序这类拥有复杂指令调度、循环、分支、逻辑判断以及执行等的程序任务。它的并行优势是程序执行层面的，程序逻辑的复杂度也限定了程序执行的指令并行性，上百个并行程序执行的线程基本看不到。GPU擅长的是图形类的或者是非图形类的高度并行数值计算，GPU可以容纳上千个没有逻辑关系的数值计算线程，它的优势是无逻辑关系数据的并行计算。

在一次数学建模比赛上，我们使用Python计算一些历史数据，然而由于数据量太大，在计算数据上花费了许多时间。我们使用了Python,Pandas, Numpy等常用的科学计算模块计算基站与接收机之间的距离，计算流程图如下所示：

图1 CPU计算数据流程

计算数据的代码如下所示

图2 CPU计算距离数据代码

采用以上方案计算了1300万个数据（大约1.3GB），总共花费了4个小时32分钟的时间，并且占用了很多CPU资源，导致不能在电脑上继续工作。后来，分析其原因，发现CPU处理数据的流程和流水线类似，逐条地运行每条指令。从根本上说，CPU微架构的设计是面向指令执行高效率而设计的，因而CPU是计算机中设计最复杂的芯片。和GPU相比，CPU核心的重复设计部分不多，这种复杂性不能仅以晶体管的多寡来衡量，这种复杂性来自于实现：如程序分支预测，推测执行，多重嵌套分支执行，并行执行时候的指令相关性和数据相关性，多核协同处理时候的数据一致性等等复杂逻辑。GPU其实是由硬件实现的一组图形函数的集合，这些函数主要用于绘制各种图形所需要的运算。这些和像素，光影处理，3D坐标变换等相关的运算由GPU硬件加速来实现。图形运算的特点是大量同类型数据的密集运算——如浮点型数据的运算，本次计算的海量数据其实是浮点型的，GPU的微架构就是面向适合于浮点、矩阵类型的数值计算而设计的。GPU运算流程可以简化成下图：

图3 GPU计算数据流程

与CPU计算类似，GPU同样是利用运算单元计算数据。目前市面上先进的CPU具有8个核心，而较好的GPU具有2000个以上的核心，对于数值计算而言，GPU所有核心能够同时参与运算。

由于Pandas不支持GPU运算，故我们采用PyTorch将数据送到GPU中进行运算，其代码如下：

图4 GPU运算代码

两种方案运算结果如下：

图5 运算时长对比

由上图可直观的看出，采用GPU方案计算数据所花费的时间仅仅为CPU方案的九分之一。可见，由于擅长浮点运算和并行运算，使用GPU可以极大加快计算程序的运行时间，使得GPU在深度学习中占据着主导地位。

更多相关文章

随机推荐