英伟达研究报告从硬件GPU设计到软件CU

白癜风有什么偏方治疗吗 http://m.39.net/pf/a_4698007.html

(报告出品方/作者:东吴证券,张良卫,王紫敬,刘睿哲)

1.公司历史及业务简介

1.1.GPU简介

多核心的并行结构GPU比少核心串行结构的CPU更适合处理图形图像(矩阵结构)信息。CPU(CentralProcessingUnit,中央处理器)的功能主要是解释计算机指令以及处理计算机软件中的数据,是计算机的核心大脑,可以处理计算机遇到的所有指令。GPU(GraphicsProcessingUnit,图形处理器)是图形计算的重要元件,主要用来处理与与图形图像相关的数据,在高端PC中通常会有独立GPU,以获得更好的视觉体验。他们二者的区别主要是,CPU通常有4个、8个或16个强力ALU核心(arithmeticlogicunit,算术逻辑单元),适合做复杂的通用串行任务;而GPU可能有数千个简单ALU核心,适合做简单特定的并行任务。我们通过以下的例子来说明CPU和GPU的差异:CPU就像一个大学生,可以进行微积分等复杂计算,但若要在短时间内完成几万道加减算数问题,也是很难办得到的;而GPU就像几百个小学生,虽然都不会微积分等复杂计算的能力,但人数多,可以在很短时间内完成几万道加减算数问题。也有例子把CPU比作跑车,GPU比作大卡车,对于将少量货物从A运到B来说,是作为跑车的CPU更快;但如果货物非常多,那么作为跑车的CPU需要往返的次数远远多于作为货车的GPU,作为货车的GPU虽然完成一次任务较慢,但是可以携带更多的货物,其效率会高于CPU。总而言之,对于复杂的单个计算任务来说,CPU的执行效率更高,通用性更强;而对于图形图像这种矩阵式多像素点的简单计算,更适合用GPU来处理,但通用性较弱。

GPU按接入方式分为独立GPU和集成GPU;按照应用端划分为移动GPU、服务器GPU和PCGPU。GPU是图形处理单元,在PC(个人电脑)早期,图形数据较为简单,主要都是由CPU来进行图形处理。随着图形显示规模的增加,CPU已经很难分出更多精力来处理图形信息,而且CPU的架构决定了其处理图形信息的效率是偏低的,因此逐渐发展出了专门处理图形信息的GPU。英伟达专做GPU,开发了独立于CPU的GPU;英特尔作为CPU的霸主,开发了寄生于CPU芯片上的GPU单元,被称为集成GPU。通常来讲,独立GPU的性能都要优于集成GPU,在对图形实时处理要求不高的日常办公领域,使用普通的集成GPU即可;在对图形实时处理能力要求很高的游戏及设计领域,一般都需要使用独立GPU。随着移动设备的发展,GPU也从PC端扩展到了移动端,高通骁龙以及苹果的A系列芯片都开发了相应的GPU芯片模块。

随着AI以及云计算的兴起,具有并行计算架构的GPU具有更高的效率,这也使得GPU被应用到AI及云计算等数据处理之中。这是一个全新的领域,拥有巨大的成长空间。值得一提的是,市场上还存在着比GPU专用程度更高的芯片,包括FPGA(Fieldprogrammablegatearray,可编程逻辑阵列)和针对某一类AI计算的ASIC(Applicationspecificintegratedcircuit,特定场景芯片),包括谷歌推出的TPU(张量计算单元)和特斯拉推出的NPU(神经网络计算单元),虽然在某些特定计算上效率更高,但目前这些芯片的使用场景比较单一,市场规模还较小。

1.2.英伟达发展历史

英伟达(NVIDIA)是一家以GPU(GraphicsProcessUnit,图形处理单元)芯片设计起家的人工智能计算公司。公司创立于年,总部位于美国加利福尼亚州圣克拉拉市。美籍华人JensenHuang(黄仁勋)是创始人兼CEO。年,NVIDIA定义了GPU,GPU的出现被业界视为现代计算机图形技术的开端。英伟达于年1月在纳斯达克挂牌上市,在年它收购了曾经在90年代称霸图形显示市场的3dfx公司的知识产权,逐渐占据图形显示市场的优势地位。到年为止,在消费PC领域,能够量产GPU的公司只有英伟达、AMD和英特尔,其中英特尔主要是以集成GPU为主,AMD既有集成GPU也有独立GPU,英伟达主要是独立GPU。在独立GPU领域,英伟达Q1占据81%的市场份额,处于绝对的领先地位。

公司20多年来始终引领GPU行业的发展,将GPU的主要应用场景从游戏以及画图等图像显示扩展到了以AI、云计算等大数据相关的并行计算领域。英伟达保持着两年升级一次GPU架构的步伐,不断提高GPU的性能。在英伟达GTC主题演讲中,NVIDIA宣布推出安培(Ampere)架构,这是NVIDIA发布的第八代GPU架构,包含超过亿个晶体管,性能相较于前代提升了高达20倍,也是NVIDIA8代GPU历史上最大的一次性能飞跃。安培架构的最新一代RTX30系列游戏GPU和AI计算GPUA作为各自领域的代表产品,继续推动着相关领域的发展。

1.3.英伟达业务简介

按照FY(对应公历.1~.1)的年报分法,英伟达有消费者(游戏)业务Gaming、数据中心业务DataCenter、汽车业务Auto、专业解决方案业务ProfessionalVisualization以及OEM和其他业务OEMOthers,英伟达主要为这些领域提供GPU芯片及相应的软件工具链。从消费者行为来看,在PC端购买独立GPU的主要目的是为了体验高性能游戏,因此英伟达将PC端GPU的销售业务称之为游戏业务。游戏业务一直是英伟达的主营业务,在各板块中营收排名领先;随着AI和云计算的不断兴起,英伟达逐渐将GPU打造为AI和云计算提供算力的底层芯片,这部分与AI和云计算相关的业务被称为数据中心业务。英伟达数据中心业务营收从年以来迎来迅速增长,我们预计在年左右将成为营收规模最大的板块;汽车智能化对算力需求的提高,英伟达也将GPU芯片装入车辆中为其提供高算力。随着汽车智能化的不断提速,我们预计英伟达汽车业务营收也会快速增长,成为公司的一个重要板块。(报告来源:未来智库)

2.传统业务:消费者(游戏)相关业务保持稳定增长

2.1.英伟达GPU五年来持续占据PC独显六成以上市场

由于疫情导致的居家时间延长,公司GPU量价齐升,FYQ2游戏相关营收同比大增85%,单季收入首次超过30亿美元。英伟达的GPU在PC端是以独立显卡的形式存在,通过独立显卡可以实现高帧率高分辨率3A游戏、专业绘图等应用。独显领域是一个壁垒极高的市场,经过20多年的充分竞争后,目前仅有英伟达、AMD可以推出相关产品,而英伟达占据绝对的领先优势。Q1英伟达在PC独显市场占据81%的市场份额(全年为77%)。

以每两年更新一次架构、每半年性能翻倍的速度,持续引领消费级GPU市场。年9月2日,英伟达发布了新一代显卡RTX30系列,与前一代RTX20系列相比,采用了全新的安培架构,在核心数、显存、频率等性能都有了大幅度提升。RTX30的高算力加上英伟达的DLSS(DeepLearningSuperSampling,深度学习超采样)技术,大大提高实际场景的运算力(在算力不变的情况下提高帧率),使得英伟达显卡深受游戏玩家的喜爱。在中国,RTX30系列中的RTX由发售价的元人民币被一路炒高至元左右,足见其火爆程度(虽然部分原因是受到数字货币“挖矿”抢货的影响)。英伟达以半年性能提升一倍的“黄氏定律”牢牢占据GPU的领导者地位。截止到年3月,英伟达的各系列GPU在性能排行的前20名中占据了包括第一名在内的14个席位,可以看出英伟达在GPU领域的霸主地位。

2.2.借助Bluefield能力,发力云游戏GeforceNow业务

云游戏是以云计算为基础的游戏方式,在云游戏的运行模式下,所有游戏都在服务器端运行,并将渲染完毕后的游戏画面压缩后通过网络传送给用户。在客户端,用户的游戏设备不需要任何高端处理器和显卡,只需要基本的视频解压能力就可以,因此其市场潜力很大,据Newzoo年3月发布的报告预测,年全球云游戏市场收入可能达到51亿美元。但目前主要受限于网络延迟以及服务器延迟等方面,市场尚处于初期阶段。除英伟达外,目前还有微软、谷歌、索尼、腾讯以及网易等也在拓展云游戏业务。

英伟达云游戏平台GeforceNow采用Bluefield架构,解决云游戏服务器的延迟问题。对于云游戏来说,延迟是最亟待解决的问题。而控制延迟的关键,不仅需要良好的通信网络能力,更为重要的是对云端服务器的数据处理特别是图形相关的处理速度。英伟达利用其在数据中心的经验,优化了服务器架构,推出了英伟达云游戏平台GeforceNow,采用RTX服务器来实现更低延迟(整体延迟小于ms),使云游戏体验得到了优化。由于目前云游戏仍受限于网络延迟,整个市场尚不成熟,但随着基础设施的不断发展,此项业务将为英伟达带来未来全新增长空间。(报告来源:未来智库)

3.成长业务:数据中心成为云和AI领域基础设施,营收迅速扩大

英伟达成为云计算和AI这个未来“金矿”行业的芯片及服务器等“铲子”工具——GPU的主要供应商,年以来以AI和云计算为主要服务对象的数据中心业务营收规模已经和游戏业务相当。英伟达创始人、CEO黄仁勋于年6月份在接受第一财经的采访中表示,“数据中心规模计算的时代已经来临。我们想成为一家数据中心企业,数据中心正在占据我们业务越来越重要的地位。”他说道,“而各种新兴技术的汇聚,比如云计算、人工智能、加速计算、工业5G等,将会成为解决计算时代重要问题的最后几块拼图。”英伟达在数据中心上布局很早,利用在GPU中积累的芯片设计经验,推广到了数据中心业务。从英伟达近一年的财报中也可以看出,英伟达在数据中心的业务收入已经和游戏业务比肩,且有超越游戏业务的潜力。从年6月举办的国际超级计算大会ISC上公布的超级计算榜单可以看出,TOP10中有8台使用英伟达的技术,TOP中有台使用英伟达的技术,可见英伟达在数据中心业务的优势。英伟达在数据中心领域的成功离不开硬件(A、DGXA、InfiniBand)以及相关软件(CUDA)等的支持,英伟达在云与数据中心领域形成了一整套完整的生态系统,成为云和AI领域基础算力及算法工具链等基础工具的供应商,在AI的布局中拥有不可替代的位置。

3.1.采用并行计算的GPU天生适合AI领域的运算

AI算法多为并行结构。AI领域中用于图像识别的深度学习、用于决策和推理的机器学习以及超级计算都需要大规模的并行计算,更适合采用GPU架构。我们以深度学习中的神经网络算法来举例说明GPU架构的优势。

神经网络是一种模拟人脑的以期能够实现人工智能的机器学习技术,适合采用并行计算的GPU架构。一个经典的神经网络分为输入层、隐藏层和输出层,通常隐藏层的数量越多,神经网络模拟的结果越精确,但相应的计算量会呈指数的增长。最初人们使用CPU来模拟多层神经网络需要很长时间;随后科学家认为,输入层到输出层的计算关系是矩阵形式,与GPU对图像像素处理的架构类似,都是并行计算为主,因此产生了使用GPU来进行神经网络计算的想法。年时,Google负责人工智能的吴恩达为了训练神经网络来识别猫,最初使用了台计算机的CPU完成了训练,但为了搭建庞大的CPU耗费巨大;随后他与英伟达公司探讨了这件事情,英伟达仅采用12个GPU就完成了训练,使人们看到了GPU对神经网络的优势。随着神经网络的复杂程度逐渐提高,用GPU来训练神经网络成为了更优的选择。

在输入通道上滑动的底部有一个阴影的卷积滤波器,还有一个绿色的输出通道。卷积算法流程如下:蓝色(底部)→输入通道→阴影(覆盖在蓝色上)→3x3的卷积过滤器→绿色(顶部)→输出通道。对于蓝色输入通道上的每个位置,3x3过滤器进行计算,将蓝色输入通道的阴影部分映射到绿色输出通道的相应阴影部分。每个计算都是独立于其他计算的,这意味着任何计算都不依赖于任何其他计算的结果,所有这些独立的计算都可以在GPU上并行进行,虽然单个卷积计算要比CPU慢,但是对于整个任务来说,CPU要逐个依次完成,速度要大大慢于GPU。因此,卷积运算可以通过使用并行编程方法和GPU来加速。

3.2.英伟达全面布局数据中心硬件市场

CPU+GPU+DPU形成产品矩阵,全面发力数据中心市场。自从年GTC大会上英伟达宣布推出第一款CPUGrace以来,英伟达已经涉足了与AI和云计算相关的数据中心市场的大部分领域。利用GPU在AI领域的先天优势,英伟达借此切入数据中心市场。针对芯片内部带宽以及系统级互联等诸多问题,英伟达推出了BluefieldDPU和GraceCPU,提升了整体硬件性能。在年GTC大会上,英伟达公布了GPU、CPU和DPU的发展规划,每年都会有新产品问世;英伟达在数据中心硬件市场的不断升级,推动了数据中心以及AI整个产业的发展步伐。

3.2.1.基于安培架构的A系列,为数据中心打造高性能算力基础

作为安培架构的代表,AGPU在在深度学习、数据分析、能效方面都获得了前所未有的优化,被广泛应用于自然语言识别、大数据分析、科学计算领域。在GTC大会上,英伟达推出了安培架构的首款超算GPU——A。A引入了有着里程碑式意义的TensorCores双精度计算技术,这使得A的算力比前一代V提高了%。NVIDIAATensorCoreGPU针对AI、数据分析和HPC(highperformance


转载请注明:http://www.180woai.com/afhhy/1233.html


冀ICP备2021022604号-10

当前时间: