万亿巨头英伟达深度解析
发布时间:2023-6-16 10:55阅读:570
1、AI驱动下,英伟达数据中心业务蓬勃发展
英伟达是GPU的发明创造者。1999年,英伟达在纳斯达克挂牌上市,并于同年提出了GPU概念,发布了GeForce 256。这被业界视为现代计算机图形技术的开端。
最初,GPU主要应用于PC游戏和主机游戏(如Sega、Xbox和PS3),能够通过硬件支持T&L(多边形转换与光源处理)。T&L在3D图像渲染中扮演重要角色,计算多边形的3D位置和处理动态光线效果,提供细致的3D物体和高级的光线特效。由于3D图像渲染中的任务是并行计算的,各区域之间没有联系或依赖关系,因此可以轻松拆分成独立的并行任务,提高计算速度。
这种并行计算能力让GPU意外成为AI计算的硬件基础设施。在AI计算中,深度学习是最常见的任务。深度学习模型需要进行大量的矩阵计算,而GPU擅长同时执行大量的矩阵运算,加速了深度学习模型的训练和推理过程。
英伟达作为全球GPU市场的巨头,目前占据主导地位,并在AI时代迎来新的发展机遇。由于芯片产业的赢家通吃效应,英伟达在数据中心领域的GPU应用获得广泛认可,并在各行业的AI项目中广泛采用。随着人工智能应用的兴起和需求的增加,英伟达的数据中心业务有望持续高增长。
除了深度学习,GPU在其他领域的应用也在不断扩大。科学研究、医学影像处理、金融分析等领域都能够受益于GPU强大的计算能力和加速效果。这些领域的需求为英伟达的数据中心业务提供了增长的机会。
英伟达的收入主要来源于游戏和数据中心,而数据中心业务在近期已经超过传统的游戏业务,成为公司的核心支柱。英伟达目前着眼于四个主要市场领域,包括游戏、数据中心、专业可视化和汽车。
游戏业务一直是英伟达的传统主业,高性能游戏显卡是其拳头产品。曾经占据收入最大比例的游戏业务,在2022年已被数据中心业务超越。数据中心业务目前是英伟达最主要的收入来源。云服务提供商正在广泛应用图形处理单元(GPU)技术来处理用户生成的海量数据,包括存储在云服务器上的视频、照片和消息等。因此,对GPU的需求非常旺盛,尤其是AI应用带来的大规模计算需求进一步推动了数据中心业务的发展。
专业可视化产品在设计制造、数字内容创造和企业图像视觉领域扮演着重要角色,能够提升图像显示效果。英伟达在这一领域也发挥着重要作用。
而智能汽车业务有望成为英伟达未来的核心业务。该业务包括向主机厂和供应商销售GPU和SoC芯片,以及提供相应的开发平台。
2、算力领域的架构创新与大模型竞争
英伟达不断改进芯片架构以满足高算力需求。每1到2年推出新的架构,适应计算需求的升级。历年来的架构创新包括:
- Kepler架构(2012年)引入了GPUDirect技术,实现了本机和其他机器GPU之间的直接数据交换。
- Pascal架构(2016年)除了支持深度学习和DP unit外,还引入了NVLink来实现单机内多GPU的点到点通信,带宽达到160GB/s。
- Volta架构(2017年)以Deep Learning为核心,引入了Tensor Core。
- Ampere架构(2020年)提高了FP32着色器操作数量、RT Cores的光线/三角形相交测试吞吐量,并加速稀疏神经网络处理速度。
- Hopper架构(2022年)引入了新一代流式多处理器的FP8 Tensor Core,加速AI训练和推理,并提供高速的Transformer引擎,在大型NLP模型上提供高达9倍的AI训练速度和30倍的AI推理速度。
芯片架构的演进使得计算性能不断提升。例如,代表芯片V100、A100和H100相较于V100,A100在单精度和双精度浮点计算能力上都有显著提升。
大模型的兴起催化了对算力的需求,训练和推理大模型需要大量算力支持。英伟达作为主要的算力供应商,受益于这一趋势。
为了满足大模型竞争,全球科技巨头开始储备算力资源,英伟达直接受益于这一算力军备竞赛。一些公司已经采购了大量的GPU,以支持大模型的训练和运营。据报道,英伟达推出了性能更强大的产品组合,包括GH200 Grace Hopper超级芯片和基于NVIDIA NVLink Switch System的NVIDIA DGX GH200超级计算机。这些产品具有更高的带宽和更低的互连功耗。
3、CUDA软件生态构筑软件壁垒,推出定制AI模型代工服务
英伟达以其高性能计算芯片产品而闻名,然而,其软件生态却成为竞争对手难以企及的优势。通过统一的底层软件架构“CUDA”和运行库“CUDA-X”,英伟达将复杂的显卡编程打包成简单的接口,使开发人员能够轻松高效地利用这些接口和工具进行各种应用开发。CUDA软件生态已成为英伟达的核心壁垒之一,这是多年软件研发投入取得的成果。
除了CUDA,英伟达还推出了定制AI模型代工服务,以协助应用开发。最新发布的NVIDIA ACE游戏开发版利用AI驱动的自然语言交互技术,为游戏中的非玩家角色(NPC)赋予智能,从而改变游戏体验。开发者可以使用ACE游戏开发版在游戏和应用中构建和部署定制的语音、对话和动画AI模型。这一解决方案提供了优化的AI基础模型,包括NVIDIA NeMo™大型语言模型、NVIDIA Riva自动语音识别和文本转语音以及NVIDIA Omniverse Audio2Face用于实时创建脸部表情动画。
通过CUDA的软件生态和定制AI模型代工服务,英伟达在软件领域构筑了强大的软件壁垒,进一步巩固了其在计算领域的领先地位
4、边缘计算平台覆盖更多场景
英伟达在2023年的GTC大会上宣布与多家云服务供应商合作,推出了NVIDIA DGX Cloud。该云服务基于与合作伙伴托管的DGX Cloud基础设施,使企业无需购买和拥有服务器,通过浏览器即可获得超算电脑级的AI运算功能。微软Azure和Google Cloud将陆续开始提供该服务,每个实例的收费标准为每月36999美元起。DGX Cloud的实例包括八个Nvidia H100或A100 80GB GPU,每个GPU节点内存高达640GB,实现计算资源的专用性,不与其他租户共享。
除了DGX Cloud,英伟达的AI平台还包括AI Enterprise和AI Foundations。AI Foundations是一组云服务,可推动企业级生成AI,并支持跨文本、视觉内容和生物学等领域的定制应用。AI Enterprise是英伟达AI平台的软件层,提供端到端的AI框架和预训练模型,简化了生产AI的开发和部署过程。DGX Cloud AI Foundations主要包括NeMo、Picasso和BioNeMo三项服务,分别用于文本生成模型构建、视觉语言模型构建和生命科学服务。
此外,英伟达的Jetson边缘计算平台适用于机器人、智能驾驶、智能制造等多个应用场景。Jetson平台包括Jetson模组、JetPack SDK以及生态系统中的传感器、SDK、服务和产品,加快了开发速度。Jetson平台具有体积小巧、功耗低、可定制化程度高等优势,而且在COMPUTEX 2023上发布的Jetson AGX Orin工业级模块更能提供更高级别的计算能力。英伟达通过打造软件隔离层降低了软件迁移成本,并提供通用的软件工具和解决方案SDK,使在不同Jetson硬件平台上的迁移更加简便。
通过推出DGX Cloud和扩展Jetson边缘计算平台的应用场景,英伟达为中小企业释放了AI能力,并加速了先进技术的普及。这也是云计算的核心优势之一,将昂贵的IT服务平民化,使更多企业能够受益于AI时代的红利。
5、GPU市场增长势头强劲,英伟达占据领导地位,AMD竞争激烈
GPU市场正以高速增长势头持续发展,预计未来将继续蓬勃增长。据数据显示,2021年全球GPU行业市场规模达到了3347亿美元,而预计到2030年,这一数字将增至47737亿美元。年均复合增长率预计将达到34.4%。
在独立GPU领域,英伟达牢牢占据着绝对的领导地位,市场份额约为81%,而AMD则占比约为19%。然而,在人工智能所带来的算力历史性机遇下,AMD正在积极追赶英伟达。作为英伟达在全球唯一一个有分量的竞争对手,AMD正在采用一种新的策略,将CPU、GPU和大量高速内存封装在同一个芯片上,被称为APU。
APU的设计允许CPU和GPU共享统一的物理内存,这为新设计的提升性能提供了优势。CPU可以将数据存储在高带宽内存(HBM)中,而GPU可以直接读取这些数据。相比之下,HBM的带宽要远高于CPU和GPU之间的Infinity链接或PCIe接口。这一设计简化了插座级别的高性能计算(HPC)和人工智能(AI)编程,因为两种处理器类型都可以直接访问同一个内存池。
基于APU架构的MI300芯片预计将于年底应用于超级计算机领域。最新的超级计算机El Capitan,其性能将达到2 exaflop,在2023年国际超算大会(ISC)上亮相并在年底启动。El Capitan将取代目前的Frontier成为全球最快的超级计算机。这款超级计算机将采用AMD最新的Instinct MI300芯片,MI300是一款数据中心APU,集成了13块小芯片,其中包括24个Zen 4 CPU核心、1个CDNA 3图形引擎和8个HBM3内存,总内存容量为128GB。MI300的晶体管数量达到了1460亿个,是AMD目前生产规模最大的芯片。其中,九个计算管芯(compute die)由5nm的CPU和GPU混合而成,而3D堆叠技术则应用于四个6nm的基本管芯(base die)。
温馨提示:投资有风险,选择需谨慎。