断供英伟达高端GPU,国产芯片谁来“续命”?

行业前沿 算力智库 2022/09/09 16:18

8月31日,英伟达发布公告称,美国通知公司向中国出口A100和H100芯片将需要新的许可证要求,同时DGX或任何其他包含A100或H100芯片的产品,以及未来性能高于A100的芯片都将受到新规管制,同受限制的还包括AMD的M1250芯片。


随后,9月1日—3日,在中国上海举办的世界人工智能大会(WAIC),国产芯片登场于聚光灯下,天数智芯、壁仞科技、燧原科技、瀚博半导体、寒武纪、地平线一众国产AI芯片公司均展出了最新的技术和产品,先进制程的大算力芯片迎来高光亮相。


一边在面临“生死围剿”,一边在“奋力发育”,博弈的拉力赛已然开启。


1

剑指HPC和AI,BAT难逃牵连


GPU芯片拉起警报,已经不是第一次了。


从2019年,华为被美国列入出口管制“实体清单”,到后来的“中兴事件”,以及今年8月份美国政府直接豪掷527亿美元,通过“芯片法案”,其中明文列举了“中国护栏”条款,受到美国补贴企业禁止在中国大陆扩大生产和投资更先进的芯片,期限是10年,接着,美国商务部发布最终规定,对设计GAAFET(全栅场效应晶体管)结构集成电路所必须的EDA软件等技术实施新的出口管制,相关禁令已于2022年8月15日正式生效。从芯片上“卡脖子”,意图将中国排除在全球半导体供应链之外,已经成为美国的“阳谋”。


而这一次的风暴中心却直指智能化、数字化的支柱产业:HPC(高性能计算)和AI(人工智能)


为什么不限制Orin,而是限制GPU芯片?


“因为英伟达的GPU芯片对于训练人工智能系统至关重要,所以要卡在这个关键点上”。地平线创始人兼CEO余凯表示。


的确,GPU是AI时代的算力核心亦是人工智能竞争的制高点,训练集的反复训练和推理都需要强大算力的支撑,比如AI深度学习需要很高的并行计算、浮点计算以及矩阵运算能力,基于CPU的传统计算架构无法充分满足人工智能高性能并行计算(HPC)的需求,HPC主要包括数据中心、AI、FPGA和网络四大应用,而HPC应用对于芯片的要求不在于微缩化,而是能否功耗更低,支撑更大的算力,因此需要发展适合HPC的专属芯片,而AI00和H100则是目前最能高效匹配HPC计算需求的芯片配置了。


A100是英伟达2020年推出的数据中心级云端加速芯片,拥有540亿晶体管,采用台积电7nm工艺制程,支持FP16、FP32和FP64浮点运算,为人工智能、数据分析和HPC数据中心等提供算力,FP64一般是衡量超级计算产品的重要指标。


而H100是英伟达今年3月发布的最新一代数据中心GPU,集成800亿晶体管,采用台积电定制的4nm工艺,预计在今年下半年正式发货。英伟达CEO黄仁勋此前表示,这款GPU具有超强的计算能力,20个H100 GPU便可承托相当于全球互联网的流量。相比于A100,H100在FP16、FP32和FP64计算上比A100快三倍,非常适用于当下流行且训练难度高的大模型。


“这两款芯片都是具有足够双精度计算能力的高端GPU,主要用于HPC高性能计算领域,包括科学计算,CAE(计算机辅助工程),医疗等方面。尤其是对于超算中心而言,可谓是精准打击,超算中心即国家超级计算中心,由数千甚至更多处理器组成,具备超高算力,被誉为“计算机中的珠穆朗玛峰”,主要满足国家高科技领域和尖端技术研究的需求,很有可能国内一些政府或者研究所相关单位的超算集群会因此受到影响。”一位行业人士表示到。


扫射的波及范围不止于此,北京半导体行业协会副秘书长朱晶表示:中国正在启动的东数西算战略也会暂时受到影响,因为它需要算力基础设施支撑,另外,互联网领域也难逃牵连。


目前国内高端场景基本采用英伟达的A100,包括OEM厂商浪潮、联想等,云服务公司阿里、腾讯、百度等,对于即将量产的H100,国内主流厂商也已经预定,如阿里云、百度云和腾讯云等,而国内目前尚没有能够与A100、H100对标的芯片产品,如果限制,等于各厂商的若干核心业务线都将被殃及,如百度智能云下的智慧金融、制造、医疗等,以及腾讯的数据分析和视频分析领域等。


但诚如硬币两面,既是难关也是闯关,也许国产GPU厂商补位的机会到了。一位国内GPU企业人员表示。


2

国产芯片谁来“续命”?


不可否认,芯片半导体越来越具有战略性质。


芯片处理器的大量有机叠加,构成了数据中心、智能计算中心、超算中心等大型基础设施。更宏观一点理解,这些芯片都是支撑政企数据上云、数字化进程的底层元器件,可以说是“新基建”的底层支撑,而高性能算力芯片更是“战略咽喉”。


目前服务器加速,主要采用的是GPU芯片,占比接近90%,另外则是ASIC、FPGA等。GPGPU(通用GPU)芯片广泛用于商业计算和大数据处理,如天气预报、工业设计、基因工程、药物发现、金融工程等,在人工智能领域,使用GPGPU(通用GPU)在云端运行模型训练算法,可以显著缩短海量训练数据的训练时长,减少能源消耗,从而进一步降低人工智能的应用成本。


不同应用领域,对芯片计算能力及运算精度要求也有所不同,比如用于商业计算和大数据处理(CAE仿真、物理化学、石油勘探、生命科学、气象环境等),需要双精度浮点、单精度浮点、32位整型运算;人工智能(模型训练、应用推理),要求混合精度浮点、半精度浮点、16位整形、8位整型运算。


可喜的是,国内GPU厂商已经开始崭露头角,成果初显。


从热闹的PR新闻中,便可见一斑,进军算力芯片的国产厂商开始频“秀肌肉”,在今年世界人工智能大会上,瀚博半导体发布了首款7nm云端GPU SG100,用于图像渲染、视频和元宇宙等领域,同期,壁仞科技发布了公司自主研发的首款通用GPU芯片br100,可见,跻身于算力芯片的国产GPU厂商队伍正在加速攻关,纷纷推出自研GPU。


目前国产高端算力芯片还有哪些呢?算力智库基于当下主要国产GPU厂商的进展和产品参数,不完全梳理如下:


1、海光信息(688041)


成立于2014年,不久前在科创板上市,海光信息的产品包括通用处理器(CPU)和协处理器(DCU),海光DCU属于GPGPU的一种。


海光DCU 8000系列,典型功耗260-350W,支持INT4、INT8、FP16、FP32、FP64运算精度,支持4个HBM2内存通道,最高内存带宽为1TB/s、最大内存容量为32GB。海光DCU协处理器全面兼容ROCm GPU计算生态,由于ROCm和CUDA在生态、编程环境等方面具有高度的相似性,CUDA用户可以以较低代价快速迁移至ROCm平台。


从产品官宣的参数来看,海光DCU目前是国内唯一支持FP64双精度浮点运算的产品,英伟达的A100、H100都支持FP64。


2、壁仞科技


成立于2019年,聚焦开发原创性的通用计算体系,建立高效的软硬件平台,同时在智能计算领域提供一体化的解决方案。


今年8月发布的首款通用GPU BR100,集成770亿晶体管,支持FP16半精度浮点运算,据该公司当时宣称,BR100的16位浮点算力能达到1000T以上,8位定点算力达到2000T以上,打破了全球的算力记录,对标的就是NVIDIA最高端的GPU芯片。


不过这款显卡,目前还没有上市被使用,具体性能如何,还有待后观。


3、燧原科技


成立于2018年,主要聚焦AI云端算力领域,提供自主创新、全栈自研、具备完全自主知识产权的通用AI训练和推理产品,可广泛用于云数据中心、超算中心、泛互联网、传统行业及智慧城市等多个人工智能场景。


此前发布的第二代人工智能训练产品邃思2.0,支持从FP32、TF32、FP16、BF16 到INT8运算,单精度FP32峰值算力40 TFLOPS,单精度张量TF32峰值算力160 TFLOPS。


4、天数智芯


成立于2015年,并在2018年正式启动7纳米通用并行云端计算芯片设计,是一家GPGPU高端芯片及超级算力系统提供商,瞄准以云计算、人工智能、数字化转型为代表的数据驱动技术市场。


天数智芯的BI芯片,集成240亿晶体管,采用7纳米先进制程,支持FP32、FP16、BF16、INT8等多精度数据混合训练,单芯算力每秒147T@FP16。


5、寒武纪(688256)


成立于2016年,2020年7月,寒武纪顺利登陆A股,成为科创板AI芯片第一股。主要开发云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件,广泛应用于服务器厂商和产业公司。


寒武纪2021年11月发布的第三代云端AI芯片思元370,相比于上一代芯片,思元370全面加强了FP16、BF16以及FP32的浮点算力,在全新MLUarch03架构和7nm先进工艺加持下,8位定点算力最高为256TOPS。


在能耗都在150W的水平下,其算力与同期竞品英伟达的A10在同一水平。


6、地平线


成立于2015年,是目前国内唯一一家实现车规级AI芯片前装量产的公司,通过自研AI专用计算架构BPU(Brain Processing Unit),地平线构建了面向自动驾驶领域的征程系列芯片,以及面向AIoT领域的旭日系列芯片两大产品线。其中,公司于2021年7月发布了全场景整车智能中央计算芯片征程5,单芯片AI算力达128TOPS。


7、瀚博高新(301321)


成立于2018年,2022年8月18日在深交所创业板上市,在2022世界人工智能大会上展示其首款云端通用AI推理芯片SV100,以及瀚博统一计算架构、全新数据中心(云端)AI 推理卡载天VA10、边缘 AI 推理加速卡载天VE1、瀚博软件平台VastStream扩展版。并且预览展示(未发布)国产7nm云端GPU芯片SG100。载天VE1在40~65瓦功耗下,INT8峰值算力达100TOPS,吞吐率达到主流GPU的2倍,但延时不到主流GPU的5%。


对比来看,目前国内厂商的芯片水平,相比于英伟达的A100和H100还是存在差距的,但是已经有部分厂商正在努力慢慢向高端渗透,缩小差距,比如海光、寒武纪、壁仞科技,不过这中间意味着除了资金、人才等资源的高密集投入,也需要从生态配套上发力,包括操作系统、架构创新和软硬协同,如果真的能够顶上来,那么高端AI、FP方面的GPU也就不愁了。


不妨测算一下,万亿市场规模,自产约4,000亿,进口约6,000亿,假如完全国产替代我国芯片产值就将增长150%,到这个时候,或许国产GPU才迎来真正崛起。


专有名词注释

FLOPS:即每秒浮点运算次数,是每秒所执行的浮点运算次数(Floating-point operations per second;缩写:FLOPS)的简称,被用来评估处理器的性能,这个参数可以说明显卡或者GPU每秒能处理多少个像素点。


TFLOPS:TFLOPS是Tera和Floating-point operations per second两个词的组合,Tera则是万亿的意思,合起来就是每秒浮点运算多少万亿次,一个TFLOPS等于每秒一万亿(=10^12)次的浮点运算,1TOPS相当于1TFLOPS。


GPGPU:通用图形处理器(General-purpose computing on graphics processing units,简称GPGPU),通常,GPU 专用于图形渲染。GPGPU 用于以前属于高功率 CPU 领域的任务,例如物理计算、加密/解密、科学计算和比特币等加密货币的生成。


CPU:Central Processing Unit, 中央处理器,相当于机器的“大脑”, 主要包括运算器(ALU, Arithmetic and Logic Unit)、控制单元(CU, Control Unit)、寄存器(Register)、高速缓存器(Cache)和它们之间通讯的数据、控制及状态的总线。


GPU:Graphics Processing Unit, 图像处理器,GPU最初用在个人电脑、工作站、游戏机和一些移动设备上运行绘图运算工作的微处理器。


BPU:Brain Processing Unit, 大脑处理器。


参考资料

电子发烧友网《高端GPU芯片拉警报,国产算力芯片能力如何?》

36Kr《高端国产AI芯片,还有哪些?|最前线》

资产嘉玲《芯片股回撤超50%,你需要知道芯片股投资的3大逻辑》

经济观察报《经观头条 | 台积电VS三星,巨头3nm芯片竞赛临门一脚》