一、ChatGPT 揭开 AI 发展大幕,算力芯片逐浪前行
(一)ChatGPT 横空出世,AIGC 商业化蓄势待发
ChatGPT 是由 OpenAI 开发的自然语言生成模型,主要应用之一是聊天机器人。ChatGPT 于 2022 年 11 月正式推出,基于 GPT-3.5 架构语言模型利用对话形式,通过大量语料库 和人工反馈的强化学习(RLHF)进行模型训练,最终模型可以理解并针对各类主题生成 类似于人类的响应。得益于强大的性能和舒适的用户体验,ChatGPT 问世以来便得到了 广泛关注,用户规模迅速扩张,上线不到一周就突破 100 万用户,2023 年一月末用户数 突破 1 亿,成为史上用户数增长最快的消费者应用。
GPT-4 多模态模型强化明显,代际版本升级效果显著。2023 年 3 月 14 日 OpenAI 推出了 GPT-4 多模态大模型,进一步提升了数据处理能力和安全性等。与 GPT-3.5 相比,GPT-4 的表现有较大的提升,GPT-4 拥有更可靠、更有创意的表现,同时处理细微指令的能力 更强。此外,GPT-4 能够接收来自图像的信息,可以利用文本和图像的综合信息生成稳 步输出。实验表明,GPT-4 在各种专业测试和学术基准上的表现与人类水平相当。
【资料图】
新一代 Microsoft 365 Copilot 惊艳亮相,AI 商业化热潮蓄势待发。随着 GPT 系列模型在 商业 AI 中的广泛应用和迭代升级,有望带动越来越多的应用场景实现效率提升。以与 OpenAI 合作紧密的微软为例,北京时间 2023 年 3 月 17 日,微软重磅宣布由 GPT-4 驱动 的 Microsoft 365 Copilot,将大模型(LLM)与 Microsoft Graph 和 Microsoft 365 应用 中的数据相结合,打破了传统办公软件的方式,能自动生成文档、电子邮件、PPT,让 Word、Excel、PowerPoint、Outlook、Teams 等办公软件的效率得以提升。国内外科技巨 头纷纷下场进行 AI 模型商业化尝试,除微软、谷歌外,另一互联网龙头企业 Meta 在 AI 领域也有持续性投入。2023 年 2 月,Meta 发布其大语言模型 LLaMA,4 月又推出针对 机器视觉领域的通用图像分割模型 SAM。而国内巨头如百度、华为、阿里、商汤等企业 亦于近期纷纷发布 AI 大模型,AI 商业化进程提速,将为更多行业和应用领域赋能。
GPT 系列属于生成式人工智能 (AIGC) 的范畴。传统 AI 大多属于分析式 AI,通过对输 入数据进行分析和推理,实现感知、认知及决策。而生成式 AI 使用各种机器学习算法, 从数据中提取和理解要素,使机器能够创建全新的数字视频、图像、文本、音频或代码 等内容。它创建出的内容与训练数据保持相似,而非复制。对抗生成网络 GAN (Generative adversarial networks)是 AIGC 领域早期使用最多的算法模型之一,其核心是 AI 内部的两 个程序互相对比,从而生成最接近人类心目中的正确形象,因此被广泛应用于生成图像和音视频领域,随后不断涌现的包括 Transformer 、Diffusion 等在内的诸多模型在 AIGC 技术路线上进行了演进及迭代,使得学习的分布变得更加全面和接近现实,从而呈现出 更真实和高质量的内容,大型模型在 AIGC 中变得越来越重要。
(二)多模态催生高算力需求,AI 芯片迎来黄金发展期
多模态 AI 驱动新一轮算力需求爆发。随着 AI 从单模态演变为多模态,所需要处理、训 练的数据从单纯的文本数据转为图像、文字、语音、视频在内的多媒体数据,所需要的 算力也呈指数级增长。根据 OpenAI 发布的报告《AI and Compute》,自 2012 年以来,AI 训练应用的算力需求每 3-4 个月就会翻倍,至今 AI 算力增长超过了 30 万倍。而随着多 模态 AI 的逐步落地,边缘端需求上升将会导致算力需求进一步爆发。另一方面,谷歌、 百度、阿里巴巴等科技行业纷纷计划推出类 ChatGPT 的情况下,将会加剧算力供需的不 平衡。根据 IDC 与浪潮信息联合发布《2022-2023 中国人工智能计算力发展评估报告》, 2022 年我国智能算力规模已达 268 百亿亿次/秒(EFLOPS),超过通用算力规模,预计到 2026 年中国智能算力规模将达到 1271.4EFLOPS,未来五年复合增长率达 52.3%,同期通 用算力规模的复合增长率为 18.5%。
算力、模型、数据是 AI 发展的三大要素,芯片是 AI 算力的源泉。根据承担任务的不同, AI 芯片可以分为训练和推理芯片。训练,即通过输入大量数据来构建神经网络模型,使之可以适应特定的功能。训练芯片对算力、精度、通用性有较为苛刻的需求,需要能够 处理海量数据以及适应各种不同的学习任务;推理,即借助现有神经网络进行运算,通 过新输入的数据来获得推理结论。推理芯片对性能和精度的要求相对较低,更注重对成 本、功耗、时延等指标的综合考量。
“云-边-端” 泛在算力架构趋势已定。在算力未来需求持续增加的情况下,网络带宽和时 延限制(性能)和网络带宽成本限制(成本) 导致的算力需求错配需要通过在边缘端部 署算力进行支撑,构成“云-边-端”泛在算力部署方案。云端,即数据中心,依靠强大算力 利用海量数据进行模型训练,云端 AI 芯片具有性能高、算力强的特点,能够对深度学习 算法模型进行训练与推理,云端的算力是由 GPU 或 NPU 等芯片产生的,通过在虚拟 平台调度服务器上处理复杂的数据来实现合理使用;边端的算力由 CPU、FPGA 等芯片 产生,通过边端服务平台的实时数据过滤和响应,可以保证网络的稳定性且降低延迟; 终端,即手机、汽车、智能家居设备、各种 IoT 设备等执行边缘计算的智能设备,通常 使用训练好的模型进行推理,终端 AI 芯片具有体积小、耗电少的特点,算力是由 CPU、 GPU\DSP 或带有 AI 核的 SoC 等芯片产生的。
人工智能技术在云端(云)、边缘端(边)和终端(端)设备中均有广泛应用,三种场景 对于芯片的运算能力和功耗等特性有着不同要求。云端主要部署训练芯片和推理芯片, 进行智能数据分析和模型训练,以及处理部分对传输带宽要求比高的推理任务;边缘和 终端主要部署推理芯片,需要独立完成数据收集、环境感知、人机交互及部分推理决策 控制任务。
作为用于加速人工智能训练和推理任务的专用硬件,AI 算力芯片既包括 CPU、GPU、 FPGA 等传统芯片,也包括以 TPU、VPU 为代表的专门针对人工智能领域设计的 ASIC 芯片,此类芯片通常拥有高度并行计算能力和优异的低功耗高效计算性能。IDC 研究发 现,2021 年上半年中国 AI 芯片中,GPU 占有 90% 以上的市场份额,稳居第一,而 ASIC、 FPGA、NPU 等其他非 GPU 芯片也在各个行业和领域被越来越多地采用,整体市场份 额接近 10%,预计到 2025 年其占比将超过 20%。
CPU 为 AI 提供算力和数据管理功能,帮助实现复杂的模型训练、预测和决策过程。CPU 是一种通用处理器,适用于大多数计算任务。CPU 的核心数较少,因此其更适用于单线 程或少量线程的任务,例如文本处理、网页浏览、编程等,对于高性能计算任务,如机 器学习、深度学习等,则表现稍显乏力。 算力方面,CPU 可以通过指令实现并行计算提升 AI 系统的计算性能。无论是机器学习 还是深度学习模型,大多数计算任务在 AI 算法中主要基于向量和矩阵运算,而 CPU 通过高效的向量化指令集,可以实现对大规模矩阵乘法、卷积等高性能的计算,能够在单 位时间内完成多个数值运算,从而有效地提高运算效率。由于很多计算任务如卷积神经 网络(CNN)的卷积运算都具有较强的并行性,CPU 可以通过 SIMD 指令(单指令流多 数据流结构)以及多线程技术来加速 AI 工作负载。
GPU 具有并行计算能力和高速存储器,可以对需要同时执行多个计算和内存密集型任务 的应用进行加速,在 AI 中主要用于加速训练和推断过程。具体看,GPU 常被应用于:1) 神经网络;2)通过大量并行数据输入加速 AI 和深度学习操作;3)传统的 AI 推理和训 练算法。GPU 已经成为了当今主流的 AI 推理计算不可或缺的一部分,这也要求 GPU 需 要集成更多的核心和更密集的算力。为此,GPU 供应商一直在改进其架构,以更好地适 应新的 AI 需求。具体看,为了加速深度学习计算,NVIDIA 专门开发了能够在半精度浮 点运算中实现高度并行的深度学习计算硬件——Tensor Core,从而大幅提高了深度学习 计算的速度,显著降低了能耗。此外,AMD Radeon VII 在设计上也加入了深度学习领域 的优化代码,使该处理器在 AI 和深度学习领域的表现得到了提升。 算力方面,GPU 可以通过并行处理能力显著提升 AI 应用的处理速度。由于 AI 计算中涉 有大量如矩阵乘法、卷积和张量运算等线性代数计算,GPU 内大量的乘加器能够满足算 法的需求,且其上百个核心可以同时执行许多线性代数计算,从而进一步缩短计算时间。 此外,GPU 的并行处理能力在神经网络的训练和推断中尤为重要,因为神经网络的运算 过程中通常需要处理大量数据,需要同时使用许多小型核心来进行计算,而 GPU 的多核 属性恰好满足了神经网络对于计算的需求。同时,GPU 可以在训练期间对神经网络进行 优化,使其更加有效地利用硬件资源。
作为 AI 计算平台使用最为广泛的加速芯片之一,FPGA 具有功耗低、延迟短、灵活性 强的特点,被广泛应用于机器学习、网络安全、超大规模图像处理、基因检测等领域。 随着 AI 的发展对算力及定制化愈发严苛的要求,FPGA 也将围绕可编程的特性作进一步 拓展,通过优化其硬件构架、集成 AI 构架与硬件加速器等方面进一步发展。与此同时, CPU+FPGA 或将成为全新的异构加速模式,在未来被更多的 AI 应用领域所采纳。 低功耗与自适应性:对于移动设备和嵌入式系统等具有限制性能的场景来说,FPGA 具 有得天独厚的优势,即可实现低功耗和自适应性能的特点。由于其可编程的特性,FPGA 可以通过微调内部的电子元件实现自适应算法,以满足不同环境下的计算需求。同时, 其节能的特点意味着可以将 AI 应用带到更多的场景中,比如移动机器人、基于车载装置 的驾驶辅助系统等。 高速处理与优化:由于 FPGA 具有高度灵活、高速的特点,其并行处理能力可以极大地 提高 AI 算法的计算性能,从而实现高效的推理和训练等任务。同时,FPGA 还可以根据 不同的 AI 算法需求自由编程,以最大程度地优化其运行效率和性能。由于其纯硬件的实 现方式,FPGA 比传统的 CPU 和 GPU 更加灵活,因此越来越多的 AI 开始采用 FPGA 进 行计算处理。
ASIC 是面向特定的、具体的、相对单一的人工智能应用设计的专用芯片。ASIC 从性能、 能效、成本均极大的超越了标准芯片,非常适合 AI 计算场景。优点:1)定制功能与更 小的尺寸:由于器件是根据设计的规格进行生产的;2)更低的器件成本:实现大批量设 计与生产,批量越大,成本越低;3)高性能、低功耗:ASIC 芯片相当于将 AI 算法“硬 件化”,特定算法下能效更高;4)可形成 IP 校复用:模块化的设计方法,可根据设计需 要进行 IP 选取。ASIC 一次性成本远远高于 FPGA,但由于其量产成本低,目前主要应 用于终端,主要形态为行业专用 SoC,较多集中于语音处理领域。
处理器和存储器间鸿沟日益拉大,“内存墙”问题亟待解决。主流算力芯片外,芯片存取 能力亦是决定 AI 运算效果的重要一环。根据 UC Berkeley RISELab 数据,大型 Transformer 模型中的参数数量呈指数级增长,每两年增长 240 倍,而单个 GPU 内存 仅以每 2 年 2 倍的速度增长,内存延迟和带宽正在限制系统性能,持续(流式)内存 带宽继续落后于峰值 FLOP 速率,内存不再能够跟上原始计算能力的步伐,此外,网络 延迟和带宽也继续以惊人的速度落后于处理器性能,这种不平衡导致半导体行业出现了 “内存墙”问题。 AI 高算力需求刺激存储芯片新发展。人工智能应用的快速发展正在显着改变信息的消费、 移动和处理方式。在强调能效的同时增加内存带宽对于进一步支持云、边缘和端点的广 泛行为分析和神经网络训练至关重要。随着深度学习等 AI 算法的发展,AI 服务器对计 算能力和内存带宽的要求越来越高。GDDR 逐渐达到极限,每秒每增加 1GB 的带宽所需 要的电量剧增,NVIDIA 和 AMD 等厂商逐渐开始使用 HBM(高带宽存储)。HBM 是 DRAM 的一种新技术,它通过 3D 堆叠技术将多个 DDR 垂直堆叠在一起,形成一个高度 集成的内存模组,同时与 CPU/GPU 合封,使得 HBM 内存芯片具有更大的密度和更短的 电路路径,能够提供更高的内存带宽和更低的延迟,可以显著提高深度学习等 AI 算法的 计算性能和效率。此外,与 GDDR5 相比,在相同数量显存下,HBM 产品大小仅仅是 GDDR5 的 6%,并且每瓦带宽是其 3 倍以上。
(三)海外大厂深度布局,开启 AI 算力新时代
英伟达先发优势显著,AI 时代 GPU 大显神威。英伟达在 1999 年推出首款 GeForce 256 产品,定义了 GPU 作为图形渲染芯片的功能。2010 年开始英伟达开始专注于 AI 领域的 研发,其 Tesla GPU 为全球最快的超级计算机提供算力支持,同时推出了首个 GPU 计算 架构“Fermi”。此后,英伟达保持每半年推出一款新产品,每两年迭代一次新的芯片架 构。从 Fermi 架构到如今最新的 Hopper 架构,产品的制程由 40nm 迭代至 4nm,晶体管 数量从 30 亿增长至 800 亿,FP32 算力从 1.5TFLOPS 提升到 60TFLOPS,内存带宽从 192.4 GB/s 提升到 3TB/s。
GPU+CUDA 生态,构建高效并行计算平台。2006 年英伟达推出通用的并行计算平台和 编程模型 CUDA,能够兼容 C++、FORTRAN、DirectCompute、OpenACC 等编程语言环 境。过往虽然 GPU 的“指令复杂度”提高可以带来性能提升,但是会丧失通用灵活性, 而英伟达 CUDA 生态允许开发者使用不同维度的语言进行开发。作为一个有选择范围的 生态系统,开发者能够按照自身的应用需求来使用 CUDA 生态。CUDA 经过多年迭代已 经成为了软硬件配合的独特生态系统,英伟达也以此为基础构建了 GPU、系统、软件和 服务的全方位人工智能产品框架。而在收购 ARM 后也将于今年推出自研的 Grace CPU 进一步完善产品矩阵。
AMD 强化 CPU 优势,以 INFINITY 架构和 ROCm 软件平台构筑高性能算力平台。 INFINITY 架构是 AMD 推出的用来解决异构数据一致性的互联方案,能够提高互联带宽、 降低异构通信延迟以及编程难度。通过不断迭代,第三代 INFINITY 架构能够支持 8 通 道 GPU 的连接、CPU 与 GPU 之间的一致性内存以及百万兆级运算。ROCm 是 AMD 于 2015 年所推出的一个软件开发平台,类似于英伟达的 CUDA,目前已经迭代到第五代。 ROCm 为开发者提供了一个开放的、标准的、低摩擦的生态系统,可以实现高性能、高 生产力和可移植性的异构计算。目前 AMD 使用 INFINITY 架构和 ROCm 平台的最新产 品 MI250X 峰值性能可以达到 FP32 单精度 47.9TFLOPS,内存带宽达到 3276.8GB/s。
英特尔错失先手,奋起直追正当时。由于重视不足,英特尔几乎错过了 ARM 架构主导 的移动计算市场,如今 AI 浪潮再起,英特尔内生外延等方式加强对于 AI 领域的布局。 计划从 2023 到 2025 年,英特尔至强处理器系列将推出包括 CPU、GPU、Dedicated AI、 FPGA 在内的多款产品,并通过优化主流的开源框架、库和工具来实现出色的硬件性能, 同时消除复杂性,在生成式 AI 领域持续发力。
二、AI 芯片奠定算力时代基石,国产芯片厂商加速布局
(一)人工智能发展浪潮兴起,AI 芯片市场规模持续扩张
AI 时代算力需求高增,带动 AI 芯片市场持续扩容。信息“爆炸”时代全世界的数据量 激增,根据 IDC 预测,全球数据圈将由 2018 年的 33ZB 增长至 2025 年的 175ZB。海量 的数据,需要使用多种具有高速运算能力的人工智能芯片来完成过滤、分析,进而驱动 AI 芯片市场持续增长。根据 WSTS 数据,2019 年全球 AI 芯片市场规模仅 110 亿美元, 2025 年预计将增长至 726 亿美元,CAGR 达到 37%;根据甲子光年数据,中国 AI 芯片 市场规模将从 2018 年的 61 亿元增长至 2023 年的 556 亿元,CAGR 高达 56%。
云计算为 AI 提供基础架构,终端应用落地持续进行中。在人工智能刚起步的阶段,算法 就已经通过云端数据中心在大数据分析、商业决策等方面广泛应用,目前云端仍为 AI 芯片的主要应用场景。而未来随着智能化的逐步渗透,人工智能将进一步下沉到摄像头、交通工具、移动设备等终端中,与云端形成协同作用。根据甲子光年统计,我国 AI 芯片 在云端/终端的比例将从 2018 年的 75.45%/24.55%变化为 2023 年的 68.97%/31.03%。与此 同时,随着大模型逐渐投放至市场中,AI 芯片所需承担的推理工作占比也将不断上升。
GPU 占据 AI 芯片市场最大份额,非 GPU 比重有望进一步提升。由于 GPU 具有通用性 强、速度快、效率高等特点,在训练和推理阶段均适用,因此目前仍为 AI 芯片中的首选。 根据 IDC 统计,2021 年 GPU 在我国 AI 芯片市场占比为 91.9%,NPU、ASIC 和 FPGA 的市场份额尚不足 10%,未来随着非 GPU 芯片技术提升以及成本降低,将被越来越多地 采用,预计到 2025 年非 GPU 芯片在 AI 芯片中的比重将增长至 20%。除此之外,类脑芯 片的产业化和商业化也在持续演进中,机器学习的发展将为其提供进一步突破的可能性。
(二)“云+边+端”多维度协同发力,带动上游硬件行业发展
在 AI 应用方面,ChatGPT 的爆火,意味着大语言模型已发展至新的阶段,由于大模型的 构建及应用需要大量的云端算力支持,因此承接算力需求的 AI 芯片迎来了发展新浪潮。 同时,由于边缘计算可以完成数据收集和部分数据处理工作,在工业互联网、车联网/自 动驾驶、移动互联网等场景中能够与云端协同完成计算任务,边缘计算也将迎来新一轮 的成长机遇。展望未来,云、边、端的协同发力,将共同驱动上游 AI 芯片市场的发展。
1、云计算:大模型时代算力需求激增,AI 芯片迎来产业机遇
ChatGPT 数据量激增,带动底层算力需求大幅提升。根据 OpenAI 报告,自 2012 年以来, AI 训练应用的算力需求以每 3-4 个月翻倍的速度递增,2012 年至今 AI 算力增长超过了 30 万倍。目前,在训练端 ChatGPT 模型的总算力消耗约已达到 3640PF-days,而 GPT-4 又会在 ChatGPT 的基础上增加了图像、视频等信息类型,所需算力支持较单纯的文字交 互又会有大幅提升;在推理端,随着用户数量及应用范围的不断扩大,产生的数据量将 进一步增加,也会对算力提出更多需求。
单个大模型训练用 GPU 需求约 3000-5000 颗,推理用芯片数量有望不断增加。在训练用 AI 芯片方面,参考陈巍博士及其团队的测算结果,若一次训练耗时两周,标准的 ChatGPT-175B 大致需要 375-625 台 8 卡 A100 服务器进行训练,对应 A100 GPU 资源需 求量约 3000-5000 块,按照 A100 芯片单价为 1 万美金计算,单个大模型带来的训练用 GPU 市场规模增量约 3000 万-5000 万美元。与此同时,推理用 AI 芯片也将随着用户数量增多和用户对短时间内文本输出需求的增大而不断提升。
大模型开发浪潮助推云计算步入新阶段,带动上游硬件市场需求。在 AI 开发中,由于深 度学习模型开发及部署都需要强大的算力支持,开发者如选择自购 AI 服务器成本过高, 而通过云服务模式能够显著降低 AI 开发成本,因此云服务模式成为 AI 开发者的首选。 大模型开发浪潮的开启及投放市场,意味着云计算进入了新的阶段。根据 Gartner 和中国 信通院统计,2021 年全球云计算市场规模为 3307 亿美元,预计 2025 年将超过 6000 亿 美元;我国公有云市场规模有望从 2022 年的 4033 亿元增长至 2027 年的 18764 亿元, CAGR 为 36%。随着云计算的不断发展,承载算力的硬件市场也将实现新一轮的增长。
2、边缘计算:万物智联带来海量数据,促进 AI 芯片需求提升
海量数据涌现,中心云计算捉襟见肘,边缘云规模显著增加。随着物联网的不断发展, 智慧城市、自动驾驶、工业物联网等应用逐步落地,大量终端设备产生的数据量快速增 加,中心云计算在算带宽负载、网络延时等方面越来越紧张,边缘计算的价值进一步凸 显。根据艾瑞咨询预测,2020 年我国边缘云市场规模为 91 亿元,其中 IoT/现场/区域边 缘云的规模分别为 16/38/37 亿元,预计 2025 年我国边缘云市场规模将达到 550 亿元,其中区域边缘云将会在互动直播、vCDN、车联网等较早成熟的场景下实现增速领跑。
边缘计算应用场景丰富,促进多种 AI 芯片需求提升。与中心云相比,边缘云更加接近用 户和数据源,在降低网络延迟和传输成本方面具有显著优势,能够有效缓解中心云的计 算负载和带宽压力。在边缘计算中,AI 芯片会利用传声器阵列、摄像头等传感器采集到 的数据按照已构建的模型进行推理并输出相应的结果。由于边缘计算的应用场景众多, 对于硬件的算力、能耗等性能要求也不尽相同,因此催生出对 AI 芯片更加广泛的需求。
汽车智能化升级持续进行,推动 AI 芯片量价齐升。自动驾驶发展如火如荼,根据 ICV 发布的报告《Global intelligent driving forecast-2022》,2021 年全球自动驾驶取得了飞速进 步,L1 及以上级别自动驾驶汽车渗透率首次超过 2/3,预计到 2026 年该比重将提升至 94%。 根据地平线数据,自动驾驶等级每增加一级,所需芯片算力就会带来数十倍的上升。其 中 L2 级自动驾驶的算力需求仅为 2-2.5TOPS,而 L5 级别的算力需求将超过 2000TOPS。从技术路线的发展趋势来看,未来 ASIC 芯片将会逐步取代高功耗的 GPU 成为市场主流。
技术升级助力万物智联发展,催生出广阔 AI 芯片市场空间。随着 AI 和 IoT 技术的不断 发展,各大产业向数字化升级方向演进。根据 GSMA 发布的报告《The mobile economy 2020(2020 年移动经济)》,2020 年全球物联网连接数量已达到 137 亿个,预计到 2025 年将突破 245 亿个,CAGR 为 12.4%;而我国物联网连接数量也将从 2020 年的 45.3 亿个 增长至 2025 年的 80.1 亿个,2020-2025 年 CAGR 为 12.1%。在万物智联时代,物联网广 阔的应用场景将产生庞大的数据,需要更多的 AI 芯片来提供底层算力支持。
(三)海外龙头主导 AI 芯片市场,本土厂商充分受益国产替代浪潮
海外龙头垄断高端 AI 芯片市场,国内厂商加速布局追赶。英伟达、Intel 等老牌海外厂 商产品布局广泛,既有云端训练+推理芯片,又有终端应用的产品,根据 JPR 统计,2022Q4 英伟达在全球独显 GPU 市场中的份额高达 82%,Intel 和 AMD 的市占率均为 9%,海外 龙头几乎垄断了高端 AI 芯片市场。近年来,国内也出现了寒武纪、比特大陆、百度、地 平线等优质本土厂商发力布局相关产品,展望未来,国内 AI 芯片公司仍有广阔成长空间。
AI 芯片是人工智能发展的基础,把握芯片才能拥抱算力时代。根据 IDC 统计,CPU、 GPU、存储等芯片在各类服务器成本中的占比约 75-90%,其中在机器学习型服务器中 GPU 的成本占比超七成,可见 AI 时代离不开芯片的支撑。随着模型的多模态发展,参 数规模和训练数据都呈现出指数级增长,消化、处理这些数据所需的算力对模型发展起 到了关键的制约作用。在满足算力的最终诉求下,除大量增加服务器的台数外,提升算 力芯片性能同样必不可少。因此若想把握住算力时代,必须先实现 AI 芯片的自主可控。
高端 AI 芯片进口受限,自主可控背景下国内厂商有望持续受益。英伟达的 A100、H100 芯片被认为在人工智能、数据分析、科学计算以及云计算等领域有着广阔的应用前景, 2022 年 8 月 31 日,受国际贸易形势变化影响,英伟达向中国及俄罗斯出口 A100 和 H100 芯片受到限制。长期来看,国内高端 AI 芯片进口受阻,为本土公司提供了新机遇,国产 厂商有望在自主可控背景下持续受益。
国产 AI 芯片公司持续涌现,训练/推理新品陆续推向市场。尽管目前 AI 芯片市场仍由海 外大厂主导,但国内已涌现出一批优质的 AI 芯片公司,陆续发布产品推向市场。例如: 寒武纪的 AI 芯片思元 290 主要用于云端训练,而思元 370 可用于云端+训推,且思元 370 是公司推出的首款采用 Chiplet 技术的 AI 芯片,最大算力高达 256TOPS;海光信息的 DCU 芯片“深算一号”拥有丰富的软硬件生态,且能够兼容“CUDA”架构。而腾讯、百度、 阿里巴巴等互联网大厂也通过投资、孵化等方式在 AI 芯片领域大力布局。其中,腾讯为 燧原科技注资、百度为昆仑芯投资、阿里巴巴孵化了平头哥。
三、重点公司分析
(一)海光信息:本土 CPU 领军企业,开拓 DCU 打开成长空间
国产高端处理器领导者,CPU+DCU 双轮驱动成长。海光信息成立于 2014 年,2022 年 8月于科创板上市,主营业务包括高端通用处理器(CPU)和高端协处理器(DCU)两大 产品线。公司以中科院计算所为基础,通过与 AMD 合作,切入 X86 处理器设计领域, 采取合作—吸收—创新的方式成功构筑生态壁垒。公司持续迭代升级+完善产品布局,目 前在 CPU 领域,已形成了海光 7000、5000 和 3000 三大产品系列,可覆盖从中高端到中 低端场景的需求,同时公司积极拓展 DCU 产品,2021 年推出首款 DCU 深算 1 号,产品 性能优异,可被广泛应用于人工智能、商业计算等领域。近年来受益于国产替代带来的 庞大市场需求,叠加公司产品性能的提升以及新产品的陆续推出,业绩实现快速增长。
服务器 CPU 市场空间广阔,国产替代未来可期。受益于 5G、人工智能、AIoT 等新兴产 业的发展,服务器市场规模持续扩张。按照技术路线分,x86 架构作为 CPU 复杂指令集 的代表,性能和生态优势显著,占据服务器市场的主要份额。根据 IDC 数据,2021 年我 国服务器市场出货量为 391.1 万台,市场规模为 250.9 亿美元,按照 CPU 在基础型服务 器中的成本占比约为 30%-35%测算,对应服务器 CPU 行业规模约 82 亿美元,市场空间 广阔。从竞争格局方面看,由于指令集与生态两大壁垒高企,CPU 行业龙头集中效应显 著。IDC 数据显示,Intel 和 AMD 占据全球 x86 服务器 CPU 市场中 95%以上的份额,海 光作为国内 CPU 龙头,具备生态壁垒和技术优势。 AI 时代拉升算力需求,GPGPU 行业景气度持续上升。ChatGPT 引爆新一轮 AI 浪潮来 袭,全球数据量激增,带动底层训练+推理算力芯片需求持续增长。根据 WSTS 数据, 2019 年全球人工智能芯片市场规模仅 110 亿美元,预计到 2025 年将增长至 726 亿美元, CAGR 达到 37%。GPGPU 作为国内 AI 领域运算加速主要解决方案,将充分受益本轮 AI 产业上行周期。目前全球 GPGPU 市场仍由英伟达、Intel 等海外大厂主导,国产替代 尚有广阔空间。2021 年,海光信息面向加速计算市场推出第一代 DCU 产品——深算 1 号,该款产品拥有强大的计算能力和高速并行处理能力,同时能够兼容“类 CUDA”架 构,产品性能优异,当年贡献的营收占比超过 10%。目前第二代 DCU 产品——深算 2 号已在加紧研发过程中。
(二)龙芯中科:国内 CPU 龙头厂商,全面打造自主生态
本土 CPU 领军企业,独立研发构建自主生态。龙芯中科源于 2001 年中科院成立的龙芯 项目小组,自 2008 年开始市场化独立运营。公司于 2021 年开启自主生态建设的新征程, 目前已推出 LoongISA 与 LoongArch 指令集,Loongnix 与 LoongOS 操作系统,和龙芯 1、 2、3 号处理器及其周围的配套芯片,可被广泛应用于工业控制和信息化等领域。公司董 事长胡伟武博士是“龙芯”处理器的主要设计人员,核心技术团队成员均具有中科院计 算所工作经历和成熟的处理器及芯片相关研发经验,为公司未来发展奠定坚实基础。 2018-2021 年受益于产品持续迭代升级以及新客户群的顺利拓展,公司业绩实现快速增长。 2022 年电子政务市场停滞导致公司营业收入有所下降。 AI+信创推动 CPU 市场扩容,国产替代势在必行。AI+信创产业腾飞,促进全球算力需 求快速增长,带动 CPU 需求大幅提升。当前全球 CPU 市场呈 Intel 和 AMD 双寡头格局。 其中,Intel 凭借自研 x86 指令系统架构掌握的先发优势,结合与 Windows 形成 Wintel 联盟构筑生态壁垒,多年保持霸主地位。目前国内 CPU 厂商仍处于成长阶段,国产 CPU 发展主要包括两条路线,一是通过获取 x86/AMD 等主要架构授权,加入主流生态体系; 二是通过自主研发指令集及操作系统构建新生态。在中美科技战持续加码的背景下,CPU 作为大数据、AI 能等高科技发展的基石,实现底层技术全自研势在必行。
技术积累深厚,产品已获得下游客户的广泛应用。公司基于 LoongArch 迁移或研发了操 作系统的核心模块,同时龙芯坚持自主研发 IP 核,形成了包括系列化 CPU IP 核、GPU IP核、内存控制器及 PHY、高速总线控制器及 PHY 等上百种 IP 核,目前已实现 CPU 自主 研发和软件生态建设核心技术的积累。在信息化领域,国内数十家整机品牌推出了基于 龙芯 CPU 的台式机、笔记本、一体机与服务器设备,公司产品已经被广泛应用于电子政 务办公信息化系统中。在工控领域,国内上百家主要工控和网络安全设备厂商推出了基 于龙芯 CPU 的工控和网安产品,设备已经在发电、输变电、轨道交通、高速公路 ETC 系统等领域规模化应用或验证。
(三)寒武纪:全面深耕 AI 芯片领域,算力时代迎来快速成长机遇
国内 AI 芯片领域先行者,全面布局云边端应用场景。寒武纪自 2016 年成立以来就专注 于人工智能芯片的研发与技术创新,公司主营产品包括云端智能芯片及加速卡、训练整 机、边缘智能芯片及加速卡、终端智能处理器 IP 及相应的配套软件开发平台,目前已陆 续推出了思元、玄思系列产品,可被广泛应用于安防监控、自动驾驶、移动终端、智能 家居领域。公司创始人&董事长陈天石博士曾任中科院计算所研究员,在 AI 及处理器芯 片领域深耕十余年,具备扎实的理论基础和丰富的研发经验,其他核心研发人员多毕业 于著名高校或科研院所,拥有微电子等相关专业的学历背景和中科院计算所工作经历。 云边端加速协同发展,共同驱动 AI 芯片行业成长。以 ChatGPT 为代表的大模型已拥有 通用 AI 的部分特征,代表着 AI 已发展至新的阶段,因此对算力提出了更高的要求,AI 芯片作为承载行业发展的硬件基础迎来新一轮成长周期。根据 IDC 统计,2022 年中国的 云端智能芯片市场超过 35 亿美金,预计 2025 年将超过 70 亿美元。与此同时,受益于工 业互联网、车联网/自动驾驶、移动互联网等产业的蓬勃发展,边缘计算的数据量和算力 需求也在不断扩大,未来将协同云计算共同驱动 AI 芯片行业成长。目前全球 AI 芯片市 场几乎由英伟达、Intel 等海外大厂垄断,同时英伟达 H100 和 A100 产品进口已受限,在 行业加速发展叠加自主可控需求的背景下,国内头部厂商迎来了新的发展机遇。
自主研发能力不断提升,持续迭代完善产品布局。随着研发能力的提升,公司产品持续 迭代升级,布局逐渐完善,目前可以提供云边端一体、软硬件协同、训练推理融合、具 备统一生态的系列化智能芯片产品和平台化基础系统软件。在云端产品方面,公司推出 了思元 290 和思元 370 系列芯片,目前已成功导入至阿里云等多家头部客户,同时新产 品也在快速迭代中;在边缘产品方面,公司已拥有思元 220 系列芯片,自发布以来销售 量超过百万片。同时,公司在 IP 授权及软件方面也有相应的产品推出。
(四)晶晨股份:智能多媒体 SoC 龙头,WiFi-6 /汽车芯片打造第二成长曲线
全球布局/国内领先的多媒体 SoC 芯片设计商,业务规模持续增长。公司于 2003 年在美 国硅谷成立,在音视频解码、模拟电路和数字电路设计、生产工艺开发等方面拥有深厚 的技术积累。公司目前拥有 S/T/A/W/V 五大 SoC 系列芯片,分别对应智能机顶盒、智 能显示终端、AI 音视频系统终端、无线连接及车载领域,业务已覆盖中国大陆、香港、 北美、欧洲、拉丁美洲、亚太、非洲等全球主要经济区域。依托长期技术沉淀、持续对 新技术、新应用领域的研究开发,以及全球布局的区位优势和市场资源,公司在全球范 围内积累了稳定优质的客户群,业务规模持续增长。 AI 赋能智能机顶盒曙光初现,主控 SoC 深度受益价值量显著提升。随着用户需求的不 断提升,机顶盒开始由单一功能向集成化、智能化方向发展,目前高端的智能盒子已成 为智慧家庭的重要控制器之一。此外,智能盒子已开始嵌入 ChatGPT 语音入口模块具备 普及率提升、CPU 及视频、与图像处理能力强、独立联网、独立运算、边缘计算在增强、 节约云资源等优势,并有助于互联网厂商实现 ChatGPT 类产品应用的快速推广,智能机顶盒有望实现手机从功能机向智能机时代升级的“iPhone”时刻。传统机顶盒一部售价 约 200 元,智能盒子售价达 1288 元(以腾讯极光 pro 为例),智能化趋势下 ASP 提升显 著,作为核心零部件的主控SoC价值量亦迎来明显抬升,行业天花板料将重塑。根据Grand View Research 的数据,2021 年全球约出货 3.3 亿台机顶盒,高端智能盒子目前渗透率较 低,随着 AI 技术的持续赋能,渗透率有望迎来快速上升期,公司与谷歌/亚马逊等海外 大厂,以及国内阿里/腾讯等互联巨头保持合作,作为全球机顶盒 SoC 龙头,公司有望深 度受益行业升级。
WiFi 产品预量产/汽车芯片持续研发投入,第二成长赛道明确。公司第二代 Wi-Fi 蓝牙芯 片(Wi-Fi6 2×2,BT5.3)预量产。Wi-Fi6 产品性能较 Wi-Fi5 实现跃升,具有更加广阔 的应用场景,且可与公司主控 SoC 平台广泛适配并配套销售(电视、机顶盒、IOT 等), 未来有望逐步成长为公司销量最大的单品之一。公司 Wi-Fi 芯片亦同时面向公开市场, 独立销售,ASP 较 Wi-Fi5 产品显著提升,无线连接芯片业务有望快速增长。汽车芯片方 面,目前主要有车载信息娱乐系统芯片和智能座舱芯片,已进入多个国内外知名车企, 并成功量产、商用(包括但不限于宝马、林肯、Jeep、极氪、创维等)。汽车电子是公司 的长期战略,公司将持续投入研发,充分发挥既有优势(系统级平台优势、智能化 SoC 优势),不断扩充新技术、推出新产品。
(五)兆易创新:国内存储设计龙头,合作长鑫存储打开 DRAM 成长天花板
国内存储器设计龙头,深度布局 AI 与汽车蓝海赛道。兆易创新于 2012 年成立,主营业 务为存储器、微控制器和传感器的研发、技术支持和销售。近年来,智能汽车与智慧工 厂的布局正在提速,AI、物联网等消费性电子产品蓬勃发展,以及新兴应用层出不穷, 这些都在驱动市场对 DDR 需求的提升。公司依托深耕闪存市场多年所积累的技术经验, 2021 年推出自有品牌 DRAM 产品,切入消费、工控等利基型 DRAM 市场,2022 年又 重磅推出首款自研 DDR3L 系列产品,采用长鑫存储先进工艺制程,符合 JEDEC 标准, 读写速率为 2133/1866Mbps,提供 2Gb/4Gb 不同容量选择,在满足消费类市场强劲需求 的同时,兼顾工业及汽车市场应用,可为生态圈的发展构建提供强有力的支撑。公司规 划中的 DRAM 产品包括 DDR4、LPDDR3、LPDDR4,制程在 1Xnm 级(19nm、17nm), 容量在 1Gb~8Gb。在 NOR Flash 领域,公司市占率中国大陆第一、全球第三,已实现 512Kb 到 2Gb 大容量 SPI NOR Flash 全系列产品的完善布局,截至 2023 年 4 月,旗下 车规级GD25/55 SPI NOR Flash和GD5F SPI NAND Flash系列产品全球累计出货量已达1 亿颗,广泛运用在如智能座舱、智能驾驶、智能网联、新能源电动车大小三电系统等。
重视研发投入,保持技术创新和技术领先。公司现任主要管理技术团队具备在国际先进 产业地区的丰富任职经验和先进经营管理理念,其中董事长朱一明为清华大学本科及硕 士毕业,美国纽约州立大学石溪分校硕士,曾任 iPolicy Networks Inc.资深工程师并入选 国家“千人计划”。公司核心骨干源于海外留学归国青年与经验丰富创业团队,具备较好 的国际化视野。公司历来重视研发投入,2022 年,公司研发投入达到 10.29 亿元,约 占营业收入 12.7%,同比增长 9.5%。公司在建立技术优势并取得良好业绩回报的同时, 高度关注知识产权保护。截止 2022 年末,公司拥有 929 项授权专利,其中 2022 年新 增 98 项授权专利。
与长鑫存储紧密合作,DRAM 业务天花板快速打开。股权层面,公司参股长鑫存储母公 司睿力集成;管理层面,公司实控人朱一明先生为长鑫存储董事长,牵头 DRAM 研发工 作;经营层面,公司自研的利基型 DRAM 由长鑫代工,同时代销长鑫部分标准型 DRAM 产品,在利基市场公司 DRAM 产品在工艺制程上保持代差优势,有利于降低产品成本。公司与长鑫存储的紧密合作关系,为公司 DRAM 产品提供稳定产能保障。随着长鑫存 储持续扩产和其在资本市场上的进一步发力,公司有望充分享受产能红利,DRAM 业务 天花板快速打开。
(六)北京君正:车载算力/存力持续提升,车规存储龙头持续发力
国内车规存储龙头,产品矩阵丰富&客户资源优质。北京君正成立于 2005 年,起家于 MPU 和智能视频芯片,2020 年公司通过收购 ISSI 成功进入车载存储行业,打开公司第 二成长曲线。公司旗下存储主体北京矽成(ISSI)深耕车载存储二十余载,产品矩阵丰 富,料号充沛,广泛应用于包括电子仪表盘、智能驾驶 ADAS、本地地图、车载娱乐、 通信系统在内的众多车内场景。公司已是全球车用 SRAM、DRAM、NOR Flash 芯片领 域第一、第二、第五大供应商(2021 年度),目前在汽车领域的终端客户覆盖了大陆集 团、法雷奥、Delphi、博世等全球知名汽车一级供应商。 ADAS 驱动车内算力/存力持续提升,老牌龙头持续发力再攀高峰。地平线测算自动驾驶 等级每增加一级,所需要的芯片算力就会呈现十数倍的上升,L2 级自动驾驶的算力需求 2.0-2.5 TOPS,L3 级自动驾驶算力就需要 20-30 TOPS,实现 L4-L5 级自动驾驶的算力 需求就超过 2000 TOPS,高级别自动驾驶车型渗透率不断提升势必推动车载芯片市场增 长,预计至 2025 年该市场有望以 24%的复合增速提升至约 82 亿美元。
AI 驱动智能视频芯片持续增长,IOT 助力微处理器业务稳步向好。公司智能视频芯片主 要面向智能物联网和智能安防类市场,视频领域作为 AI 技术与 5G 物联网技术融合发展 形成的应用场景之一,已成为助力传统产业转型升级的重要手段。随着在智能视频领域 的技术不断丰富和成熟,公司产品线不断拓展,目前已形成面向安防监控市场 IPC/后端 NVR/泛视频类市场的多系列芯片,随着各产品陆续放量,智能视频芯片业务有望持续增 长。公司微处理器芯片主要面向 IOT 市场的各类智能硬件产品,物联网终端应用需求的 快速增长促进嵌入式 MPU 芯片产业市场规模不断增大。根据 IC Insights 数据,2020 年 全球嵌入式 MPU 芯片市场规模为 175 亿美元,至 2024 年市场规模将达到 237 亿美元。 公司的微处理器产品应用下游广泛,覆盖的领域包括图像识别、智能音频、智能家电、 智能家居、智能办公等,业务趋势稳步向好。
(七)深科技:国产存储封测龙头,布局先进工艺决胜AI 时代
美光审查事件推动国产替代加速,存储封测龙头深度受益。公司是全球领先的专业电子 制造企业,连续多年在全球电子制造服务行业(EMS)排名前列,并构建了以存储半导 体、高端制造、计量智能终端为三大主营业务的发展战略。公司存储运营主体沛顿科技 前身为金士顿中国封装厂,技术水准领先,公司配备sDBG生产线,可将晶圆减薄至30um, 同时掌握 8D/16D 芯片堆叠技术能力;产能充沛,以深圳、合肥半导体封测双基地的模 式运营,产能产量达到历史最高水平,未来随着下游客户产能开出/先进封装渗透率提升, 公司存储业务天花板打开。 周期&成长&国产替代共振,存储器市场迎来新一轮增长。存储原厂积极减产带动行情 预期升温,存储行情正在加速筑底。由于三星、SK 海力士和美光三大 DRAM 原厂的减 产步调更为统一,近期渠道部分 DDR 价格和内存条开始尝试涨价,存储市场目前处于一 轮下行周期的尾声,存储市场 Q1 至暗时期已过。目前存储芯片市场需求仍偏淡,但消 费终端库存有明显改善,23Q2 市场或处于供需博弈阶段的小幅调整磨底行情,跌价幅度 有望进一步收敛。下半年传统备货旺季,叠加大厂 23Q1 减产生效,复苏预期强烈。
AI 时代 HBM 需求大涨,布局先进技术未来可期。长期来看,以 AIGC 为代表的高算力 应用场景驱动存储器容量显著提升,同时亦催生了更高性能的新型存储器的海量需求。 HBM(高带宽内存)突破了内存容量与带宽瓶颈(SK 海力士第四代 HBM 产品接口传输 速率达到 6.4Gbps,带宽接近 1TB/s 节点),被视为新一代 DRAM 解决方案,成为 AI 时 代不可或缺的关键技术。海外巨头领衔,未来国内晶圆厂有望积极跟进,产业链配套全 面升级。HBM 技术壁垒高,涉及硅通孔(TSV)、系统级封装(SiP)等多项核心先进工 艺,公司持续推进先进封装技术的研发量产,包括 bumping 技术,FCBGA 技术,SSD 32D 堆叠技术等目,未来有望在国产先进存储封测产业发展中发挥重要作用。
(八)江波龙:深耕存储芯片领域,积极拥抱 AI 发展浪潮
国内存储芯片领域先行者,布局完善。江波龙自 1999 年成立以来一直专注存储产品业务, 已形成嵌入式存储、固态硬盘(SSD)、移动存储及内存条四大产品线,能够提供消费级、 工规级、车规级存储器以及业存储软硬件应用解决方案。目前公司拥有行业类存储品牌 FORESEE 和国际高端消费类存储品牌 Lexar(雷克沙),旗下存储器产品被广泛应用于智 能终端、物联网、安防、工控、汽车以及个人移动存储等领域。此外,公司也在持续推 出行业领先的产品体系,公司 UFS 存储器为高端智能手机提供更高的传输速率,车规级 eMMC 已符合汽车电子行业核心标准体系 AEC-Q100,可实现-40℃-105℃的宽温域作业。
数据中心蓬勃发展,驱动存储细分市场欣欣向荣。各大互联网公司计划自建数据中心以 满足未来海量数据存储的需求。传统企业上云进程的加快同样推动了服务器和数据存储 市场的快速增长。据 TrendForce 数据,2023 年全球服务器出货量预计达 1443 万台,AI 服务器 2022~2026 年复合增长率有望达 10.8%,而 AI 服务器市场的增长将进一步扩大对 于存储器的需求,公司主营业务有望在未来几年持续增长。由于构建一个由超级计算机 组成的现代 AI 工厂需要连接成大量带有存储芯片的小型机,企业级 SSD 市场规模将快 速扩张,公司目前已发布了企业级规格的 SSD,分别为支持 PCIe 4.0 的 Longsys ORCA 4836 系列 NVMe SSD 与 Longsys UNCIA 3836 系列 SATA 3.2 SSD。 自主研发能力不断提升,持续迭代夯实技术储备。公司目前已经具备全面自主可控固件 的开发及持续创新能力,能够自主完成 SiP 集成封装设计,并通过自主研发、与第三方 合作开发等多种方式研发了多项存储芯片测试算法,形成行业领先的测试解决方案。与 此同时,公司凭借长期的科技创新与技术积累,不断开发并推出创新产品,持续改进存 储晶圆产品化过程中各个工艺环节的技术实现手段,缩短产品导入周期,提升产品性能 和稳定性,确保先进半导体存储器的供应安全,为下游各个电子信息细分产业提供可靠 的存储解决方案,跻身国内顶尖供应商行列。公司旗下 Lexar 品牌 SSD 出货量位 列全 球第七名。根据 Omdia (IHS Markit)数据,2020 年 Lexar 存储卡全球市场份额位列第三 名、Lexar 闪存盘全球市场份额位列第四名。展望未来,随着公司研发实力的进一步提 升,新产品加速落地/新客户加速突破或可期待,公司有望步入业绩增长快车道。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)