芯片新贵,集体转向

在 AI 芯片这个波澜壮阔的竞技场上,一度被奉为 " 技术圣杯 " 的大规模训练,如今正悄然让位于更低调、但更现实的推理市场。

Nvidia 依然在训练芯片市场一骑绝尘,Cerebras 则继续孤注一掷地打造超大规模计算平台。但其他曾在训练芯片上争得面红耳赤的玩家—— Graphcore、英特尔 Gaudi、SambaNova 等——正在悄悄转向另一个战场:AI 推理。

这一趋势,并非偶然。

AI 训练作为一个重资本、重算力、重软件生态的产业,Nvidia 的 CUDA 工具链、成熟的 GPU 生态与广泛的框架兼容性,使其几乎掌握了训练芯片的全部话语权。而 Cerebras 虽然另辟蹊径,推出了超大芯片的训练平台,但仍局限于科研机构和极少数商业化应用场景。

在这种格局下,新晋芯片企业在训练市场几乎没有生存空间。" 训练芯片的市场不是大多数玩家的竞技场 ",AI 基础设施创业者坦言," 光是拿到一张大模型训练订单,就意味着你需要烧掉数千万美元——而且你未必赢。"

正因如此,那些曾在训练芯片上 " 正面硬刚 "Nvidia 的创业公司,开始寻求更容易进入、更能规模化落地的应用路径。推理芯片,成为最佳选项。

Graphcore:推理成救命稻草

成立于 2016 年的英国 AI 芯片独角兽 Graphcore 一度是 Nvidia 最具挑战性的对手之一,其 IPU(Intelligence Processing Unit)主打用于神经网络训练的并行处理架构。

据 Graphcore 介绍,IPU 是一种专为人工智能和机器学习工作负载设计的处理器,与传统的 CPU 或 GPU 相比,IPU 在结构和处理方式上都有所不同,旨在更高效地执行 AI 模型训练和推理任务。

随着全球对人工智能芯片需求的持续飙升,Graphcore 迅速崛起,并在短时间内吸引了大量投资者的关注,2020 年,Graphcore 发布的 Colosual MK2 GC200 IPU,采用台积电 7 纳米制程,据称已接近 NVIDIA A100 的表现,同年,其以 28 亿美元的估值筹集了 2.22 亿美元,成为了英国最有前途的初创公司之一。

在 Graphcore 技术负责人 Simon Knowles 看来,与英伟达展开全面竞争并不明智。他在 The Robot Brains Podcast 上分享了核心创业准则:绝不生产大公司现有产品的强化版,因为大公司拥有庞大市场基础,初创企业难以直接抗衡。

他认为 AI 将存在于人类未来技术的各个领域,而不同行业需求无法由单一架构支持,Graphcore 只需在特定领域让 IPU 优于 GPU,即可在这个快速增长的市场分得一杯羹。

由于架构的特殊性,IPU 特别适合处理当前 CPU 和 GPU 无法最优运行的高性能计算任务,尤其是 " 稀疏数据 " 处理。分子就是典型应用案例——分子排列不规律,行为复杂且体积小,而 IPU 的大规模并行结构适合处理这类不规则数据结构。

在应用领域,IPU 在化学材料和医疗领域表现突出,曾被用于冠状病毒研究。2020 年,微软的 Sujeeth Bharadwaj 将 IPU 内置于 Azure 系统中用于识别新冠胸部 X 光片,他表示:"Graphcore 芯片可在 30 分钟内完成英伟达传统芯片需 5 小时的工作。"

商业模式上,Graphcore 将 IPU 集成于 "pods" 系统中,打包销售给云计算和服务器厂商。最令人瞩目的无疑是 2019 年 11 月,微软与 Graphcore 签署了采购处理器的协议,这对于一家初创公司来说,无异于天上掉下了一块吃不完的馅饼。

只可惜,现实是残酷的,随着市场对训练平台的门槛不断拔高,Graphcore 的 IPU 系统在大型 AI 训练项目中难以撼动 Nvidia 的地位,2021 年春季,随着微软终止与 Graphcore 的合作,这家初创企业就开始走向了衰落,为了削减成本,Graphcore 在 2022 年 9 月宣布裁员,并于次月关闭奥斯陆办公室。

2023 年,Graphcore 被曝在北美大幅裁员、关闭美国业务,同时放弃了 IPO 计划,创始人 Simon Knowles 在一次内部讲话中承认:" 训练市场太集中,我们需要转向能带来收入的实际落地场景。"

2024 年 7 月,日本软银集团宣布完成对 Graphcore 的收购,开始将重心转向企业 AI 部署中的高效推理任务,其重新优化了 Poplar SDK,推出轻量级模型推理加速方案,并面向金融、医疗和政府等场景,强调 " 高吞吐、低功耗 " 的 AI 推理解决方案。

对于 Graphcore 来说,推理或许就是它最后的救命稻草。

英特尔 Gaudi:不再死磕 GPU

创立于 2016 年的 Habana Labs,一度也是以色列的明星公司之一,旗下产品主要针对 AI 的推理预测和训练。2018 年,Habana Labs 推出旗下第一款产品—— Goya 推理处理器,主要用于 AI 推理和预测。而在 2019 年推出的 Gaudi,主要用于 AI 训练,在被收购前,其已经在 AI 芯片的训练、推理两端初步形成了完整产品线。

2019 年,英特尔以 20 亿美元的价格高调收购了 Habana,而 Gaudi 也顺势成为了其 AI 训练战略中的重要拼图。2022 年 5 月,英特尔正式发布了采用了 7nm 制程得 Gaudi2 和 Greco 深度学习加速器,据英特尔介绍,其对比 Nvidia 的 A100 GPU 的吞吐量性能提高了 2 倍。

尽管在部分性能参数上,英特尔 Gaudi 系列足以挑战 Nvidia,但从后续的市场反馈来看,即使在云厂商中,Gaudi 训练平台的采用率也始终低迷。

一位前英特尔高管坦言:" 从收购 Habana 的那一刻起,英特尔内部始终无法理解为何同时运营两个开发竞争架构的部门—— Habana 和 GPU 部门。"Habana 前员工则将英特尔的官僚效率视为严重障碍。一位前 Habana 员工对比道:" 在 Habana,五分钟的走廊交谈就能做出决定;而在英特尔,同样的决定需要三次会议,数十人参与,却毫无进展。"

直至 2022 年,英特尔一直双线并行——一边销售 Gaudi 处理器,一边开发竞争产品 Ponte Vecchio GPU。然而,随着 ChatGPT 等生成式 AI 模型崛起,英伟达的市场主导地位日益稳固,英特尔再次面临客户负面反馈。

2023 年中期,英特尔宣布将 Gaudi 并入新成立的 AI 加速产品线,并将 Gaudi 3 的重点转向 " 训练 + 推理并重 ",其中推理性能和性价比成为新卖点。

Gaudi 3 在 2024 年初发布时,英特尔重点宣传的是其在推理场景下对大语言模型的加速表现——例如在运行 Meta Llama 2 等模型时,相比 Nvidia A100 实现了更低的延迟和更高的能效。更重要的是,英特尔大力宣传 Gaudi 在成本端的优势,其 " 每美元推理吞吐量 " 高于同类 GPU 芯片近 30%。

最终,英特尔开始尝试整合业务,将 Habana 与 GPU 部门合并,并开发名为 Falcon Shores 的新型 AI 处理器——一款结合 GPU(类似英伟达)和 CPU(英特尔专长)的混合芯片。Habana 员工对此举表示质疑,甚至自嘲道:" 突然间,他们想起我们了。"

今年年初,英特尔除了公布令人失望的财务业绩外,还宣布其下一代 Habana 处理器 Falcon Shores 收到了客户的负面反馈,因此不会进行商业化销售。此前,大约六个月前,英特尔曾宣布 Gaudi 未能达到 2024 年实现 5 亿美元营收的预期。因此,英特尔决定不再开发 Gaudi 3 之后的下一代产品。

截至目前,Gaudi 3 被打包进入 Supermicro 等厂商的 AI 服务器中,面向企业部署大模型、构建私有化语义搜索、文档摘要、客服机器人等场景。对于希望 " 部分替代公有云推理 API" 的中大型企业客户而言,Gaudi 正在成为一个价格友好型选择。

对于英特尔来说,包括 Gaudi 在内的 GPU 业务的重要性正在不断削弱,其未来可能也会更多倾向于推理而非训练。

Groq:以速度换市场

同样是初创 AI 芯片的公司的 Groq,其故事起点可以追溯到 Google 内部。其创始人 Jonathan Ross 是 Google 第一代 TPU(Tensor Processing Unit)芯片的首席架构师。在目睹了 TPU 在深度学习训练和推理上的突破后,Ross 于 2016 年离开 Google,成立了 Groq,试图打造一个比 TPU 更快、更可控的 " 通用 AI 处理器 "。

Groq 的核心技术是自研的 LPU(Language Processing Unit) 架构。这种架构抛弃了传统的乱序执行和动态调度机制,采用静态调度、数据路径固定、执行流程可预测的 " 确定性设计 "(deterministic design)。Groq 宣称,这种设计可以实现极低延迟和高吞吐率,非常适合大规模推理任务。

一开始,Groq 也曾押注训练市场,其在早期尝试将 LPU 推向大模型训练市场,声称其架构可提供比 GPU 更高的利用率和更快的训练周期。但现实却是残酷的:Nvidia 的 CUDA 生态壁垒几乎无法撼动,训练市场的竞争逻辑更多拼的是 " 大生态 + 大资本 + 大客户 "。对于一个芯片初创企业而言,很难获得主流 AI 实验室和云厂商的认可。

同时,Groq 的架构对主流 AI 框架(如 PyTorch、TensorFlow)的兼容性有限,也缺乏成熟的编译工具链支撑,使得训练任务的迁移成本极高。这些现实逼迫 Groq 重新思考其市场切入点。

从 2023 年下半年开始,Groq 明确转向推理即服务(Inference-as-a-Service)方向,打造一个完整的 "AI 推理引擎平台 " ——不仅提供芯片,更向开发者和企业开放超低延迟的 API 接口,强调 " 文字输入后几毫秒出结果 " 的极致响应。

Groq 在 2024 年展示了其系统运行 Llama 2-70B 模型时,实现了每秒超过 300 个 Token 的生成速度,远超主流 GPU 系统。这一优势让 Groq 迅速吸引到一批对延迟敏感的垂直行业用户,如金融交易系统、军事信息处理、以及语音 / 视频同步字幕生成。

此外,Groq 将产品定位从 "AI 芯片 " 扩展为 "AI 处理平台 ",通过 GroqCloud 平台向开发者提供 API 访问权限,与 LangChain、LlamaIndex 等生态集成,试图把自己变成一个专注速度优化的大模型推理云。

目前,Groq 正在与多家初创 AI 应用公司合作,作为其低延迟后端推理服务提供方,在小型助手、嵌入式交互设备和高频问答系统中获得初步部署落地。

对于 Groq 而言,专注推理速度让它在一众初创 AI 芯片公司中脱颖而出。

SambaNova:从系统即服务到推理即服务

SambaNova 是少数几家不靠 " 卖芯片 " 而是 " 卖系统 " 的 AI 芯片创业公司。其 Reconfigurable Dataflow Unit(RDU)芯片架构采用数据流计算方式,以高吞吐量为卖点,曾在训练大型 Transformer 模型时展现出优越性。

SambaNova 曾非常重视在其硬件上训练模型,他们发布过关于如何在其硬件上训练的文章,炫耀自己的训练性能,并在官方文档中提及训练,许多分析师和外部观察者都认为,能够用一款芯片同时处理训练和推理市场,是 SambaNova 相较于 Groq 等竞争对手的一大优势,而 Groq 是最早转向推理的初创公司之一。

这一公司也投入了大量时间和精力来实现高效的训练功能。在 2019 年至 2021 年左右,SambaNova 的工程师花了相当多的时间为 NAdam 优化器实现内核代码,这是一种常用于训练大型神经网络的基于动量的优化器。其软硬件特性都被设计并优化用于训练,无论是对内还是对外的信息传达中,而训练也始终是 SambaNova 价值主张的重要组成部分。

然而,自 2022 年起,SambaNova 的销售重点已悄然发生变化。公司推出了 "SambaNova Suite" 企业 AI 系统,不再强调训练模型能力,而是聚焦 "AI 推理即服务 "(Inference-as-a-Service)。用户无需拥有复杂硬件或 AI 工程团队,只需调用 API 即可完成大模型推理工作,SambaNova 在后台提供算力与优化模型。

而在今年四月下旬,SambaNova Systems 大幅转变了其最初的目标,其宣布裁员 15%,并将重心完全转向 AI 推理,几乎放弃了此前主打的训练目标。

据介绍,其系统特别适用于私有化模型部署需求强烈的领域——如政府、金融、医疗。在这些领域,数据敏感、合规严格,企业更倾向于自己掌控模型运行环境。SambaNova 为其提供了 " 大模型交钥匙工程 " 式方案,主打易部署、低延迟、符合合规的推理平台。

SambaNova 目前与多个拉美金融机构、欧洲能源公司建立了合作,提供多语言文本分析、智能问答和安全审计等大模型推理服务,商业化路径逐渐清晰。

在经历各种挫折之后,SambaNova 也在推理 AI 市场中找准了自己的定位。

推理,更吃香了

在一篇报道中,有分析师指出,要高效完成训练,你需要复杂的内存层级结构,包括片上 SRAM、封装内 HBM 和片外 DDR。而 AI 初创公司难以获得 HBM,更难将 HBM 集成进高性能系统——所以像 Groq 和 d-Matrix 这样的许多 AI 芯片就不具备足够的 HBM 或 DDR 容量或带宽来高效训练大型模型。推理则没有这个问题。在推理过程中,无需存储梯度,激活值也可以在使用后丢弃。这极大减少了推理任务的内存负担,也降低了仅支持推理的芯片所需的内存系统复杂度。

另一个挑战是芯片间的网络通信。在训练中生成的所有梯度需要在所有参与训练的芯片之间同步。这意味着你需要一个大型、复杂的全互联网络来高效完成训练。相比之下,推理是一个前馈操作,每个芯片只需与推理链中的下一个芯片通信。许多初创公司的 AI 芯片网络能力有限,不适合用于训练所需的全互联架构,但对推理工作负载却绰绰有余。Nvidia 则很好地解决了 AI 训练中内存和网络的双重挑战。

而目前就而言,Nvidia 的优势过于明显。得益于 CUDA 赋予 GPU 的多功能性,Nvidia 的硬件能够完成训练和推理所需的全部运算。而在过去十年中,Nvidia 不仅致力于构建针对机器学习工作负载高度优化的芯片,还在优化整个内存和网络架构以支持大规模训练和推理。

每颗芯片上搭载大量 HBM,使得 Nvidia 硬件能够轻松高效地缓存每一步训练生成的梯度更新。再加上 NVLink 等规模扩展技术以及 InfiniBand 等集群扩展技术,Nvidia 硬件能够胜任每一步训练后对整个大型神经网络权重进行全局更新所需的全互联网络。像 Groq 和 d-Matrix 这样的仅推理芯片在内存和网络能力上都无法与 Nvidia 在训练方面竞争。

而且事实证明,Nvidia 在训练性能上的优势不仅仅是 HBM 和网络。他们在低精度训练方面投入了巨大努力,而顶级 AI 实验室也相应地在算法超参数调优上做了大量工作,以适配 Nvidia 低精度训练硬件的复杂细节。若要从 Nvidia 转向其他芯片进行训练,就需要将极其敏感的训练代码迁移到一个全新的硬件平台上,并处理一整套新的 " 坑 "。对于一个 GPT-4 规模的大模型来说,这种迁移成本和风险极高。

AI 推理并不新鲜,但当越来越多芯片公司 " 集体转身 " 拥抱它,它便不仅是一个市场趋势,更是一次战略转向。在推理市场,赢家可以是一个懂用户需求的小团队,也可以是一个专注边缘计算的初创公司。

未来的 AI 芯片竞争,将不再只围绕浮点计算和 TOPS 展开,而是进入一个更贴近 " 真实世界 " 的阶段——一个讲究成本、部署、可维护性的时代。对 AI 芯片企业而言,从训练到推理,不是放弃技术理想,而是走向产业现实。

本文来自微信公众号  " 半导体行业观察 "(ID:icbank),作者:邵逸琦,36 氪经授权发布。