微软、谷歌…正在打响大模型时代的云战争
伴随着互联网企业软件的云支出收紧,增长放缓逐渐成为云厂商头顶的乌云。
ChatGPT 的横空出世打破了这一瓶颈,AI 将重塑软件。云厂商的客户——软件公司正在积极地将大模型带来的 AI 能力嵌入已有的工作流程,完成更高阶的自动化。
在新增云客户逐渐枯竭的情况下,软件公司不再是为了上云而上云,而是力求用 AI 提高生产力。「这是未来十年云计算市场的最大增量。算力基础设施是大模型的绝对红利受益者。」一位从业十多年的云计算行业人士向极客公园阐述道。
在这样的前景下,海外几大云服务巨头——微软、亚马逊、谷歌、甲骨文迅速做出了改变。过去数月,云巨头们砸下真金白银,研发大模型、战略投资、自研 AI 芯片……大模型的时代方兴未艾,他们已经瞄准了新一代的 AI 软件客户。
昔日的江山远非牢不可破,云市场正在快速洗牌,巨头们拉开了全新的竞争大幕。
毕竟,移动互联网时代老大哥的没落近在眼前,诺基亚几年间从鼎盛时 70% 的手机市场占有率到无人问津,只在做错决策的一念之间。而对于大模型,云行业迅速形成共识:这次的 AI 绝非一个小变量,从行业一日千里的发展速度来看,当前领先的玩家也可能被甩在后面。
2023 年已经过去一半,本文将围绕几大海外云巨头进行梳理,什么是今天云厂商们竞争的关键?
01研发 AI 专用芯片,不能把“命”全交给英伟达
大模型时代来临以后,对云服务商而言,今天最稀缺的资源就是算力,或者说是 AI 芯片。投资最底层的基础设施——AI 加速芯片,也成为今天云厂商竞争的第一个重点。
稀缺、昂贵,被认为是云厂商加快自研芯片的首要原因。连马斯克这样的科技圈权势大佬都评价「这玩意(英伟达 GPU)比药品都难搞」,并暗搓搓为自己的 AI 公司 X.AI 从英伟达买了一万张卡,还收了很多甲骨文的闲散股权。
这样的稀缺程度,体现在云巨头的业务上,直接对应着「卡脖子」带来的业务损失。即便先下手为强的微软,也被曝出由于 GPU 短缺,内部 AI 研发团队实行 GPU 配给制度、各种新计划延迟、新客户上 Azure 要排队数月等传闻。
就连风险投资机构抢项目,都要靠手握英伟达芯片存货。为了 N 卡,各方力量到了「无所不用其极」的地步。
稀缺的另一个名字,叫昂贵。考虑到大模型对算力需求十数倍增加,卡只会更贵。近日,一位投资人向极客公园表示,「年初 8 万一张的 A100 单卡,现在已经炒到了 16 万,还搞不到。」相应地,云巨头们的数万张卡要缴纳的「英伟达税」只会是一个天文数字。
「命」悬在别人手里的滋味好不好受,风头最盛的微软最有发言权。一个月前,The information 独家报道,微软成立 300 人的「天团」加快自研 AI 芯片的步伐,代号为 Cascade 的服务器芯片最早可能在明年推出。
不仅是因为「卡脖子」,云厂商自研芯片,还有另一层所指——GPU 并不一定是最适合跑 AI 的芯片,自研版可能会优化特定的 AI 任务。
诚然,当前大多数先进的 AI 模型都由 GPU 提供动力,因为 GPU 比通用处理器更擅长运行机器学习的工作负载。但是,GPU 仍被视为通用芯片,不是真正为 AI 计算原生的处理平台。正如远川研究所《英伟达帝国的一道裂缝》指出的,GPU 不是为了训练神经网络而生,人工智能发展的越快,这些问题暴露得越多。靠 CUDA 和各种技术一个场景一个场景「魔改」是一种选择,但不是最优解。
亚马逊、谷歌和微软一直在开发被称为 ASIC——专用集成电路的芯片,这些芯片更适合人工智能。The Information 采访多位芯片行业从业者和分析师得出,英伟达 GPU 帮助训练了 ChatGPT 背后的模型,但 ASIC 通常执行这些任务的速度更快,功耗更低。
如上图所示:亚马逊、微软和谷歌均把芯片提升到了 in-house 自研的重要性程度,为数据中心部门开发两种芯片:标准计算芯片和专门用于训练和运行机器学习模型的芯片,这些模型可以为 ChatGPT 等聊天机器人提供支持。
当前,亚马逊、谷歌已经为关键的内部产品开发了定制版 ASIC,并已经将这些芯片通过云提供给客户。微软自 2019 年以来,也一直致力于开发定制 ASIC 芯片,来为大型语言模型提供动力。
据云客户和微软发布的性能数据,这些云提供商开发的一些芯片,比如亚马逊的 Graviton 服务器芯片、亚马逊和谷歌发布的 AI 专用芯片,已经在性能上与传统芯片制造商的芯片相媲美。谷歌 TPU v4 比英伟达 A100 计算速度快 1.2——1.7 倍,同时功耗降低 1.3——1.9 倍。
02战略投资竞赛:巨头花钱「买客户」
除了研发芯片,海外几大云巨头竞争的第二个关键点,就是对外战略投资,抢 AI 客户和 AI 项目。
相比风险投资,巨头们的战投占绝对优势。OpenAI 和微软的联手作为绝佳范本,开启了大模型和战投牵手的先河。这是因为大模型及相关应用所需的资源壁垒极高,只有钱,有限的钱,根本不足以抢到 AI 项目。毕竟,谷歌、微软、AWS、甲骨文或英伟达不止可以开出巨额支票,还可以提供云积分和 GPU 等稀缺资源。
从这个角度看,抢项目、抢客户都发生在云巨头之间,没有其他对手。他们正在开展一场新的游戏——寻求 AI 公司的承诺:将使用他们的云服务而不是竞争对手的。
微软坐拥 OpenAI 独家云服务提供商的位置,为 OpenAI 支付巨额云账单的同时,换得 OpenAI 的股权和产品的优先使用权等一系列让人艳羡的权益。
微软的竞争对手们也在争先恐后地赢得其他AI客户的支持。这些云供应商为 AI 公司提供了大幅折扣和信贷(credits),以赢得他们的业务。有批评的声音指出,这类似于购买客户,尽管在未来或当前客户中持有股权的做法在企业软件领域并不少见。
据 The Information 早先报道,甲骨文也曾提供价值数十万美元的计算积分,作为 AI 初创公司租用甲骨文云服务器的激励措施。
谷歌可能是这几大云厂商中行动最积极一个,为 AI 初创公司提供现金和谷歌云积分的组合,来换取股权。今年早些时候,谷歌向 Anthropic 投资了 4 亿美元,Anthropic 是 OpenAI 的主要创业挑战者之一。谷歌云在二月份表示,已成为 Anthropic 的「首选」云供应商。
近日,谷歌向「文生视频」领域的 AI 公司 Runway 投资 1 亿美元。但在这之前,亚马逊 AWS 将 Runway 吹捧为关键的 AI 初创企业客户。今年三月,AWS 与 Runway 宣布建立长期战略合作伙伴关系,成为其「首选云提供商」。现在,Runway 似乎是谷歌与亚马逊对决的「棋子」之一,因为 Runway 也有望从谷歌租用云服务器。
更早时候,谷歌云还宣布与另外两家当红 AI 公司建立合作关系,分别是:文生图领域的 Midjourney 和聊天机器人 App Character.ai,而后者以前是甲骨文的关键云客户。
这些交易是否有助于谷歌赶上更大的云计算竞争对手——AWS 和微软,现在下判断还为时过早,但是,谷歌云攻势汹汹。
在 The information 数据库的 75 家(AI)软件公司里,谷歌至少为 17 家公司提供了一些云服务,比其他任何云供应商都多。亚马逊紧随其后,至少有 15 家公司使用 AWS 进行云计算。微软和甲骨文则分别向六家公司和四家公司提供云服务。当然,使用多家云也是业内的习惯,这 75 家公司中至少有 12 家混合使用多家云供应商。
03大模型,才是左右胜负的真正关键
算力和战投,是这场云战争早期必争的高地。但从长远来看,大模型才是左右市场竞争胜负的真正关键。
微软能成为领先者,与 OpenAI 的合作功不可没,再加上微软团队出色的工程化能力,几个月内就将 GPT-4 嵌入了微软「全家桶」中。过去半年,微软先利用 OpenAI 产品的优先使用权、企业软件产品降价抢占了更多的云市场。再依靠升级为 Microsoft 365 Copilot 的产品线涨价,获得更大的营收。
据云启资本调研,微软底层模型基本依赖 OpenAI,而在接入大模型后,微软开始以更低的价格打包出售 Teams、Power BI、Azure 等应用层产品。
微软首席财务官艾米·胡德(Amy Hood)在四月份告诉投资者,随着越来越多的人开始使用 OpenAI 的服务,OpenAI 将为 Azure 带来收入。
最新报道表明,微软向部分 Office 365 客户收取 40% 的额外费用以测试 AI 功能——可自动执行在 Word 文档中编写文本和创建 PowerPoint 幻灯片等任务,至少 100 家客户已经支付了最多 10 万美元的固定费用。数据表明,推出不到一个月,微软从 Microsoft 365 Copilot 的 AI 功能中获得超过 6000 万美元的收入。
与微软形成鲜明对比的是,曾经的领先者亚马逊云,在大模型上一步落后而步步落后,今天正面临更严峻的挑战。
AWS 曾是 AI 云服务的早期开发商,从 2016 年左右就有布局。但客户并不认为这些服务非常有用,包括面部识别、将文本转换为逼真的语音,以及用于客户服务等任务的原始形式的聊天机器人等。AWS 还曾在 2017 年推出面向工程师群体使用的 AI 数字工具 SagaMaker,可帮助他们开发和使用机器学习模型,这也一度成为 AWS 最主要的 AI 产品。
但此后几年 AWS 的 AI 产品没能跟上大语言模型的浪潮,自 2021 年 11 月以来,微软开始销售基于 GPT 系列模型开发的 AI 产品,供企业客户使用。与此同时,谷歌也抢了主要的人工智能初创公司作为云客户,并向其云客户销售专有的人工智能软件。即使是云计算的落后者甲骨文,在为 AI 初创公司提供计算资源方面,也有自己的优势。
后知后觉的 AWS 正在努力迎头赶上。4 月,它宣布了一项云服务,客户可以将 Stability、Anthropic 和 AI 21 Labs 的大模型作为底座整合到他们自己的产品里。作为回报,AWS 会拿出一部分的收入与这些合作伙伴分享。
2023 Google I/O 大会上,CEO Sundar Pichai 介绍谷歌最新的 AI 进展 | 图片来源:谷歌官网
谷歌则是起了个大早,却赶了个晚集。作为大模型领域积累最深的大厂,谷歌在 ChatGPT 发布后的反应不可谓不快,很快就发布了对话式智能机器人 Bard 和新一代大语言模型 PaLM 2 作为回应,结果发布会上直接翻车,后续的产品发布速度也不理想,与微软强大的工程化能力形成了鲜明的对比。
最后值得一提的,是很早就跌出云市场前列的甲骨文,却意外在这波热潮中有逆袭的趋势。
甲骨文在云领域长期处于落后地位,但在将云服务器租给与 OpenAI 竞争的知名 AI 初创公司方面取得了惊人的成功。据 The Information 报道,部分原因是甲骨文云可以比亚马逊网络服务或谷歌云更经济地运行复杂的机器学习模型。
甲骨文云切入 AI 赛道的方法似乎与 AWS 类似,AWS 开发了自己的 AI 软件以销售给客户,但也将出售对开源 AI 软件以及其他 AI 开发商产品的访问权。
此外,一部分知情人士透露,甲骨文已经开始测试 OpenAI 的产品,以丰富其面向 B 端客户的产品线,包括人力资源和供应链管理软件,不过甲骨文更有可能为此开发自己的软件,未来的 AI 功能可以帮助甲骨文客户快速生成职位描述并安排招聘人员和候选人之间的会议,不过该公司仍在决定首先改进哪些产品。