买个菜不用开坦克去!全球 AI 浪潮开始聚焦”小而美”
然而如今,大量科技巨头和初创企业正在开始考虑缩小 AI 软件的规模,使其更便宜、更快速、更专业……
这类 AI 软件被称为小型语言模型 ( SLM ) 或中型语言模型,使用较少的数据进行训练,通常专为特定任务而设计。
作为对比,那些知名的大型语言模型 ( LLM ) ,如 OpenAI 的 GPT-4,开发成本超过 1 亿美元,训练的参数达到了逾 1 万亿。而较小的语言模型则通常在较窄的数据集上进行训练——例如,可能仅仅聚焦于法律问题上,其训练成本往往可能不到 1000 万美元,参数不到 100 亿。较小的模型也将消耗较少的算力,因此响应每个查询的成本也较低。
近几个月来,微软就正在大力宣传其名为 “Phi” 轻量级 AI 模型系列。微软首席执行官 Satya Nadella 表示,这些模型的大小只有 OpenAI 的 ChatGPT 免费模型的 1/100,而执行许多任务的效果却几乎一样好。
微软首席商务官 Yusuf Mehdi 表示,” 我认为,我们越来越有理由相信,未来将是一个由不同 ( 大小 ) 模型组成的世界。”
Mehdi 称,微软是全球首批在生成式人工智能上押注数十亿美元的大型科技公司之一。而我们也很快意识到,人工智能的运营成本比公司最初预计的要高。
微软最近还推出了新型的 AI 笔记本电脑,搭载数十个人工智能模型进行搜索和图像生成。这些模型需要用到的数据非常少,可以在终端设备上运行,而不需要像 ChatGPT 那样访问庞大的基于云端的数据中心。
谷歌以及人工智能初创公司 Mistral、Anthropic 和 Cohere 今年也发布了更小的模型。苹果在六月份公布该公司的 AI 路线图时,也计划使用小型模型,这样就可以完全在手机上运行软件,使其更为快捷方便、也更为安全。
就连一直处于大型模型模型浪潮前沿的 OpenAI,也在 5 月发布了其旗舰模型的新版本 GPT-4o,并称该模型运营成本更低。一位发言人 OpenAI 表示,该公司对未来发布更小的模型持开放态度。
AI 模型浪潮开始聚焦 ” 小而美 “
对于许多任务来说——比如汇总文档或生成图像,大型语言模型如今显得可能会有些 ” 奢侈 “。一些行业人士将此形容为 ” 相当于开着坦克去买菜 “。
目前从事区块链技术研究的 Illia Polosukhin 是 2017 年谷歌一篇开创性论文的作者之一,该论文为当前的生成式人工智能热潮奠定了基础。Polosukhin 近来就表示,单单计算 “2+2” 不应该需要进行无数次运算。
事实上,从财务成本的考量来看,在生成式人工智能技术的回报尚不明确的情况下,企业和消费者也一直在寻找以更低成本运行 AI 的方法。
位于以色列特拉维夫的人工智能公司 AI21 Labs 的联合创始人 Yoav Shoham 称,由于只需使用较少的算力,在许多情况下,小型模型回答问题的成本仅为大型语言模型的六分之一。如果你要进行数十万甚至数百万次回答,使用大模型在经济上其实行不通。
当前的关键在于,如何更有效地将这些较小的模型集中在一组数据上,如内部通信、法律文件或销售数字,以执行撰写电子邮件等特定任务——这一训练过程被称为微调 ( Fine-tuning ) 。通过微调,可以让小型模型在执行这些任务时与大型语言模型一样有效,而成本只是大型模型的一小部分。
初创公司 Snorkel AI 的联合创始人 Alex Ratner 表示,” 让这些更小、更专业的模型在这些更枯燥但更重要的领域工作,是目前人工智能的前沿领域。”
Snorkel AI 目前的业务范围包括帮助企业定制人工智能模型。
企业用户也正转向小模型?
在企业用户端,信用评级公司益百利近来已将其用于金融咨询和客户服务的 AI 聊天机器人,从大语言模型转向了小语言模型。
益百利首席数据官 Ali Khan 表示,在公司内部数据上进行训练时,小型模型的表现与大型模型不相上下,而成本仅为大型模型的一小部分。他表示,这些小模型可以针对一个明确的问题领域和一系列任务进行特定训练。
Salesforce 人工智能部门主管 Clara Shih 则表示,这些小模型的响应速度相比大模型也更快。
Shih 称,” 使用大型模型你会付出过高的成本并且有延迟问题。有时候也根本用不着。”
值得一提的是,在开始向小语言模型转变的同时,诸多 AI 巨头大型语言模型的迭代速度也在放缓。
自 OpenAI 去年发布 GPT 4 ( 与之前的模型 GPT 3.5 相比,功能有了显著提升 ) 以来,还没有新的迭代模型 ( GPT 5 ) 发布。研究人员认为,造成这种情况的原因包括用于训练的高质量新数据稀缺。
这一趋势也让人们开始更为关注小模型。领导 Phi 模型项目的微软公司高管塞 S é bastien Bubeck 表示,” 现在正是大家都在等待的一个小间歇期,这会让人们的注意力转向,他们会想,‘好吧,我们还能不能让这些东西更高效?’ “
目前,还不清楚这种迭代停滞是暂时的,还是遭遇了一个更为棘手的技术瓶颈问题。但是,小型语言模型的大量涌现,仍说明了人工智能正在从科幻小说般的梦幻演示,演变成了不那么令人兴奋的商业现实。
当然,许多公司并没有完全放弃大型语言模型。苹果已宣布将在其 Siri 助手中加入 ChatGPT,以执行撰写电子邮件等更复杂的任务。微软表示,其最新版的 Windows 也将集成 OpenAI 的最新模型。不过,两家公司都只是将 OpenAI 集成作为其整体人工智能方案的一部分,而显然并没有把所有的筹码都押注于此。