在AI上,苹果真啥也没干?其实它偷偷在做这件事
腾讯科技讯 5月7日消息,据国外媒体报道,在人工智能领域,人们或许很容易产生这样一种错觉,那就是苹果的起步较晚。自从2022年底ChatGPT席卷全球以来,苹果的多数竞争对手均纷纷加快步伐,力求在人工智能方面取得突破。诚然,苹果此前曾提及人工智能,并发布了一系列融入人工智能元素的产品,但相较于其他科技巨头,它似乎更多地是在进行探索而非全面押注。
然而,在近几个月的传闻和报道中,我们不难发现苹果其实一直在幕后默默等待时机,蓄势待发。最近几周有报道指出,苹果正在与OpenAI和谷歌等业界巨头就支持其人工智能功能进行深入谈判,同时也在积极开发自家的人工智能模型Ajax。
细观苹果发布的人工智能研究报告,我们不难发现其人工智能方法具有潜在的现实意义。当然,从研究报告到产品实际落地,这中间的道路往往充满曲折和不确定性。但当苹果在今年6月举行的年度开发者大会WWDC上就人工智能功能进行讨论时,我们至少可以对该公司的人工智能战略有所窥见,以及这些功能将如何在实际应用中发挥作用。
直播预告
Siri将足够强大,不再需要唤醒词?
当我们谈及人工智能产品时,焦点往往落在虚拟助手上,即那些拥有广博知识、能为我们设定提醒、解答疑惑并代为完成任务的智能伙伴。苹果在人工智能领域的诸多研究最终都汇聚于一个核心问题:如果Siri能变得足够强大,那将会是怎样的一番景象?
苹果的一支精锐研究团队正探索一种无需唤醒词即可启动Siri的创新方法。这意味着,设备或许能够凭借直觉判断你是否正在与其交流,而非仅仅依赖于“嘿Siri”或“Siri”的指令。研究人员坦言:“这一挑战较之于语音触发检测更为严峻,因为并没有一个明确的先导触发短语来标识语音命令的开始。”
正因如此,另一组研究人员开发了一套系统,旨在更精准地检测唤醒词。还有一篇研究论文则专注于训练模型,以更好地理解那些通常难以被虚拟助手准确捕捉的罕见词汇。
在这些场景中,大语言模型的魅力在于其理论上能够迅速处理海量信息。例如,在唤醒词检测的研究中,研究人员发现,若不试图过滤掉所有冗余声音,而是将所有声音一并输入模型,让其自行区分重要与次要内容,则唤醒词的识别将变得更为可靠。
一旦Siri捕捉到用户的声音,苹果将倾尽全力确保它能够更好地理解并与用户顺畅沟通。为此,他们开发了一个名为STEER的系统,旨在通过分析用户何时提出后续问题、何时开启新话题,从而优化用户与虚拟助手的交互体验。
在另一个应用场景中,研究人员利用大语言模型来解析那些“模糊查询”,无论用户如何表达,它都能精准捕捉他们的意图。研究人员指出:“面对不确定性,智能对话代理可能需要主动提问以减少疑惑,从而更有效地解决问题。”此外,还有一篇论文专注于提高虚拟助手的回答质量,通过大语言模型使其生成的答案更为简洁明了,易于理解。
苹果AI聚焦健康、图像编辑、音乐等领域
每当苹果公开谈及人工智能时,它往往不单纯强调技术的原始力量,而是更多地聚焦在人工智能如何为日常生活带来便利与提升。尽管Siri一直备受瞩目——特别是在苹果与诸如HumaneAIPin、RabbitR1等设备竞争,以及谷歌正将Gemini融入所有安卓系统的背景下——但苹果显然在多个领域都看到了人工智能的广阔应用前景。
健康领域是苹果重点关注的一个方面。理论上,先进的人工智能技术可以帮助你从各种设备收集的海量生物识别数据中提炼出有价值的信息,并帮助你理解这些数据背后的意义。因此,苹果一直在探索如何收集和整理用户的运动数据,如何利用步态识别和耳机来识别用户身份,以及如何精准跟踪和解读心率数据。此外,苹果还创建并发布了“基于多设备、多位置传感器的最大人类活动数据集”,这一数据集涵盖了50名参与者的多种身体传感器数据。
苹果似乎也将人工智能视为一种创造性的工具。在一项研究中,研究人员通过采访动画师、设计师和工程师,开发了一个名为Keyframer的系统,该系统“使用户能够迭代构建和完善生成的设计”。与以往通过输入提示词生成图像,再输入另一个提示词获取新图像的方式不同,Keyframer允许用户从一个提示词开始,获得一个包含多种元素的工具包,然后根据个人喜好调整和完善图像的特定部分。这种交互式的艺术过程可以广泛应用于各种场景,从Memoji的个性化定制到苹果更专业的艺术工具。
在另一项研究中,苹果描述了一个名为MGIE的图像编辑工具。通过简单描述你希望进行的编辑操作,如“让天空更蓝”、“让我的脸看起来更自然”、“添加一些石头”等,MGIE能够自动实现这些效果。研究人员表示:“MGIE不仅仅是提供模糊的指导,而是能够准确捕捉用户的视觉感知意图,并生成合理的图像编辑效果。”虽然初期的实验结果尚存瑕疵,但其潜力已足够令人瞩目。
我们甚至可以在AppleMusic中感受到人工智能的魅力。在一篇名为《资源受限的立体声演唱语音消除》(Resource-constrainedStereoSingingVoiceCancellation)的论文中,研究人员探讨了如何将歌曲中的人声与乐器声分离的方法。这一技术若得以应用,将为用户提供在TikTok或Instagram上重新混音歌曲的强大工具。
Ferret模型或改变使用iPhone方式
随着时间的推移,苹果将愈加倾向于这种融合硬件与人工智能的策略,特别是在iOS生态系统中。我们有望看到苹果在其自有应用中集成这些先进功能,并通过API将部分功能开放给第三方开发者。苹果一直以其卓越的硬件性能为傲,特别是相较于普通安卓设备而言。当这种强大性能与以隐私为核心的设备上的人工智能技术相结合时,无疑将成为苹果与其他品牌之间的一大差异化因素。
然而,若要领略苹果在人工智能领域的最大、最宏伟的项目,就不得不提及Ferret。作为一个多模态的大语言模型,Ferret不仅能够接收并执行指令,还能专注于你圈选或选择的特定事物,并深入理解周围的世界。它专为现代人工智能用例而设计,即允许用户向设备询问关于周围环境的问题,但更进一步的是,它还可能解读屏幕上的内容。
在Ferret的相关论文中,研究人员指出,它能帮助用户浏览应用程序,解答关于应用商店评分的问题,描述用户正在查看的内容等。这种技术对于提升无障碍体验具有极大的潜力,同时也可能彻底改变我们使用手机、VisionPro乃至智能眼镜的方式。
研发更小、更高效模型
人们都在期盼着一个更为出色的Siri,而它的进阶版本似乎即将隆重登场!苹果的众多研究(以及全球科技行业内的广泛探索)都基于一个共同的前提,即大语言模型(LLM)将直接推动虚拟助手走向更高的智能水平。对于苹果而言,实现Siri的进化不仅意味着要迅速推出人工智能模型,还要确保它们能无缝融入用户生活的方方面面。
最近,有报道称苹果计划在iOS18中,实现所有人工智能功能的完全离线运行。即便是在拥有数据中心网络和数千个尖端GPU的情境下,构建一个高效且多用途的模型仍是一大挑战,更不用说是在一台智能手机上实现这一点。因此,苹果必须展现其独特的创新思维。
在一篇名为《闪存中的LLM:利用有限内存实现高效的大型语言模型推理》(LLMinaflash:EfficientLargeLanguageModelInferencewithLimitedMemory)的论文中,研究人员提出了一种创新的存储模型数据系统。这些数据通常存储在设备的RAM上,但研究团队巧妙地将它们转移到了SSD上。他们写道:“我们已经成功验证了在SSD上运行LLM的能力,其大小是可用DRAM的两倍。与传统CPU加载方法相比,推理速度提升了4至5倍,而在GPU上更是高达20至25倍。”通过巧妙利用设备上最经济实惠且易于获取的存储空间,这些模型能够实现更快、更高效的运行。
苹果的研究人员还开发了一个名为EELBERT的系统,该系统能够将LLM压缩至更小尺寸,同时保持其性能。他们成功将谷歌的Bert模型数据压缩至原大小的1/15,仅占用1.2MB的空间,且质量仅下降4%。然而,这种压缩也带来了一定的延迟。
总的来说,苹果正致力于解决模型领域的一个核心难题:随着模型规模的不断扩大,其性能与实用性也随之提升,但这也伴随着体积增大、耗电量上升以及运行速度下降的问题。与许多其他公司一样,苹果正在寻求在这些方面找到完美的平衡点,并努力探索实现这一目标的最佳路径。
更强Siri+感知设备=自我操作手机?
让我们畅想一下这些技术将如何与苹果正在开发的其他功能相辅相成。想象一下,一个能够真正理解你需求的Siri,再配合一个能够感知并理解屏幕上所有信息的设备,这将是一部真正意义上能够自我操作的手机。苹果无需对每一款产品进行深度整合,只需简单运行应用程序并自动点击正确的按钮即可。
需要重申的是,目前这一切都还只是研究阶段。但如果从今年春天开始,这些技术能够顺利投入实际应用,那无疑将是一项划时代的技术突破。我认为,在今年的WWDC上,我们将见证苹果在人工智能领域的一系列重磅发布。
苹果CEO蒂姆·库克(TimCook)在2月份的评论中甚至已经透露了这一点,并在最近的财报电话会议上进一步确认了这一期待。有两件事已经非常明确:一是苹果在人工智能领域的竞争正日益激烈,二是这项技术可能会对iPhone带来全面的革新。届时,你甚至可能会开始愿意频繁使用Siri了!这将是苹果取得的一项重大成就。