惊人!OpenAI最新GPT-4o戏精上身:看脸色 会撒娇 唱歌…
OpenAI发表了新的GPT-4o模型,含有语音助理新功能,不仅能使用带有情绪的用词即时回应的,甚至能够唱歌。 图:OpenAI/YouTube
美国人工智能公司OpenAI周一(13日)进行发表会,推出自家旗舰AI模型升级的新版本“GPT-4o”,反应速度更上一层楼,还有更新的语音助理功能,甚至在发表会中当场即兴唱歌。
OpenAI春季新品发表会公佈最新模型GPT-4o的核心变化,OpenAI技术长穆拉蒂(Mira Murati)表示,最新的模型能看文本、图片,还可以拍环境给它看。甚至能读懂情绪,透过语音与人类即时互动。
值得注意的是,新的语音功能,还能在交谈时打断它,这点与先前所有的语音助理截然不同,大大超越了Siri等功能。
OpenAI也在YouTube频道展示GPT-4o模型语音助理与人类的各种聊天互动,语音助理被提到今天的场合是要来介绍她时,女声语音助理还使用带有情绪反应的用词羞笑回应说“我?是要介绍我?”
这次发表会震撼了所有观众,OpenAI表示,GPT-4o模型对语音输入的反应最快可达0.232秒,几乎和人们彼此对谈的语速差不多。
除了戏剧化的声音转换,发表会甚至还有语音助理唱歌的桥段,新版本还懂50种语言、能言善道,反应机敏,且开放全部使用者免费使用,若付费可享有更多功能。
新闻链接>>
GPT-4o发布:可读懂用户情绪的智能助理如何从科幻走入现实
新京报
5月13日,OpenAI在一场26分钟的直播中发布了新一代旗舰生成模型GPT-4o,展示了可以毫秒级反应、识别人类情绪进行音视频交互,可多模态输入/输出等一系列新能力。伴随这些能力的还有一个新的桌面版的ChatGPT以及新的用户界面,首席技术官米拉(Mira Murati)表示,这是为了让更多人更方便地使用,她宣布了OpenAI的产品理念:免费优先。
发布会结束后,OpenAI首席执行官山姆·奥特曼在个人社交平台发布了一个单词:她(her)。在科幻电影《她》里,AI助理爱上了人类,而今天,具备新功能、接入GPT-4o的ChatGPT语音助手产品,似乎真的有望让科幻电影的桥段走入现实。
识别表情语气、可随时打断 GPT-4o展示“真”语音助手
“我第一次来直播的发布会,有点紧张。”当OpenAI前沿研究部门主管马克(Mark Chen)通过手机对ChatGPT说话时,ChatGPT回答,“要不你深呼吸一下?”
“好的,我深呼吸。”
“慢一点,马克,你不是吸尘器。”
——这是发生在直播中的一幕,通过直播,OpenAI全方位展示了接入GPT-4o后,ChatGPT是如何识别用户语音中的情绪的。此后,马克还示范了ChatGPT如何用不同的声音朗读AI生成的故事,包括超级戏剧化的朗诵、机器人音调,甚至唱歌。
OpenAI前沿研究部门主管马克展示GPT-4o的实时语音交互能力。
这似乎已经不同于“传统”的语音助手技术了,有专家表示,目前市面上一些“语音助手”实际的技术逻辑是把听到的语音转换成文字,使用文字回答后再转换成语音回复给用户,因此这类语音助手无法听出语音中包含的情绪,并且存在延迟的问题,但根据今日的演示,OpenAI似乎解决了这一问题。
根据OpenAI发布在官网的最新博客文章,在GPT-4o之前,语音模式与ChatGPT对话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。而现在,GPT-4o最快可以在 232 毫秒的时间内响应音频输入,平均响应时长320毫秒,与人类相似。据了解,GPT-4o是单独训练的新模型,可以端到端地处理文本、视觉和音频,这意味着所有输入和输出都由同一个神经网络处理。
除了语音方面的情绪识别,GPT-4o还拥有实时视觉功能,根据OpenAI研究员巴雷特(Barret Zoph)的演示,ChatGPT通过手机摄像头帮助他实时解了一个方程,就像一名真实的数学老师在旁边指导每一个解题步骤。“每当你为数学焦头烂额的时候,我就在你身边。”ChatGPT说。
ChatGPT甚至还能通过前置摄像头观察用户的面部表情,分析其情绪。在回答网友提问“ChatGPT能识别你的表情吗?”这一问题时,巴雷特把手机摄像头对准自己,然后ChatGPT回答,“一个大大的微笑,你看起来非常开心。”
ChatGPT识别OpenAI研究员巴雷特的情绪。
此外,本次演示还展示了GPT-4o的代码能力、实时翻译能力等。奥特曼介绍,GPT-4o中的“o”代表“omni(全面、全能)”,因为该模型同时具备文本、图片、视频和语音方面的能力。
数据显示,GPT-4o 在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,但在非英语文本上的性能显著提高,同时 API(接口)的速度也更快。
同时,GPT-4o成本也有所降低,官网显示,GPT-4o输入、输出每1M token(语句单位)收费0.005美元、0.015美元,而GPT-4 Turbo输入、输出每1M token收费0.01美元、0.03美元,相比之下GPT-4o的成本降低了50%。
新交互、新界面下的OpenAI愿景:让更多人使用 产品免费优先
接入新版大模型后,ChatGPT可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出。
在今天的第一轮演示中,ChatGPT是在手机端直接使用的。值得注意的是,近日还有消息传出苹果与OpenAI商谈,以便在下一代iPhone操作系统中使用ChatGPT功能。
此外,ChatGPT还在苹果电脑中拥有了一个“桌面版本”,以及新的用户界面。通过键盘快捷键(Option + Space),用户可以立即向 ChatGPT 提问,此外,用户还可以直接在应用程序中截取屏幕并进行讨论。今年晚些时候,OpenAI也会推出Windows版本。
奥特曼对此发文称,“新的语音(和视频)模式是我用过的最好的电脑界面。这感觉就像是电影里的AI,这是真的让我有点惊讶。达到人类级别的响应时间和表达能力是一个很大的变化。”
“老ChatGPT界面显示了语言的可能性,而新界面给人的感觉是本质上不同的。它是快速,聪明,有趣,自然和有益的。对我来说,和电脑说话从来没有真正自然的感觉,而现在是了。随着我们添加(可选)个性化、访问您的信息、代表您采取行动的能力,以及更多,我真的可以看到一个令人兴奋的未来,我们能够使用计算机做比以往任何时候都要多得多的事情。”奥特曼说。
此外,米拉和奥特曼都强调了OpenAI的“免费”理念。
米拉表示,GPT-4o的特别之处在于它以极为自然的交互方式为每个人带来了 GPT-4 级别的智能,包括免费用户,“以后OpenAI 做产品就是要免费优先,为的就是让更多的人能使用。”
奥特曼也发文强调了“免费”的重要性,“我们的一个关键使命就是将极其有效的AI产品免费提供给人们,我很骄傲我们做了世界上最棒的大模型并且能在ChatGPT上不用看广告就免费使用它。”
奥特曼表示,他和团队成员创建OpenAI时最初的想法是创建人工智能,并用它为世界创造各种各样的好处,“而现在看来,我们将创造AI,然后其他人将使用这个AI来创造各种各样的令人惊叹的东西,让我们大家都从中受益。”
“我们是一个企业,我们期望能找到收费的方式并帮我们为数十亿人提供免费的、优秀的AI服务。”奥特曼说。
不过,贝壳财经记者5月14日登录网页版ChatGPT发现,内置大模型选项仍然只有GPT-3.5和GPT-4两种,并未看到免费使用GPT-4o的选项。OpenAI方面称,在即将到来的几周里,用户将无需采取任何行动,即可自动接收到GPT-4o的更新。
5月14日记者登录网页版ChatGPT的截图。
值得注意的是,此次OpenAI的发布时间刚好“踩”在其竞争对手谷歌的发布会之前,有声音认为OpenAI宁可先推出GPT-4o而非人们此前预期的GPT-5,主要就是出于竞争目的考虑。
“比较让人失望的是,这次OpenAI没有发布GPT-5,连GPT-4.5都没看到。OpenAI发布了一系列应用,最重要的是发布了语音助手,由于使用了端到端大模型技术,体验远超Siri。OpenAI发布应用,恰恰说明应用在人工智能领域大有可为。目前看来,GPT-5可能还要‘难产’一段时间。”猎豹移动董事长兼CEO傅盛说。