不想回家过年的年轻人:高昂花销、催婚都是心结
考虑到手机用户对多模态(文本、图像、视频等)处理的需求,甚至需要动辄百亿参数的模型才能提供满意的用户体验。手机运行如此大规模的模型,需要至少13GB的内存和130GB/s的带宽。然而,观察到2023年旗舰手机的配置,内存通常为16GB,带宽为50GB/s,这样的硬件配置使得在手机上运行大模型看起来几乎成为不可能的任务。
尽管如此,手机厂商和用户都渴望将大模型集成到手机中。手机行业增长放缓,厂商急需新体验来打破僵局。集成大模型的手机承载着新的重要任务——打破传统应用壁垒、垂直整合软硬结合的新生态。同时,用户对大模型的认知逐渐形成,他们期望能够在智能手机上享受到大模型带来的便利。
2023年下半年开始,我们逐渐看到各大手机厂商争相进入大模型赛道,而背后,芯片厂商正在赋能。芯片的进化被认为符合摩尔定律,那就是每24个月左右,晶体管的密度就会成倍,目前摩尔定律的速度已经明显放缓,每年仅能增长20%-30%,而以端侧AI的复杂度来讲,每年需要底层硬件提升的性能则需要达到至少两倍。如何突破摩尔定律的瓶颈从而达到用户期待的性能需求,考验的是芯片厂商的创新能力。
另外,除了芯片本身的性能,如何能让芯片在手机上发挥最大的能效来达到更好的体验,还需要芯片厂商的生态能力、服务能力等各个方面的持续发力。
在这场手机芯片大进化的背后,联发科和高通是最受瞩目的两大玩家。在2023年10月的骁龙峰会上,高通发布了骁龙8Gen3,支持运行100亿参数端侧大模型。紧随其后,联发科发布了天玑9300,支持运行10亿至330亿参数的端侧大模型。
AI能力的增强正成为芯片厂商新的竞争焦点。本期《AI未来指北》端侧大模型系列,将深入探讨手机端侧大模型背后的软硬件创新。我们对话了联发科技计算与人工智能技术事业群副总经理陆忠立博士,作为这场AI芯片进化的亲历者和推动者,在本次对话中,他分享了关于这一领域的一些关键见解:
●把大模型装入手机,需要哪些关键步骤?
●把大模型装进手机,仅仅是营销噱头吗?
●大模型能力的上限取决于什么?
●如果摩尔定律失效,芯片如何才能不断突破能力极限来应对越来越复杂的应用端需求?
以下为对话内容精编:
一、芯片能力的上限决定了端侧大模型能力的上限吗?
腾讯科技:Allen(陆忠立)你好,端侧大模型是目前行业关注的一个重要方向,我们看到今年各大手机厂商的一个宣传重点就是端侧大模型,这对产业来讲,会是一个巨大的机遇吗?
陆忠立:我们认为这是一个千载难逢的机会,就像大家所讲的AI是iPhoneMoment。现在的大模型让智能手机从SmartPhone变成了AISmartPhone这样的概念。
传统的智能手机可以下载APP,这些APP让你的手机变得很聪明,这个智能并不是手机变智能,对于使用者而言,只是在消费内容而已。
现在端侧大模型出现,会颠覆原来的使用体验。举例来讲,你现在买一个东西可能要到多个电商平台去找最低价的产品,或者通过比价网站找到性价比最好的产品。如果有一个AI助手或智能体,它能够自动帮你去做这些事情,找到最适合你的产品。这样的话,从“你”的角度来讲,这才叫AISmartPhone。AISmartPhone和SmartPhone最大的区别就是它能更了解使用者,让使用者更容易达到他想要做的事情,而且是完全朝着对使用者有利的方向。我们觉得现在看起来大模型、多模态、智能体这一系列的发展,就是往这个方向在走,让所谓的智能手机变得更智能化,成为AISmartPhone。
腾讯科技:这样看来,未来大模型会不会是一个超级入口?
陆忠立:我们认为大模型后面会变成一个新的入口,主要就是因为它可以智能化地跟使用者沟通。但是大语言模型仅仅是第一个阶段;第二个阶段则是多模态。
第一阶段大语言模型,就像大脑,它能够跟你对话,到了第二阶段就等于多了感官,多了眼睛、耳朵。所以它能够接收到更多的资讯,能够更深入地理解使用者的意图,也更能够全面了解这个世界,我们都能看到,像谷歌最近发布了双子星(Gemini),苹果前几天也发布了它的多模态模型。
第三个阶段,就是智能体的阶段。它除了接受外界信息、有了感官以外,还能够做执行。通过一些工具,例如通过调用APP做大家衣食住行相关的事情。如果没有APP,它则可以自己写代码,然后产生出它要的一些结果。
目前还在第二阶段多模态的阶段,未来会慢慢走向智能体的阶段。
腾讯科技:在目前这个阶段,你觉得消费者会因为大模型的功能而换手机吗?
陆忠立:从我自己来讲,我会的。即使在目前这个阶段,我们已经看到一些颠覆性的应用,后面只会有越来越多的应用。
另外,现在99%的大模型都是运行在云端上算力很强,不过本地端会有无法替代的几个优点: 第一就是隐私性的问题。因为很多隐私信息,比如说我的声音或者是影像,我并不希望被上传到云端变成训练材料的一部分。另外可以做个性化,如果说语言模型根据你的声音来更适配,准确度可能会更高。第三,我目前觉得最重要的部分是成本。像我刚刚讲到的云端APP,每个月还是要交一定的钱。假设这个能够跑在端侧,原则上大概除了你一开始买手机的费用,后面基本上就是免费的。
当然,端侧有这些好处,但并不是说端侧会完全取代掉云侧,云端大模型有它不可取代的优点,比如说准确率很高,可以处理复杂的事情,特别是一些需要全局资讯的工作还是需要云端模型来做。
腾讯科技:我们知道其实大模型是需要很强的算力,芯片能力的上限,是否决定了端侧大模型能力的上限?
陆忠立:端侧大模型很大一部分的确是受限于芯片处理的能力。大模型目前我们看起来有三个需求,一个是刚才您提到芯片算力的部分,另外还有两个很重要的部分,一个是内存的容量,还有内存的带宽。甚至在某些情况下,内存的容量跟内存的带宽会影响到整个大模型执行的性能。所以端侧来讲,目前我们看到的是芯片很大部分决定了你在端侧大模型能够跑的大小,或者是速度。
举例来讲,以2023的旗舰手机来讲,算力大概都是在40TOPS到50T(TOPS)左右,内存的容量大概是在16GB,内存的带宽大概是在50GB/s,大概是这样的数字。
如果在端侧跑一个130亿的大模型,它需要的算力、内存容量、内存带宽都超过目前旗舰机能够提供的能力。
所以就需要在几个方面做改善:
第一,硬件方面,需要一些专用的硬件来加速大模型的执行。
第二,在算法和软件上面,利用类似于模型剪枝的技术,我们可以把大模型里面不需要执行的部分或者是很少执行的部分修剪掉,然后再来做量化,从16Bit(比特)量化到4Bit(比特),从而减少对内存的容量占用跟带宽需求。
第三,可以做压缩。
腾讯科技:如果抛开硬件的限制,手机端侧跑大模型,参数量也是越大越好吗?
陆忠立:我并不认为是越大越好,最重要的还是适配性的问题,需要的模型规模与要完成的具体特定工作有关。举个例子,如果仅仅是处理文章的摘要,我们发现10亿参数左右的大模型能够达到的效果其实跟ChatGPT的效果差不多。如果你要进行一些对话,需要的内存带宽,还有算力也会越大,这个连带影响需要的功耗也会越大。我想大部分人也不希望买一个智能手机,做了简单的对话,但是马上就没有电了。
所以手机大模型的参数量要考虑到性能和功耗的平衡,根据用户所需要的性能以及目标应用有哪些来决定大模型的参数量。
腾讯科技:我们都知道在云端跑大模型成本很高,那么在手机端侧,具有AI能力的芯片成本会增加多少?用户会不会对成本的增加有所感知?
陆忠立:以芯片成本来讲,如果加上执行大模型的能力,对于整个芯片来讲会有一些成本的增加。芯片并不只是在执行大模型,芯片里面有CPU、GPU、APU,还有各种不同功能的模组。刚刚讲的大模型主要是增强在APU方面的性能和面积,所以对于整体的成本增加有限,以有限成本的增加换取整个大模型在端侧执行,可以让使用者的体验有远超以往的改善。
二、摩尔定律失效了吗?
腾讯科技:当生成式AI加上我们可能越来越复杂的游戏需求、拍照需求,对手机芯片的要求是不是越来越高了?摩尔定律失效了吗?未来可能有哪些更好的方法去突破这种手机的芯片能力极限?
陆忠立:摩尔定律是18个月,或者是每24个月它的晶体管密度就会成倍,但是到了先进制程我们看到整个趋势是变慢下来,以目前来看的话,大概每年可能增长20%到30%。从应用层面来看,联发科技也大概做了一些统计,以端侧AI模型的复杂度来讲,每年增加的幅度可能都是两倍、三倍,甚至是十倍,所以看到这两个的确是有蛮大的差距。
这个差距没有办法完全靠摩尔定律来弥补,所以就需要在硬件上面有所创新。另外更重要的,是在算法和软件层面的创新。
当然还有一些其他的做法,比如异构集成,比如说小芯片,或者是说3D封装,另外就是一些更先进的技术路线的探索,比如光子计算、量子计算,这个都是未来的事情。
腾讯科技:天玑9300,采用了全大核的设计,这个做法很激进,也在尝试突破摩尔定律的创新吗?
如果芯片的性能,按照摩尔定律能够一直很顺利地提升性能,我们肯定会依据摩尔定律进行技术迭代,这占的比例就会比较高。
如果说摩尔定律提供的性能是比较有限,我们就需要在架构上面做一些创新,全大核的架构基本上从这个点开始出发的,同时我们的工程团队也的确能够解决全大核的一些挑战。
当初我们遇到的两个比较大的难题:第一个难题是在全大核状况下怎样平衡性能和能效。全大核性能一定会比较好,怎么做它的能效和热管理就变得很重要的。
第二个问题,在一些比较日常的场景,对性能要求没有那么高,如何让能效达到最好,让大核得到小核的功耗,后来我们也解决了这个问题,简单来讲叫快开快关。
原来小核设计的理念就是让它功耗尽量低,可能性能就会差一点。我们发现在全大核的设计下,我们可以把一些事情集中在一起,大核只要快开,开完把这些事情做完了,然后就关掉,让它休眠,不用浪费额外的功耗就可以达到小核的效果。所以说一举两得,用全大核既能得到性能的好处,又不会损失掉低功耗的优点。
所以发觉这两件事情能够克服,再加上我们经过内部的讨论,还有跟客户的讨论发现,客户对性能的要求也是越来越高。
所以我们在两年前就决定后面要做全大核架构,事实证明现在看起来是正确的,因为应用面也越来越复杂,游戏也越来越复杂,像最近讲的生成式AI,对AI的应用也越来越复杂,还有很多内容创作也需要更强劲的大核,所以全大核的确是现在整个产业的一个趋势。
我们内部跟客户谈过以后对于未来性能的预期,因为在手机界常常讲,每年CPU、GPU、APU都要成长多少的百分比,这样才能够提供给客户。
腾讯科技:大概多少百分比呢?
陆忠立:看需求,AI的需求会比较高一点,百分比会比较高,在30%到50%左右,CPU和GPU可能会稍微低一点,因为之前成长很快,现在越来越困难,所以百分比就会比AI低一点。
腾讯科技:天玑9300可以支持33B(330亿参数)的大模型在端侧运行,运行33B是一种什么样的状态呢?是不是这个芯片别的都不做,就完全只跑端侧大模型这一件事能够运行330亿参数?
陆忠立:这件事要分成两个层面来看:一个是能不能做得到;另外就是它跑得顺畅不顺畅。33B在手机上面能够跑,但是它跑出来的结果和速度并不是马上可以应用到,不过这是手机能力的一个展现。
7B跟13B可以在手机上跑,基本上也可以给用户很好的体验,所以有一些是比较前瞻性的东西,我们要在芯片上先准备好,当然这是第一阶段,能不能跑。第二阶段,跑得快不快。第三阶段就是准确率高不高,这是一个渐进式的过程。
腾讯科技:天玑9300和天玑8300都可以支持AI能力了,是不是未来不仅仅是旗舰机,在中低端手机也希望能够搭载大模型的能力?
陆忠立:对。旗舰机能够执行大模型,我觉得这只是一个开始而已,我们希望AI能够普惠化。当然这个有赖于刚刚提到的摩尔定律会让晶体管越来越多,另外就是因为算法、算力的一些改善,能够让一些模型能够用比较少的资源就能够执行。
三、未来端侧大模型的应用将如何演进
腾讯科技:总结一下把大模型装进可能需要哪些关键的步骤?
陆忠立:这有点像当初遇到的一个问题,把长颈鹿放到冰箱里,第一步先打开冰箱,然后塞进去。其实到后来也就是这个样子,一开始发现说塞不进。我们从去年(2022年)开始就已经有看到大模型这件事情,那时候觉得离手机来讲还是有点远。因为那时候的模型就是ChatGPT,大概1750亿参数,跟手机能够做的实在相差很远。不过我们还是有一直在关注这件事情,我们事实上从2019年就开始在基于Transformer模型在做一些应用,跟我们的客户端在很多视频及拍照场景就有落地。
所以后来看到大模型也是基于Transformer的架构,所以我们也在思考有没有可能把这样的东西放到端侧。只是说那时候觉得距离差得很远。
直到特别的EurekaMoment(尤利卡时刻),就是Meta发布了它的模型Llama,包含7B、13B、70B,这个看起来就近了很多,所以我们那时候就决定要全力投入,看看怎么样把这样的模型能够放到端侧。大概的一个起心动念是这个样子。
回到我们说的手机大模型,即使7B,其实跟原来的手机AI模型也差距很大。原来的手机AI模型,参数量一般来讲大概是在1000万参数以内,到目前的手机端侧大模型最小的1B也已经是10亿,所以基本上要加上100倍的样子。如果你要更大一点,就要1000倍。如何把这样的模型放到端侧,研发同仁花了很多的时间去想办法拆解,这是第一步。
第二个是整个生态系,因为它是Open(开源)的模型,非常给力,很快我们把原来浮点的运算转换成整数运算,模型大小实际上也缩减的很快。
基于开源生态的发展,我们把生态系的东西再进一步简化、剪枝、压缩,然后放到手机里面。大概是这样一个过程。
当然这个放进去,就像把大象放到冰箱是第一步而已。第二步是放到冰箱到底要干吗?跑起来要顺畅,所以后来主要专注的事情就是怎么样让它能够跑得顺、跑得准。放进去是第一件事情,然后再就是跑得顺、跑得准。
腾讯科技:跑得顺、跑得准是不是主要还是硬件方向?硬件和厂商一起共同合作吗?
陆忠立:其实硬件、软件都要,以及跟厂商合作。因为端侧大模型准不准是厂商说了算,他们知道要问什么问题或者什么应用,以及要什么样的答案,那都是由厂商这边的QC或者QA还有RD来决定。联发科技的角度就是提供平台,提供对应的工具链,能够让客户跑得顺。如果结果准确度有什么问题,大家一起来讨论怎么来解决这个问题。
腾讯科技:除了智能手机,您认为现在还有哪些很重要的终端可能会首先被AI大模型改变?
陆忠立:这是很好的问题。我们自己判断会有三类重要的终端。第一是刚刚提到的智能手机;第二就是PC,现在都有所谓的AIPC的出现,也是让你的PC更有智能,可以做更多内容的创作和生产力的提升;第三个很有潜力的是在车用,主要像新能源车,因为它能提供更好的使用者的体验跟自然语言交互的界面,会让你跟汽车的互动变得更方便。我们觉得大概这三个会直接受到大模型的影响或者助力。当然,随着时间的推移,还会再传播到其他的终端。
腾讯科技:未来在终端场景的应用,我们知道手机高频使用的功能是拍照片、拍视频,大家去进行语音对话。这些场景天然就是多模态的,未来端侧大模型的应用将如何演进?
陆忠立:我们判断大概分成三步走:第一步就是现在的大语言模型,主要就是文本进、文本出。第二步就是现在已经在发生的,就是所谓多模态。因为刚刚讲这种大语言模型比较像人的大脑,有的时候是一本正经,有的时候也会胡说八道。不过再来就是要有更多的感官输入,包含视频、图像、声音进来。产出的内容也是一样,不是只产生文本,也会产生视频和图像的输出,这就是现在多模态在专注的事情。
因为手机本来就是多模态的设备,这样更能够感受到整个环境的需求,比较深刻理解目前要做的一些任务或者一些事情,也会提供更多的服务。这就是现在看到的好几家公司都已经推出多模态的模型。
对于手机的算力来讲的确会增加,因为除了原来处理文本以外,现在连图像,甚至后面的视频都会加进来,所以算力的需求会更大,再就是内存的容量和带宽需求也会更大。
基于这些新的模型,也有一些新的做法。主要还是集中在刚刚讲的两方面,一些是硬件的演进,突破算力。第二个非常重要,甚至有时候更重要的是在算法上面的改进。这些算法的改进,就让这些多模态的大模型能够在端侧执行。第三步就是到智能体的部分,除了刚刚讲的能够多模态进来以后,还能善用工具或者善用APP执行任务。