AI教父拿下诺奖 获奖感言却是“我感到后悔和愧疚”
10月8日,2024年物理学奖花落两位“冷门学者”:91岁高龄的约翰·霍普菲尔德(John Hopfield)和77岁的杰弗里·辛顿(Geoffrey Hinton)。
这是令人意外的一次颁奖。毕竟,数个诺奖预测都相信,物理奖应该是天体物理、粒子物理、应用物理、量子物理、凝聚态物理、经典物理、原子分子和光物理七大类中的一个。诺贝尔物理学奖不应是两个研究机器学习(Machine Learning)、掀开当前人工智能(AI)革命的大师与教父。
被称为“AI教父”的辛顿自己没有想到,一个身体不好,坐不了飞机,三任妻子都死于癌症的男人,会收到诺贝尔物理学奖获奖的通知电话。
10月8日,在瑞典斯德哥尔摩举行的2024年诺贝尔物理学奖公布现场/新华社记者 彭子洋 摄
而仔细查看他们的研究会发现,在终其一生的思索里,他们都在试图用数学系统发明计算机神经网络,模拟人类大脑工作。人脑有100万亿个神经元连接,随时随地在互动与发射信号,像深海般充满奥秘。要想实现神经网络的野心,他们不可避免地运用物理、生物、心理学等领域的知识与灵感。
于是,1980年代,两个跨学科的天才都提出了令21世纪惊叹的发现:约翰·霍普菲尔德运用物理学原子自旋原理,发明了一种得以保存记忆的神经网络。后人以他的名字命名,Hopfield神经网络。
至于教父辛顿,他以Hopfield网络为基础,开发了一种新的神经网络:玻尔兹曼机(Boltzmann machine)。这个晦涩的新词,灵感同样来源于物理学——奥地利物理学家路德维希·玻尔兹曼百年前提出的理论,涉及一个与AI完全无关的现象(加热气体中粒子的平衡)。
科学的突破与发现并非一蹴而就。人工智能在过往30多年发展起起伏伏,充满嘈杂声响,信念不断被推倒又重建。以辛顿为代表的AI学者,用他们的人生证明:有时候,成功来源于走在前方无人小径时,最大程度地坚持自我。
处处碰壁的天才
77岁的杰弗里·辛顿,随着ChatGPT等大模型的火爆,在近年越来越名声大噪。他早已是图灵奖得主,密集地接受各方采访。
不过,说的内容并非所有人都爱听。就像那位不苟言笑的核物理专家奥本海默,他张口闭口说AI可能对人类的威胁,强大的超级人工智能会让人类进入末世,仿佛这个工具是别人发明的一样。
杰弗里·辛顿
除了这种看似知识分子的反思与忏悔,真正接触过辛顿的记者,都在回头书写时记录下了对他的印象:身体不好。从2005年开始,辛顿的腰背部出现问题。他开始很难坐立,不敢搭乘飞机出行,平时办公也是站着的。遇上商务宴席,他也不能坐在椅子上,而是选择双腿跪在地上,经常换来服务员奇怪的眼光。
他曾形容自己破烂的身体:“我每天都很煎熬,情况发展到了可能会瘫痪的地步,所以我很认真地对待这件事。如果我能完全控制自己的生活,它就不会带来任何问题。”
失去控制总是让人心生绝望,但在辛顿的人生里,他从来都是与缺乏确定性、无法受控的事情相伴。1947年,辛顿出生在英国一个科学家和教授世家,父亲是研究甲虫的剑桥生物学家。他的亲戚们还包括《牛虻》的作者艾捷尔·伏尼契;“中国人的好朋友”、写中国土地革命《翻身》的作者韩丁;参加曼哈顿计划的女核物理学家寒春……
而在十几岁时,早慧的辛顿已经遇上了促使他思考一生的命题。他回忆,那是高中时期,一位朋友问他,“你知道吗?大脑的记忆并不是储存在某个特定的地方,而是分布在整个大脑,在整个神经网络里传播,就像全息图一样工作。”他从此开始对人脑机制产生了浓厚兴趣。
大学期间,因为这个问题,辛顿曾学过5个专业,先是数、理、化,大二时又学了哲学、建筑学,后来又攻读了心理学。四年大学让他发现,所有的这些学科都无法解答人脑神经元如何连接并工作的奥秘。最终,毕业后的辛顿选择当一名木匠。
当木匠可以让人收获平静,这是他高中时期最高兴的活。只是,这位天真的知识分子也发现,没有内耗的活往往匹配较低的薪水,他不适合用此谋生。这段日子里,一到周末,他就到图书馆自学大脑工作原理。
1972年,他再度“转行”。凭借发表论文,他到爱丁堡大学就读人工智能学的博士——又是一个全新的领域。
尽管他不熟悉计算机科学,辛顿却有着自己的直觉和信念。不巧的是,此时正值人工智能的寒冬,人们从过往对AI的极度乐观,到被冰冷的现实鞭打至谷底。1971年,英国政府进行了一项人工智能进展的研究,结果显示,“大多数人工智能研究和相关工作人员承认,他们对过去25年取得的成就感到非常失望”。
报告称:“迄今为止,AI在任何地方取得的成果,都没有实现它当初承诺的重大影响。”
令人沮丧的结果并非致命的,更大的问题是,在当时人工智能界,人们开始广泛地怀疑从前的信念,即运用模拟人脑的神经网络,进行机器学习(神经网络只是众多机器学习算法和模型的一种)。
最著名的论断来自于当时的“人工智能之父”马文·明斯基。他对模拟人脑的“联结主义”派表示公开怀疑,认为计算机如果要拥有人类智能,必须用属于计算机的方式来实现。1969年,他为此专门写了一本书,写道,“多层感知机(1960年代的一种神经网络)不会有发展前景,因为世界上没人可以将多层感知机训练得足够好,哪怕是令它可以学会最简单的函数方法。”
明斯基的论断解释了AI为何过去失败了,也让人们重新拥抱了新的愿景——符号人工智能。1972年,连辛顿的博士导师朗吉特·希金斯都被明斯基的理论说服了。他开始劝说自己的学生,换一个有前途的方向吧,别做神经网络了。
辛顿回忆:“我们每周见一次面,有时会以一场大喊大叫的争论结束。”
博士期间,他的研究方向始终与导师期望的背道而驰。辛顿说,他认可明斯基指出的神经网络的缺陷,但与多数人的选择不同,他想继续往“有缺陷的方向”前进,完善前人指出的漏洞。
至于他能这么做的原因,辛顿回忆,这可能是源于他从小在宗教学校上学,却是全班唯一不信仰宗教的人。“这对科学家是一种很好的训练,让你对自己的观点充满信心。每个人都可能是错的,你需要坚持自己的主张,直到实现它或者(彻底)否定它。做科学就需要这样的精神。”
交叉学科的力量
固执的辛顿在1978年顺利博士毕业。当时的学者也没预料到,他的坚持从此掀开了人工智能深度学习革命,并让21世纪的各大巨头争相进行科技军备竞赛。
那时博士毕业后,孤独的辛顿漂至了美国,总算在加州大学圣迭戈分校找到了一些志同道合的人士。他们有的来自神经生物学,有的像辛顿一样来自认知科学系,重要的是,他们分享着对联结主义的信仰,相信用计算机多层神经网络可以模拟人类大脑的演算方式。最终,机器也可以像蹒跚学步的孩子一样自我学习和进步,拥有推理能力。
看上去像天方夜谭的野心,却在当时被一群人真情实意地相信着。1982年,加州理工学院教授霍普菲尔德率先开发了一种神经网络,用于模拟大脑如何相互作用并产生稳定记忆。
这个神经网络的构建,也汲取了人类大脑的工作智慧。霍普菲尔德曾回忆,促使他走向这条道路的是一次受邀参加神经科学的会议。会议内容令他着迷,并让他开始思考神经网络的动力学特性。
人脑的运作好比需要集体演奏的交响曲,只有当神经元共同作用时,它们才能产生新的、强大的特性。“如果你只关注网络中的每一个独立神经元,是很难察觉这些特性的。”他说。
拥有物理学背景的霍普菲尔德,开始想到原子自旋而产生的特性。这一特性使每个原子都成为了一个微小的磁铁。相邻原子的自旋会相互影响,自旋方向一致的区域得以形成。
运用自旋特性,霍普菲尔德成功构建了有节点和连接的神经网络,并以能量函数作为表达。大致实现原理类似于人类的联想记忆。比如,如果神经网络接收到不完整或稍有失真的模式时,该方法能够通过能量的原理,找到与之最相近的已存储模式。
霍普菲尔德的模型示意图。首先让分子体系记住右下角的图像(字母“J”)。此时,如果将分子体系的状态改成右上角的图,那么每个分子会按照既定的规则更改自身的能量,最终使得整体重新回到右下角的图像
记忆、存储、重现信息,这是霍普菲尔德神经网络的进步,也被后人视为联结主义复兴的标志。更年轻的辛顿也深受影响和鼓舞。
1986年,辛顿与两名学者共同发表了一篇题为“通过反向传播误差来学习”的论文,成为了当代机器深度学习的奠基之作。
所谓的反向传播,实际是一个基于微分的算法。需要指出的是,1980年代的研究重点与上世纪60年代已经截然不同:1960年代的神经网络是一个单层网络,而吸取了明斯基教训的科学家们在20年后,希望建立的是有多层结构的神经网络。
他们相信,只要研究人员能够建立一个多层的网络,每一层都向下一层提供信息,这个系统就可以学习过去无法理解的复杂图形。换句话说,一个更像大脑的系统就会出现。
这个过程变成了解出嵌套函数的数学问题。如果要训练一个符合现实的神经网络,科学家们发现,他们的工作重点需要考量神经网络的输出和真实结果之间的误差;接着选择恰当的损失函数来表示误差,再根据梯度下降等优化算法,一步步修正权值参数,最后得到能拟合的神经网络模型。
在输入层和隐藏层之间具有两层隐藏节点的馈送网络输出层
但新的难题出现了:多层神经网络内含多个隐藏层,当误差出现时,研究者们很快发现,他们极难找到误差是在哪发生的。
擅长叛逆的辛顿与同事们同时也擅长逆向思维。1986年,他们提出反向传播算法,精髓是将误差从输出层开始倒推,反过来逐层把误差传播至每一个隐层上,直到输入层为止。每一层都依赖后面已经计算好的信息去完成求导,故称作“反向传播”。
反向传播成功解决了多层神经网络的训练问题,证明了神经网络绝非停留在想象里的空中楼阁。
同一时期,辛顿与同事们发明了玻尔兹曼机。
玻尔兹曼机和霍普菲尔德模型的不同在于,内部增加了隐藏节点,使得节点之间可以通过概率调节整个网络的功能
这个新神经网络汲取了统计物理学的原理,希望分析各个组件能够共同存在的各种状态,并计算它们出现的概率。这也是当今短视频等平台算法令人无法自拔的基本原理:算法可以分析和找到大数据之间的联系,接着计算不同类别的人最大概率会喜欢和讨厌的内容,并根据每次的点击情况,实时进行概率计算和内容推送。
1986年,经过训练的玻尔兹曼机能够识别出它未曾见过的信息中的熟悉特征。这也就意味着,计算机拥有了自我学习的能力,这正是神经网络的拥趸多年来所期许的。
辛顿和同事谢诺夫斯基都为此激动不已。“这是我一生之中最激动人心的时刻,”谢诺夫斯基说,“我们确信,已经弄清楚了大脑是如何工作的。”
冷门二十年
约30年后,诺贝尔物理学奖认可了玻尔兹曼机的发明。
“他们都是真正的先驱者,寻找到了解决问题的新方法。”诺贝尔物理学委员会成员Anders Irbäck教授在2024年盛赞。
只是,对80年代的辛顿来说,萦绕在前方的仍是时而大喜、时而大悲的情绪,以及与科学有关的迷雾之中。
他和同事都以为将改变世界进程的玻尔兹曼机,只在80年代末期人工智能的又一波热潮时得到了关注。
1990年代,人工智能发展再度进入瓶颈期。各种基于统计的机器学习方法兴起,研究神经网络的人越来越少了。辛顿成为了少数几个仍在其中坚持的人。
杰弗里·辛顿曾在社交媒体上写道:毛毛虫提取营养物质,然后转化为蝴蝶。GPT-4也像人类社会的蝴蝶般,提取了人类数十亿的知识
后来人们才发现,当时的停滞并不代表辛顿提出的理论和设想是错误的。想法受限于当时计算机技术处理计算的能力。
辛顿在一次采访中感慨:“追溯到1986年,我们首次开发出反向传播算法,我们因其能学习到多层的特征探测而感到兴奋,我们认为已经解决了这个问题。但在解决实际问题中却没有出现大的突破,这非常令人失望,我们完全猜错了需要的计算资源和标记案例数量。”
这样的停滞伴随着辛顿接下来的20余年科研历程,神经网络始终不受学界主流认可。为了拿到教研经费,他曾在伦敦大学学院、多伦多大学等地工作,最后终于在2004年从加拿大高等研究院申请到了每年50万美元的经费支持。
直到2006年以前,辛顿即使已经在英国、加拿大是院士级别的人物,但他的发现只在学界里有名气,从未得到现实的广泛应用。但他始终坚信神经网络将引起人工智能革命。据称,为了给自己打气,辛顿还养成了一种自我激励的方法,每周发泄般大吼一次:“我发现大脑是怎样工作的啦!”
天然神经系统和人工神经网络的相似性。关于人工神经网络的理论在几十年前就已形成,但当时人们并没有找到实现它的方法
2006年,深度学习革命终于在全球打响。这个新时代的序幕依然是由辛顿和学生拉开的。他们在两篇论文里论证道,深度神经网络具有自主学习的能力。比起人类,深度学习的自编码器对数据有更本质的刻画,从而有利于可视化和分类。
这一全新的概念经历了此后6年的储备,终于在2012年点燃全世界。2012年,在华裔科学家李飞飞举办的ImageNet图像识别竞赛中,辛顿和学生伊利亚(Ilya Sutskever,前OpenAI首席科学家)和亚历克斯(Alex Krizhevsky)组成团队,设计了名为“AlexNet”的卷积深度网络程序,一举夺冠。
这次夺冠并非只是拿到冠军那么简单。辛顿和学生以全场都没有用过的方式,取得了颠覆性的胜利。
“快乐和悲伤交织”
后来的故事更为人所知。2012年一举成名后,辛顿收到了来自百度、谷歌、微软以及DeepMind等巨头的千万美元年薪橄榄枝。他于是听从律师建议,在美国华达州的哈拉斯赌场,对着争相而来的科技巨头,举行了一场邮件竞拍。
最终,他在身价被提高到了4400万美元时,叫停了拍卖,选择加入谷歌。
失败的百度从此决心向深度学习上储备人才,先后建立了深度学习研究院和自动驾驶研究院。主导百度参与辛顿竞拍的负责人、现地平线创始人余凯回忆:“尽管竞拍失败,但我还是很开心的。我想我的目的也达到了,因为李彦宏亲眼见证了国际巨头不惜花费巨资来投资深度学习研发,这让他下定决心自己把深度学习做起来。”
进入21世纪的第二个十年,大模型、AI视觉、AIGC等多个应用,终于迎来大爆发。辛顿等到了盼望已久深度神经网络引发的人工智能浪潮。
这是属于他引领的时代。
他却自述过往,认为他的人生与AI浪潮一样,徘徊在反反复复的起伏里。“我经常会告诉大家,我弄清大脑的工作机制了,可过段时间,我又失望地发现之前的结论是错误的。”
“但事情就应该是这样发展的。正如(英国)诗人威廉·布莱克的两句诗,‘将快乐和忧伤编织,披在我神圣的心上’。”
2023年,离开谷歌的辛顿越来越活跃于媒体之中。他近年因为大模型的热潮早已荣誉加身,人们喊他教父,对他进行膜拜。连他的很多早期追随者,如今也成为了科技巨头。例如学生伊利亚,与奥特曼一起创立OpenAI,是AI浪潮的引领者之一。
看上去,辛顿没有什么烦恼可言了。
但他却表现得越来越忧心忡忡,担心AI有一天会掌控人类社会。2024年,他在诺贝尔奖颁布的现场连线时说:“我感到愧疚和后悔。”
“后悔有两种。一种是因为你做了一些明知不该做的事情而感到内疚;另一种是你做了一些在同样情况下会再次做的事情,但最终结果可能并不好。我的遗憾是第二种。我担心这种做法的后果是,比我们更聪明的系统最终会掌控一切。”