
谷歌两位大佬复兴一切:从 PageRank 到 AGI 的 25 年开云(中国)Kaiyun·官方网站 - 登录入口。
现任首席科学家Jeff Dean、出走又追想的 Transformer 作家Noam Shazeer,与驰名播客主执东说念主 Dwarkesh Patel 伸开对谈。
视频刚发几个小时,就有 20 万 + 网友在线围不雅。

两东说念主都是谷歌邃古职工,资格了从 MapReduce 到 Transformer、MoE,他们发明了好多改变悉数这个词互联网和 AI 的要道期间。
Noam Shazeer 却谈到当初入职谷歌仅仅为了捞一笔就跑,没意想成了改变寰球的阿谁东说念主。
在两个多小时的讲话中,他们露馅了 AI 算力的近况:
单个数据中心仍是不够了,Gemini 仍是在跨多个大城市的数据中心异步试验。
也对当下最流行的期间趋势作念了探讨:
推理算力 Scaling 还有很大空间,因为与 AI 对话比念书仍然低廉 100 倍
将来的模子架构会比 MoE 更生动,允许不同的团队寥寂开发不同的部分
……
网友们也在边听边 po 发现的亮点:
比如在内存中存储一个弘远的 MoE 模子的遐想。

以及"代码中的 bug 可能有时会对 AI 模子有正面影响"。
跟着限制的扩大,某些 bug 恰是让筹商东说念主员发现新阻扰的机会。
推理算力 Scaling 的将来
好多东说念主合计 AI 算力很贵,Jeff Dean 不这样认为,他用念书和与 AI 询查一册书来对比:
现在开端进的语言模子每次运算的资本约为 10-18 好意思元,这意味着一好意思元不错处理一百万个 token。
比较之下,买一册平装书的资本轻便特殊于每 1 好意思元买 1 万个 token(单词数换算成 token)。
那么,与大模子对话就比念书低廉约 100 倍。

这种资本上风,为通过增多推理算力来晋升 AI 的智能提供了空间。
从基础设施角度来看,推理时辰筹画的首要性增多可能会影响数据中心经营。
可能需要专门为推理任务定制硬件,就像谷歌初代 TPU一样,它当先是为推理的主义设计,自后才被纠正为也扶持试验。

对推理的依赖增多可能意味着不同的数据中心不需要执续通讯,可能导致更散播式、异步的筹画。
在试验层面,Gemini 1.5 仍是运转使用多个大城市的筹画资源,通过高速的采蓄积首将不同数据中心中的筹画扫尾同步,见效达成了超大限制的试验。
对于大模子来说,试验每一步的时辰可能是几秒钟,因此即使采集蔓延有 50 毫秒,也不会对试验产生权贵影响。

到了推理层面,还需要磋议任务是否对蔓延明锐。要是用户在恭候即时反映,系统需要针对低蔓延性能进行优化。关联词,也有一些非阻拦的推理任务,比如运行复杂的险阻文分析,不错承受更长的处理时辰。
更生动和高效的系统可能大致异步处理多个任务,在提高举座性能的同期最大限制地减少用户恭候时辰。
此外,算法着力的晋升,如使用较小的草稿(Draft)模子,不错匡助缓解推理经由中的瓶颈。在这种措施中,较小的模子生成潜在的 token,然后传递给较大的模子进行考据。这种并行化不错权贵加速推理经由,减少一次一个 token 的扫尾。

Noam Shazeer 补充,在进行异步试验时,每个模子副本会寥寂进行筹画,并将梯度更新发送到中央系统进行异步套用。天然这种容颜会使得模子参数略有波动,表面上会有影响,但实行讲授它是见效的。
比较之下,使用同步试验步地能提供愈加巩固和可类似的扫尾,这是许多筹商者愈加醉心的步地。
在谈到何如保证试验的可类似性时,Jeff Dean 提到一种措施是纪录操作日记,尤其是梯度更新和数据批次的同步纪录。通过回放这些操作日记,即使在异步试验的情况下,也大致确保扫尾的可类似性。这种措施不错让调试变得愈加可控,幸免因为环境中的其他身分导致扫尾不一致。
Bug 也有平允
顺着这个话题,Noam Shazeer 淡薄一个专门想的不雅点:
试验模子时可能会遭遇多样各种的 bug,但由于杂音的容忍度,模子可能会自我休养,从而产生未知的效果。
以致有的 bug 会产生正面影响,跟着限制的扩大,因为某些 bug 在实验中可能会弘扬出颠倒,让筹商东说念主员发现新的改进机会。

当被问及如安在本色处事中调试 bug 时,Noam Shazeer 先容他们常常会在小限制下进行多数实验,这样不错快速考据不同的假定。在小限制实验中,代码库保执浅易,实验周期在一到两个小时而不是几周,筹商东说念主员不错快速获取反馈并作念出休养。
Jeff Dean 补充说,好多实验的初期扫尾可能并不睬想,因此一些"看似不可功"的实验可能在后期仍然大致为筹商提供首要的视力。
与此同期,筹商东说念主员濒临着代码复杂性的问题:天然不休叠加新的改进和编削是必要的,但代码的复杂性也会带来性能和珍摄上的挑战,需要在系统的整洁性和编削的鼓吹之间找到均衡。
将来模子的有机结构
他们认为,AI 模子正在资格从单一结构向模块化架构的首要回荡。
如 Gemini 1.5Pro 等模子仍是采用了民众搀杂(Mixture of Expert)架构,允许模子凭据不同任务激活不同的组件。举例在处理数学问题时会激活擅长数学的部分,而在处理图像时则会激活专门处理图像的模块。
关联词,目下的模子结构仍然较为僵化,各个民众模块大小相通,且短缺实足的生动性。
Jeff Dean 淡薄了一个更具前瞻性的遐想:将来的模子应该采用更有机的结构,允许不同的团队寥寂开发或改进模子的不同部分。
举例,一个专注于东南亚语言的团队不错专门改进该范围的模块,而另一个团队则不错专注于晋升代码清醒智力。
这种模块化措施不仅能提高开发着力,还能让民众各地的团队都能为模子的逾越作念出孝敬。
在期间达成方面,模子不错通过蒸馏(Distillation)期间来不休优化各个模块。这个经由包括将大型高性能模块蒸馏为袖珍高效版块,然后在此基础上不时学习新常识。
路由器不错凭据任务的复杂进程,遴荐调用得当限制的模块版块,从而在性能和着力之间取得均衡,这恰是谷歌 Pathway 架构的初志。

这种新式架构对基础设施淡薄了更高条目。它需要坚决的 TPU 集群和充足的高带宽内存(HBM)扶持。尽管每个调用可能只使用模子的一小部分参数,但悉数这个词系统仍需要将完好模子保执在内存中,以服务于并行的不同恳求。
现在的模子能将一个任务剖析成 10 个子任务并有 80% 的见着力,将来的模子大致将一个任务剖析成 100 或 1000 个子任务,见着力达到 90% 以致更高。
" Holy Shit 时刻":准确识别猫
回及其看,2007 年对于大模子(LLMs)来说算得上一个首要时刻。
那时谷歌使用 2 万亿个 tokens 试验了一个 N-gram 模子用于机器翻译。
然则,由于依赖磁盘存储 N-gram 数据,导致每次查询需多数磁盘 I/O(如 10 万次搜索 / 单词),蔓延相称高,翻译一个句子就要 12 小时。

于是自后他们意想了内存压缩、散播式架构以及批处理 API 优化等多种交接举措。
内存压缩:将 N-gram 数据统统加载到内存,幸免磁盘 I/O;
散播式架构:将数据分片存储到多台机器(如 200 台),达成并行查询;
批处理 API 优化:减少单次恳求支出,晋升婉曲量。
经由中,筹画智力运转死守摩尔定律在之后逐渐呈现爆发式增长。
从 2008 年末运转,多亏了摩尔定律,神经采集真确运转起作用了。

那么,有莫得哪一个时刻属于" Holy shit "呢?(我方都不敢服气某项筹商真的起作用了)
不出恐怕,Jeff 谈到了在谷歌早期团队中,他们让模子从油管视频帧中自动学习高档特征(如识别猫、行东说念主),通过散播式试验(2000 台机器,16000 核)达成了大限制无监督学习。
而在无监督预试验后,模子在监督任务(ImageNet)中性能晋升了 60%,讲授了限制化试验和无监督学习的后劲。

接下来,当被问及如今谷歌是否仍仅仅一家书息检索公司的问题,Jeff 用了一大段话抒发了一个不雅点:
AI 践诺了谷歌的原始任务
浅易说,AI 不仅能检索信息,还能清醒和生成复杂内容,而且将来遐想力空间弘远。
至于谷歌将往返处何方,"我不知说念"。
不外不错期待一下,将来将谷歌和一些开源源代码整合到每个开发者的险阻文中。
换句话说,通过让模子处理更多 tokens,在搜索中搜索,来进一步增强模子智力和实用性。
天然,这一宗旨仍是在谷歌里面运转了实验。
本色上,咱们仍是在里面代码库上为里面开发东说念主员进行了对于 Gemini 模子的进一步培训。

更实在的说法是,谷歌里面仍是达成25% 代码由 AI 完成的指标。
在谷歌最自得的时光
专门想的是,这二位还在对话中露馅了更多与谷歌联系的风趣资格。
对 1999 年的 Noam 来说,原本没贪图去谷歌这样的大公司,因为凭直观认为去了也可能无须武之地,但自后当他看到谷歌制作的逐日搜索量指数图表后,立马回荡了宗旨:
这些东说念主一定会见效,看起来他们还有好多好问题需要措置
于是带着我方的"留神想"就去了(主动投了简历):
挣一笔钱,然后另外开昂扬心去搞我方感酷好的 AI 筹商

而加入谷歌后,他就此结子了导师 Jeff(新职工都会有一个导师),自后两东说念主在多个名堂中有过协作。
谈到这里,Jeff 也插播了一条他对谷歌的招供点:
心爱谷歌对 RM 愿景(反映式和多模态,Responsive and Multimodal)的平时授权,即使是一个标的,也能作念好多小名堂。
而这也相通为 Noam 提供了解放空间,以至于当初贪图"干一票就跑"的东说念主恒久留了下来。
与此同期,当话题转向当事东说念主 Jeff 时,他的一篇对于平行反向传播的本科论文也被再次说起。
这篇论文惟一 8 页,却成为 1990 年的最优等本科论文,被明尼苏达大学藏书楼保存于今。
其中,Jeff 探讨了两种基于反向传播来平行试验神经采集的措施。
步地分割法(pattern-partitioned approach):将悉数这个词神经采集示意在每一个处理器上,把多样输入步地区别到可用的处理器上;
采集分割法(network-partitioned approach)活水线法(pipelined approach):将神经采集的神经元散播到可用的处理器上,悉数处理器组成一个互相通讯的环。然后,特征通过这个 pipeline 传递的经由中,由每个处理器上的神经元来处理。
他还构建了不同大小的神经采集,用几种不同的输入数据,对这两种措施进行了测试。
扫尾标明,对于步地分割法,采集大、输入步地多的情况下加速效果比较好。
天然最值得护理的如故,咱们能从这篇论文中看到 1990 年的"大"神经采集是什么样:
3 层、每层分别 10、21、10 个神经元的神经采集,就算很大了。

论文地址:https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view
Jeff 还回忆说念,我方测试用的处理器,最多达到了 32 个。
(这时的他应该还想不到,12 年后他会和吴恩达、Quoc Le 等东说念主一王人,用 16000 个 CPU 中枢,从海量数据中找出猫。)

不外 Jeff 坦言,要是要让这些筹商效简直确施展作用,"咱们需要轻便 100 万倍的筹画智力"。
自后,他们又谈到了 AI 的潜在风险,尤其是当 AI 变得极其坚决时可能出现的反馈轮回问题。
换句话说,AI 通过编写代码或改进本人算法,可能插足不可控的加速改进轮回(即"智能爆炸")。
这将导致 AI 速即越过东说念主类限度,以致产生坏心版块。就像主执东说念主打的比喻,有 100 万个像 Jeff 这样的顶尖门径员,最终形成" 100 万个狂暴的 Jeff "。
(网友):新的恶梦解锁了哈哈哈!

终末,谈及在谷歌最自得的时光,二东说念主也分别堕入回忆。
对 Jeff 来说,在谷歌早期四五年的日子里,最自得的莫过于见证谷歌搜索流量的爆炸式增长。
斥地一个如今 20 亿东说念主都在使用的东西,这相称不可想议。
至于最近,则很昂扬和 Gemini 团队构建一些,即使在 5 年前东说念主们都不敢服气的东西,况且不错预见模子的影响力还将扩大。

而 Noam 也抒发了类似资格和处事,以致乐滋滋 cue 到了谷歌的"微型厨房区域"。
据先容,这是一个轻便有 50 张桌子的特别空间,提供咖啡小吃,东说念主们不错在这里解放逍遥座谈,碰撞宗旨。

一说到这个,连 Jeff 也洋洋容许了(doge):

Okk,以上为两位大佬共享的主要内容。
参考流通 :
[ 1 ] https://x.com/JeffDean/status/1889780178983031035
[ 2 ] https://x.com/dwarkesh_sp/status/1889770108949577768开云(中国)Kaiyun·官方网站 - 登录入口
