开云(中国)Kaiyun·官方网站 - 登录入口然后传递给较大的模子进行考据-开云(中国)Kaiyun·官方网站 - 登录入口

谷歌两位大佬复兴一切：从 PageRank 到 AGI 的 25 年开云(中国)Kaiyun·官方网站 - 登录入口。

现任首席科学家Jeff Dean、出走又追想的 Transformer 作家Noam Shazeer，与驰名播客主执东说念主 Dwarkesh Patel 伸开对谈。

视频刚发几个小时，就有 20 万 + 网友在线围不雅。

两东说念主都是谷歌邃古职工，资格了从 MapReduce 到 Transformer、MoE，他们发明了好多改变悉数这个词互联网和 AI 的要道期间。

Noam Shazeer 却谈到当初入职谷歌仅仅为了捞一笔就跑，没意想成了改变寰球的阿谁东说念主。

在两个多小时的讲话中，他们露馅了 AI 算力的近况：

单个数据中心仍是不够了，Gemini 仍是在跨多个大城市的数据中心异步试验。

也对当下最流行的期间趋势作念了探讨：

推理算力 Scaling 还有很大空间，因为与 AI 对话比念书仍然低廉 100 倍

将来的模子架构会比 MoE 更生动，允许不同的团队寥寂开发不同的部分

……

网友们也在边听边 po 发现的亮点：

比如在内存中存储一个弘远的 MoE 模子的遐想。

以及"代码中的 bug 可能有时会对 AI 模子有正面影响"。

跟着限制的扩大，某些 bug 恰是让筹商东说念主员发现新阻扰的机会。

推理算力 Scaling 的将来

好多东说念主合计 AI 算力很贵，Jeff Dean 不这样认为，他用念书和与 AI 询查一册书来对比：

现在开端进的语言模子每次运算的资本约为 10-18 好意思元，这意味着一好意思元不错处理一百万个 token。

比较之下，买一册平装书的资本轻便特殊于每 1 好意思元买 1 万个 token（单词数换算成 token）。

那么，与大模子对话就比念书低廉约 100 倍。

这种资本上风，为通过增多推理算力来晋升 AI 的智能提供了空间。

从基础设施角度来看，推理时辰筹画的首要性增多可能会影响数据中心经营。

可能需要专门为推理任务定制硬件，就像谷歌初代 TPU一样，它当先是为推理的主义设计，自后才被纠正为也扶持试验。

对推理的依赖增多可能意味着不同的数据中心不需要执续通讯，可能导致更散播式、异步的筹画。

在试验层面，Gemini 1.5 仍是运转使用多个大城市的筹画资源，通过高速的采蓄积首将不同数据中心中的筹画扫尾同步，见效达成了超大限制的试验。

对于大模子来说，试验每一步的时辰可能是几秒钟，因此即使采集蔓延有 50 毫秒，也不会对试验产生权贵影响。

到了推理层面，还需要磋议任务是否对蔓延明锐。要是用户在恭候即时反映，系统需要针对低蔓延性能进行优化。关联词，也有一些非阻拦的推理任务，比如运行复杂的险阻文分析，不错承受更长的处理时辰。

更生动和高效的系统可能大致异步处理多个任务，在提高举座性能的同期最大限制地减少用户恭候时辰。

此外，算法着力的晋升，如使用较小的草稿（Draft）模子，不错匡助缓解推理经由中的瓶颈。在这种措施中，较小的模子生成潜在的 token，然后传递给较大的模子进行考据。这种并行化不错权贵加速推理经由，减少一次一个 token 的扫尾。

Noam Shazeer 补充，在进行异步试验时，每个模子副本会寥寂进行筹画，并将梯度更新发送到中央系统进行异步套用。天然这种容颜会使得模子参数略有波动，表面上会有影响，但实行讲授它是见效的。

比较之下，使用同步试验步地能提供愈加巩固和可类似的扫尾，这是许多筹商者愈加醉心的步地。

在谈到何如保证试验的可类似性时，Jeff Dean 提到一种措施是纪录操作日记，尤其是梯度更新和数据批次的同步纪录。通过回放这些操作日记，即使在异步试验的情况下，也大致确保扫尾的可类似性。这种措施不错让调试变得愈加可控，幸免因为环境中的其他身分导致扫尾不一致。

Bug 也有平允

顺着这个话题，Noam Shazeer 淡薄一个专门想的不雅点：‍

试验模子时可能会遭遇多样各种的 bug，但由于杂音的容忍度，模子可能会自我休养，从而产生未知的效果。

以致有的 bug 会产生正面影响，跟着限制的扩大，因为某些 bug 在实验中可能会弘扬出颠倒，让筹商东说念主员发现新的改进机会。

当被问及如安在本色处事中调试 bug 时，Noam Shazeer 先容他们常常会在小限制下进行多数实验，这样不错快速考据不同的假定。在小限制实验中，代码库保执浅易，实验周期在一到两个小时而不是几周，筹商东说念主员不错快速获取反馈并作念出休养。

Jeff Dean 补充说，好多实验的初期扫尾可能并不睬想，因此一些"看似不可功"的实验可能在后期仍然大致为筹商提供首要的视力。

与此同期，筹商东说念主员濒临着代码复杂性的问题：天然不休叠加新的改进和编削是必要的，但代码的复杂性也会带来性能和珍摄上的挑战，需要在系统的整洁性和编削的鼓吹之间找到均衡。

将来模子的有机结构

他们认为，AI 模子正在资格从单一结构向模块化架构的首要回荡。

如 Gemini 1.5Pro 等模子仍是采用了民众搀杂（Mixture of Expert）架构，允许模子凭据不同任务激活不同的组件。举例在处理数学问题时会激活擅长数学的部分，而在处理图像时则会激活专门处理图像的模块。

关联词，目下的模子结构仍然较为僵化，各个民众模块大小相通，且短缺实足的生动性。

Jeff Dean 淡薄了一个更具前瞻性的遐想：将来的模子应该采用更有机的结构，允许不同的团队寥寂开发或改进模子的不同部分。

举例，一个专注于东南亚语言的团队不错专门改进该范围的模块，而另一个团队则不错专注于晋升代码清醒智力。

这种模块化措施不仅能提高开发着力，还能让民众各地的团队都能为模子的逾越作念出孝敬。

在期间达成方面，模子不错通过蒸馏（Distillation）期间来不休优化各个模块。这个经由包括将大型高性能模块蒸馏为袖珍高效版块，然后在此基础上不时学习新常识。

路由器不错凭据任务的复杂进程，遴荐调用得当限制的模块版块，从而在性能和着力之间取得均衡，这恰是谷歌 Pathway 架构的初志。

这种新式架构对基础设施淡薄了更高条目。它需要坚决的 TPU 集群和充足的高带宽内存（HBM）扶持。尽管每个调用可能只使用模子的一小部分参数，但悉数这个词系统仍需要将完好模子保执在内存中，以服务于并行的不同恳求。

现在的模子能将一个任务剖析成 10 个子任务并有 80% 的见着力，将来的模子大致将一个任务剖析成 100 或 1000 个子任务，见着力达到 90% 以致更高。

" Holy Shit 时刻"：准确识别猫

回及其看，2007 年对于大模子（LLMs）来说算得上一个首要时刻。

那时谷歌使用 2 万亿个 tokens 试验了一个 N-gram 模子用于机器翻译。

然则，由于依赖磁盘存储 N-gram 数据，导致每次查询需多数磁盘 I/O（如 10 万次搜索 / 单词），蔓延相称高，翻译一个句子就要 12 小时。

于是自后他们意想了内存压缩、散播式架构以及批处理 API 优化等多种交接举措。

内存压缩：将 N-gram 数据统统加载到内存，幸免磁盘 I/O；

散播式架构：将数据分片存储到多台机器（如 200 台），达成并行查询；

批处理 API 优化：减少单次恳求支出，晋升婉曲量。

经由中，筹画智力运转死守摩尔定律在之后逐渐呈现爆发式增长。

从 2008 年末运转，多亏了摩尔定律，神经采集真确运转起作用了。

那么，有莫得哪一个时刻属于" Holy shit "呢？（我方都不敢服气某项筹商真的起作用了）

不出恐怕，Jeff 谈到了在谷歌早期团队中，他们让模子从油管视频帧中自动学习高档特征（如识别猫、行东说念主），通过散播式试验（2000 台机器，16000 核）达成了大限制无监督学习。

而在无监督预试验后，模子在监督任务（ImageNet）中性能晋升了 60%，讲授了限制化试验和无监督学习的后劲。

接下来，当被问及如今谷歌是否仍仅仅一家书息检索公司的问题，Jeff 用了一大段话抒发了一个不雅点：

AI 践诺了谷歌的原始任务

浅易说，AI 不仅能检索信息，还能清醒和生成复杂内容，而且将来遐想力空间弘远。

至于谷歌将往返处何方，"我不知说念"。

不外不错期待一下，将来将谷歌和一些开源源代码整合到每个开发者的险阻文中。

换句话说，通过让模子处理更多 tokens，在搜索中搜索，来进一步增强模子智力和实用性。

天然，这一宗旨仍是在谷歌里面运转了实验。

本色上，咱们仍是在里面代码库上为里面开发东说念主员进行了对于 Gemini 模子的进一步培训。

更实在的说法是，谷歌里面仍是达成25% 代码由 AI 完成的指标。

在谷歌最自得的时光

专门想的是，这二位还在对话中露馅了更多与谷歌联系的风趣资格。

对 1999 年的 Noam 来说，原本没贪图去谷歌这样的大公司，因为凭直观认为去了也可能无须武之地，但自后当他看到谷歌制作的逐日搜索量指数图表后，立马回荡了宗旨：

这些东说念主一定会见效，看起来他们还有好多好问题需要措置

于是带着我方的"留神想"就去了（主动投了简历）：

挣一笔钱，然后另外开昂扬心去搞我方感酷好的 AI 筹商

而加入谷歌后，他就此结子了导师 Jeff（新职工都会有一个导师），自后两东说念主在多个名堂中有过协作。

谈到这里，Jeff 也插播了一条他对谷歌的招供点：

心爱谷歌对 RM 愿景（反映式和多模态，Responsive and Multimodal）的平时授权，即使是一个标的，也能作念好多小名堂。

而这也相通为 Noam 提供了解放空间，以至于当初贪图"干一票就跑"的东说念主恒久留了下来。

与此同期，当话题转向当事东说念主 Jeff 时，他的一篇对于平行反向传播的本科论文也被再次说起。

这篇论文惟一 8 页，却成为 1990 年的最优等本科论文，被明尼苏达大学藏书楼保存于今。

其中，Jeff 探讨了两种基于反向传播来平行试验神经采集的措施。

步地分割法（pattern-partitioned approach）：将悉数这个词神经采集示意在每一个处理器上，把多样输入步地区别到可用的处理器上；

采集分割法（network-partitioned approach）活水线法（pipelined approach）：将神经采集的神经元散播到可用的处理器上，悉数处理器组成一个互相通讯的环。然后，特征通过这个 pipeline 传递的经由中，由每个处理器上的神经元来处理。

他还构建了不同大小的神经采集，用几种不同的输入数据，对这两种措施进行了测试。

扫尾标明，对于步地分割法，采集大、输入步地多的情况下加速效果比较好。

天然最值得护理的如故，咱们能从这篇论文中看到 1990 年的"大"神经采集是什么样：

3 层、每层分别 10、21、10 个神经元的神经采集，就算很大了。

论文地址：https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view

Jeff 还回忆说念，我方测试用的处理器，最多达到了 32 个。

（这时的他应该还想不到，12 年后他会和吴恩达、Quoc Le 等东说念主一王人，用 16000 个 CPU 中枢，从海量数据中找出猫。）

不外 Jeff 坦言，要是要让这些筹商效简直确施展作用，"咱们需要轻便 100 万倍的筹画智力"。

自后，他们又谈到了 AI 的潜在风险，尤其是当 AI 变得极其坚决时可能出现的反馈轮回问题。

换句话说，AI 通过编写代码或改进本人算法，可能插足不可控的加速改进轮回（即"智能爆炸"）。

这将导致 AI 速即越过东说念主类限度，以致产生坏心版块。就像主执东说念主打的比喻，有 100 万个像 Jeff 这样的顶尖门径员，最终形成" 100 万个狂暴的 Jeff "。

（网友）：新的恶梦解锁了哈哈哈！

终末，谈及在谷歌最自得的时光，二东说念主也分别堕入回忆。

对 Jeff 来说，在谷歌早期四五年的日子里，最自得的莫过于见证谷歌搜索流量的爆炸式增长。

斥地一个如今 20 亿东说念主都在使用的东西，这相称不可想议。

至于最近，则很昂扬和 Gemini 团队构建一些，即使在 5 年前东说念主们都不敢服气的东西，况且不错预见模子的影响力还将扩大。

而 Noam 也抒发了类似资格和处事，以致乐滋滋 cue 到了谷歌的"微型厨房区域"。

据先容，这是一个轻便有 50 张桌子的特别空间，提供咖啡小吃，东说念主们不错在这里解放逍遥座谈，碰撞宗旨。

一说到这个，连 Jeff 也洋洋容许了（doge）：

Okk，以上为两位大佬共享的主要内容。

参考流通 :

[ 1 ] https://x.com/JeffDean/status/1889780178983031035

[ 2 ] https://x.com/dwarkesh_sp/status/1889770108949577768开云(中国)Kaiyun·官方网站 - 登录入口

栏目分类

热点资讯

新闻中心

你的位置：开云(中国)Kaiyun·官方网站 - 登录入口 > 新闻中心 > 开云(中国)Kaiyun·官方网站 - 登录入口然后传递给较大的模子进行考据-开云(中国)Kaiyun·官方网站 - 登录入口

开云(中国)Kaiyun·官方网站 - 登录入口然后传递给较大的模子进行考据-开云(中国)Kaiyun·官方网站 - 登录入口

相关资讯