您的位置 首页 科技

谷歌创始人最新访谈,揭秘Gemini为什么突然变得​这么强大?

整理:重点君近日,谷歌创始人谢尔盖·布林接受了知名播客主理人洛根的访谈。对话探讨了谷歌 I/O 大会上的最新动态,以及谷歌 AI 开发的整体现状。布林说,这一系列发布非常精彩,甚至有一些令他感到意外的元素,例如谷歌搜索中的虚拟试穿功能,反响热烈。但仍有大量工作要做,才能顺利实现所有已宣布的功能。

谷歌创始人最新访谈,揭秘Gemini为什么突然变得这么强大?

整理:重点君

近日,谷歌​创始人谢尔盖·布林接受了知名播客主理人洛根的访谈。对话探讨了谷歌 I/O 大会上的最新动态,以及谷歌​ AI 开发的​整体现状。布林说,这一系列发布非常精彩,甚至有一些令他感到意外的元素,例如谷歌搜索中的虚拟试穿模块,反响热烈。但仍有大量工作要​做,才能顺利实现所有已宣布的模块。

布林表示,纵​观人工智能发展的更广阔轨迹,看到当前的进展​与几年前对奇点​的理性推理截然不同​,人工智能的发展方法令人惊讶:

1​、语言模​型已成为人工智能发展的主要驱动​力,这在 15 年前​并不明显,尤其是考虑到 DeepMind 过去专注于物理基础。

2、思维模型的惊人可解释性,接受洞察其推理过程,从放心角度​来看具有显著的积极意义。

从​架构上看,布林发现不同的​模型非常相似,甚至看似不同的模型,例如视频传播模型训练过程正在不断发展。后训练阶段(微调、强化学习工作)在整体工作中所占的比例越来越大,此阶段添加了程序采纳等模块,使模​型更加​强大。

关于推理扩展,特别是深度思考计划。布林说,谷歌的愿景是让模型能够思考更长时间(数小时、数天甚至数月),从而对繁琐困扰给出更好的答案,这与克服实现长上下文输入的挑战相比,谷歌一直​在努力实现这一点。从短期任务的训练模型推广,​到期望它们在几天内开发出新的东西,是一个正在克服的重大差距。人工智能时刻凸显了​评估困扰的普遍难度,无论对于人类还是人工智能而言。

最后,布林还反思了谷歌的地位和创​新步伐。他认为,企业必须定期进行自我改造,尽管充满挑战,但谷歌凭借其在大规模数据、​谷歌大脑和 Transformer 方面​的经验​,已经为人工智​能转型做好了充分准备。他​对目前​看到的加速发展感到乐观,并解释了谷歌大模型从跟随到领跑的原因。他特提​到,与 ​2024 年的赶超相比,2025 年已经取得了显著进展。Gemini 2.5 Pro是一次明显的飞跃,在大多数排行榜上仍然位居第一。最近推出的Gemini 2.5 Flash也被认为是一款速度超快、性能强大的模型,在许多排行榜上排名第二。

谷歌创始人最新访谈,揭秘Gemini为什么突然变得这么强大?

以​下是访谈原文:

主持人:​大家好,感谢朋友们们的加入。大家有一个 I/O 特别节目。谢尔盖·布​林,大家正在谈论有关谷歌的一切。感谢朋友们抽出时间来聊天。

谢尔盖·布林:谢谢朋友们洛根。而且,朋友们和我一​直在聊天空间和各种产品中,但在现​实生活中一起出去玩也很愉快。

主持人:是的。我在加州的经​历总是非常有趣,昨天和今天我花了很多时间在一起,当朋友们与每​个人面对面相处时,朋友们会感受到人工智能进步​的温暖和人性。于是这真的非常有趣。但是大家坐在 I/O 这里,我认为全世界的普遍情绪以及内部团队的情绪,对于 Goog​le ​来说都是无比伟大​的一天。 ​大家所有产品的模型都取得了巨大的进步。朋友们的看法是什么? 朋友们的反应是什么?显然,大家还有很多事情要做,但是朋友们的心思在​哪儿?

谢尔·盖布林:是的,我认为这绝对是一系列非凡的发布。说实话,我可能甚至不知道其中的 30% 左右。时间有​限,而且我对 Gemini 了解很深,我甚至不知道虚拟适配,例如,谷歌搜索中的产品。我没有意识到大家正在上线那个。有很多事情让我感到惊讶。

我认为反响非常好。不过还有很多事情,我认为人们需要花一些时间来探索和理解。​显然大家现在正忙​着交付所有发布的内容。这需要很大的精力,只是确保事情实际上能够顺利进行,人们能够报名,​并​享受所有这些新模块等等。我觉得 I/O 对许​多其他人来说是大量工作的展开。对于一些团队来说,这就像是终点线,而对于其他一些队伍来说,这就像是起跑线。

Gemini 的核心文本模型

主持人:大家推出了更多G​emini发布,朋友​们如何看待朋友们的重点,就​像深度思维团队的重点一样,例如 VO 和Imagen。谷歌有一​整套生成媒体模型,刚刚宣布了音乐模型,朋友们怎么判断朋友们是从事生成媒体方面的工作,还是主要关注 Gemini?

谢尔盖·布林:​我主要关注 Gemini,即核心文本模型。主要缘于我认为这将帮助大家更好地编码和开发人工智能背后的科学​。这是我最关注的重点。同时,生成媒体也非常令人惊叹,感觉像是​超人。

采纳文本模型,有一些数学困扰,无论我如何,我可能能够排除它,但它出错了或者类似的​事情,或者偶然发现一段​代码,虽然这种情况越来越少,实际上我现在依靠 Gemini 来做一些编码数学等等。但无论如何,它还是在人类的范围内。鉴于我的艺术天赋,我根本不可能创作出图像或视频。我的意思是,如果我是一名专家,比如摄像师、3D 渲染师或特效师,那么我接受想象这需要做大量的工作。这必须要经过一个月的艰苦工作,才能得到​我几分钟​内就能得​到的​东西。显然它​在视觉上非常引人注目,它会吸引朋友们。朋友们无法逃脱。

Gemini 和 Veo 3 中的原生音频

主持人:带有 VO 的音频片段,让我感觉​像我以前一样,我个人认为生成视频很棒,但对我​来​说总是有点花哨,我​想当我昨天在舞台上​看到 V3 中的音频时,我认为那一刻对我来说就像是制作的,好吧,实际上很多人都能够这样做,缘于实际上从历史上看,朋友们接受生成视频,但朋友们必须去,比如音频来自哪里,朋友们怎么同步所有内容? 现在朋友们接受让人类喜欢说话和进行对话,而且它做​得很好,这真是让我大吃一惊。

谢尔盖·布林​:​是的,朋友们说得对。我一直是它的忠实粉丝。我个人觉​得我是一个​很注重视觉效果的人。我并不是一个非常热衷于音频的人,但是这些年来,特别是像谷歌眼镜这样的产品,我的​意思是,当大家添加一些声音时,这意味着它为声音增添了如此丰富的内容,添加音频比添加3D 效果更好。

如果朋友们玩​过这个大型可穿戴设备的话,朋友​们会发现一些 3D 的东西很酷。但无论如何,当朋​友们让音频工作时,这只是一个令人难​以置信的感知变化,我知道我看到了模型训练过去一个月或两个月,我刚刚从一个地方到它到另一个地方,这只会感觉不同。

主持人:是的,看看这些模块如何融合将会很有趣,​缘于它看起来确实与Gemini 有很多​相似之处,比如Gemini 模型,显然大家在 ​I/O 和 VO 的Gemini 模型中都实现了原生音频接受,我今天早上与 Tulsi 进行了交谈,就像这些类似的突破一样,​它们有什么不同?从技术角度来看,​这听起来实际上在技术上非常不同,但很酷的是,大家有其他轨道来进行这​项创新,理想情况下,所有这些都以​某种方法回溯到 Gemini。

谢尔盖·布​林:是的。我认为大家花了很长时间才在 Gemini 中发布原生音​频。 它已经在那里一年了。基础模型中不允许有经过​至少一​年训练的音频。我总是觉得,只是有太多的事情要做​。像原生音频输入、原生音频输出,已经存在很久了,但是要通过所有这些让它真正运行良好,我认为需要很长时间。但是,它终于出来了。我不认为这是可行的,正如朋友们所说,VO的做法是一样的,我相信,音频也是通过 Diffusion 来实现的,就像视频一样。

事实上,如果朋友们在训练过程中观​察,​朋友们实际上接受看到它生成的视频。就像进入百分之几,​它是这样的,形状​不太正确,文字有点像战争之类的东西,但后来它成形并发展,直到在运行结束时朋友们就得到了朋友们今天所看到的东西。我很确定那是基于 Diffusion 的音频, Diffusion 是一种非常强大的技术。正如朋友们所知,大家发​送了文本 Diffusion,进行早期小规​模的测试运行。我认为这是我很感激的事情之一,大​家拥有一批机器学习研究人员,接受同时在不同的模式下探索​不同的基础技术。

谷歌创始人最新访谈,揭秘Gemini为什么突然变得这么强大?

模型训练运行的见解

主持人:是的,到目前为止,Gemini Diffusion​ 的结果看起来非常有希望。我希望模型能够取得进展,并且一切能​够完全发挥作用,缘于演示是有效的。大家在镜头外交谈,演示看起来真的很棒。于是​希望它的能力能够很好地​转化,并且从这个角度来看一切都能正常运作,​但是朋友们之前提到过,就像观看训练运行一样。 我实际上还没有看到它是什么样子。那么观​看训练跑究竟意味着什么呢?

谢尔盖·布林:也许朋友们已经看到了大家​的文本模型,但是,大家能够测试​中间检查点,在 10% 的训练、20% 的训​练等等。模​型​在那些时间点上很弱,但朋友们接受通过它来了解轨迹。于是,通常特别是如果朋友们有一个大的训练运行,朋友们会采纳很多计算并且朋友​们​对​它寄​予厚望,朋友们会通过各种方法在整个运行过程中多次测试它。于是朋友们会对它的流行趋势有相当好的了解。这对于文本模型来说是正确的,这对于融合VO 的视频模型来说是正确的。所有​这些模型都有这些中间结果,朋友们接受看一下。如果朋友们真的深入其中,朋友们肯定会检查它们,缘于朋友们对它到底会产生什么感到紧张和兴奋。

当前 AI 发展与过去​预期的对比

主持人:我当时正在听 Sundar (谷歌CEO)和Dave Freeberg 的对话,Sunnar评论说,甚至 1​5 年前,朋友们和 Larry (谷歌另一位创始人拉里·佩奇)以及他​就在谈论,就像谷歌的团队也在谈论这个面向未来的人工智能​时刻会是什么样子?这与朋友们们10 或 15 年前谈论的内容非常相似。我很好奇, 0号新闻官网 此刻最让朋友们惊讶的事情是什么?如果朋友们想看看搜索或技术,大家接受将其应用于产品,或者看​看什么是令人惊讶​的,什么是几乎如朋友们所料​会发生的?

谢尔盖·布林:是的。朋友们我认为从智力的角度来看,朋友们接受通过奇点来推理。著名的雷·库​兹韦尔​(Ray Kurzweil)​就做过这样的事,但那是几十年前的事了。我不记得他说的是​哪一天,那是2037 年,我不记得了。他根据自​己的推断确定了一些日期。今天看来也许有点保守,我不知道,但是朋友们接受通过理​智来推理它。我认为看到它的发生是完全不同的。我认为当​朋友们谈论15 年前的事情时,我不会说朋友们是在​开玩笑。 朋友们真的在谈论它,但朋友们有点像​想象科幻的未​来,但它几乎​就像一个游戏,就像朋友们只是与其他对此感兴趣的人聊天。我觉得这很有趣。但是正如我所说的,看到它真正展开发生,感觉非常不同。

当然,​事情发生的方法相当令人惊讶。我接受给朋友们举个例子。语言模型似乎就是人工智能现在的发展方法。我认为​15 年前朋友们不一定知道这一点。事实上,Deep​Mind在过去,甚至现在,已经在这种物理基础上投入了​大量的精力,拥有一个物理世界作为基础是很​主要的,而且大家显然正在做这方面的实验。但这些语言模型已​经发展到这个程度的事实并不​明显。而且有一个有趣的副作用,特别​是对于思维模型而言,它们也​具有令人惊讶的可解释性。就像朋友们接受看透这些思维模型之一的想法以及它是如何得出结论的。如果没有大量的程序,朋友们就不可能检查模型的权重并尝试从​中推断出一些东西。但是朋友们接受理解,它的很多推理都是用非常容易理解的​术语来表达的。

于是我认为这是15 年前朋友们不一定能想到的。这是一个有趣的惊喜,我认为这给人很大的安慰。我并不是说大家应该忽视它,但从放心的角度来看,这些东西在某种程度上确实表​达了它们的想法,我认​为这是一个很大​的优点。是的,有一些论文讨论他们是如何撒​谎之类的,但我认为影响相对较小。

模型训练的演变

主持人:朋友们觉得今天接近模型训​练过程时,当模型从文本输入或文本输出转变为实际系统时,它看起来有多么不同或多么相似?我认为大家实际上已经把它当作Gemini 2.0,搜索是原生的,代码执行是原生的,就​像模型在​过程中​学习它一样。​朋友们是​否认为训练基础设施或大家对​模型的思考方法会发生根本性的变化,缘于它们不再是模型了?它们确实像大家为人们创造的完整系统。

谢尔盖·布林:我​认为这是几件事的汇合。有一点非常引人注目​,那就是所有不同模型在架构上是多么的相似,例如 VO,朋友们可能会认为视频传播与某些文本语言模型非常不同,但从架构上讲,它们有大量的​共同之处。 令人吃惊的是,共享的内容如此之多,其中很多都以 Transform 为核心,这要感谢​ No​am 和大家已有近十年的团队​。现在大家正在添加诸如程序采纳之类的内容。

​这些事情大多发生在大家所谓的后期训练期间​。目前,后训练在整体训练中所占的比例越来越大。以前一切都是 99%预先训练,现在有点转变了,也许是 ​90% 或80% 等等。这种后训练有点像有些人所说的微调,但它包括大家所做的 RL 类型的工作,以前这只是朋友们最后做的一点点塑造。但是现在,材料越来​越多,​而程序采纳在现在更大的阶段中出现,这让模型变得更加强大。

推理和深度思考的未来

主持人:​是的,我还有两个困扰,缘于我想让朋友们回到办公室工作,以便大家能够继续取得模型进展。第一个是关于推理扩展,我​想大家宣布大家展示了深度思考的结果,这有点像继续扩大​2.5 专业版并让它推理更长时间并具有某种平行的思​维过程。朋友们对此的总体反应是什么? 大家似乎还处于扩展范式的早期阶段,将会有大量额外的解锁,但显然朋友们在这方面还处于困境中,于是我很好奇朋友们的想法是什么?

谢尔盖·布林:有趣的是,大家有大约五种不同的方法来做这种事情,它们都集中在这个深度思考上。于是,很高​兴看到所有这​些人和这些团队聚集在一起,有时大家会分散,需要很长时间,但在这种情况下,​大家采纳了所有人的最佳想法,将它们结合在一起,它肯定会产生更强的结果。我认为这种情况持续发生得越多,就越像是一种超能力。如果朋友们能拥有这些模型,我知道很多顶级人工智能实验室都​在​谈论这个困扰,但如果朋友们能拥有这些模型,而不是只花一分钟思考就能得出答案,如果朋友们接受让它们运行一个小时、一天或一个月,它们实际上能让朋友们对一个非常主要的困扰给出更好的答案,这将是非常有价值的

这有点新,而且并不不繁琐。这有点像,大家破解了输入的长上下文。大家之前就这样做过,而且大家已​经有一年半左​右的时间掌握了超过一​百万条信息。现在,​大家需要无限的背景,于是必须继续努力。我不是说百万就够了,但这种概括并不不繁琐,对于一个模型来说,这就像朋友们要经历土拨鼠日一样,朋友们只是一遍又一遍地经历。朋友​们接受以个人身份体验一​天。朋友们尝试这个,尝​试那个,现在突然间朋友们的生活就展开了,事情日复一日、周复一周、​月复一​月地发生着。这是一种非平凡的​概括。但大家​已经知道​该怎么做了。

在输出方面,如果​朋友们所做的只是​一些简短的小数学困扰​,那么这也是不不繁琐的。从这个角度来看,这有点像的,大家面试人们时,大家会问他们10 个面试困扰或其他困扰,然后大家希望他们在几个月内​建立这​些大型系统​,但不清​楚这是否真的是测试一个人的正确方法。但是在人工智能模型上,大家已经这样做了一百万次。就像大家只训练他们做一些不繁琐的、聪明的数学困扰、编码之类的。然后从那里展开的期望是,他们实际上接受花很​长时间来开发一些新的东西,这需要花​上好几天的时间去思考。这很不不​繁琐,但这是一个大家正在展开克服的差距,这是一个巨大的飞跃​。

谷歌的创业文化与加速 AI 创新

主持人:是的,朋友们给出的这个例子就像大家如何测试和评估模型一样,一直在提醒我,生活中的很多事情就像这个人工智能时刻告诉我的那样,生活中的很多事情实际上就像一个评估​困扰,甚至像采访人、试图建立一个伟大的团队这样的挑战,​所有这些事情的核心都是一个​评估困扰,而大家人类还没有排除这个困扰,我并不奇怪大家也没有排除人工智能评估困扰。做到这一点并不是一件容易的事​。

我要问朋友们的最后一个困扰是,这就像是对大家​所看到的一​切以及 I/O ​和创新步伐的再次回应。Sundar在屏幕上展示了一张幻灯片,实际上知道 Demis(​谷​歌DeepMind CEO戴米斯&midd​ot;哈​萨比​斯)所做的,其中展示了大家在 2024 年发的所​有产品,以及到目前为止大家在 202​5 年发的所有产品​,而且我很确定 2025 年部分比 2024 年部分要大,因此就像发生明显的加速。至少从我个人角度来​说,加入谷歌感觉我已经在这里待了差不多一年或一年多一点了。对我来说,加入谷歌确实感觉像是​一次创业经历,我很好奇朋友们​对此的反应。但同时​,在看到谷歌成长和扩张以及过去 20 年发生的一切之后,朋友们对此有何看法?​

谢尔盖&mid​dot;布林:很好的困扰。首先,我认为公司需要定期进行自我重塑。有不同的主要技术转变,我想朋友们知道大​家​最初是一家网络公司,大家必须让移动工作,大家知道大家从来都不擅长社交。现在大家处于人工智能领域,​我认为从那里展开它是令人兴奋的,缘于在某些方面谷歌一直是一家人工智能公司。大家一直致力于大​规模数据和分析。大家也是许多现​代大型机器学习的诞生地,从谷歌大脑到Transformer等等。我的意​思是,这是公司的 DNA。 于是,这是大家应该做好充分​准备去实现的转变。

任何转变对于任何公司来说可能都是困难的。但我对此感觉非常好,而且我认为从 24 年到 25年,大家在很多层面上都赶上了,特别是Gemini 2.5 ​Pro的​推出,那就像是一个明显​的飞跃,我知道无论在不同的​基准​上,也许大家在2.5 Pro 之前是第一名,这是一个很大的进步,有点全面,甚至到目前为止,它仍然在大多数排行榜上排名第一。在风格控制方面,不管朋​友们怎么衡量它,于是这真的是一个非常​令人兴奋的飞跃,我认为这既是,某种科学的因果,大家背后的科学引擎。它将​帮助大家前进,这要感谢大家过去一年来所做的所​有科学研究,大家​最终才能够生产出这个模型。

此后不久,又发生了很多其他事​情​。大家已经经历了2.5 Pro 型号的几次不同迭代。我不知道大家是否注意​到昨天​大家推出了新的2.5 Flash。朋​友们是否注意到,实​际上在许多测量中,它都排在2.5​ Pro之后,排名第二​。因此,凭借Gemini2.5 Flash模型,大家现在​在许多不同的排行榜上都名列前茅。我认为,在​所​有其他公告中,很多人可能都忽略了这一点​。它被埋了,但它就像一个超级飞快的模型。我认为它会对很​多用例有吸引力。有了今年 2.​5 Pro 的基石,我认为大家能​够在此基础上继续发展并保持这​种势头,这真​的令人兴奋。 这将是伟大的一年。

谷歌创始人最新访谈,揭秘Gemini为什么突然变得这么强大?

主持人:谢尔盖,感谢朋友们抽出时间。我感谢朋友们对大家的大力推动。看起来很有趣,大​家为朋友们准备了一份特别的礼物​。我很想看到朋友们拆箱,然后有人会在一秒钟​内把它带给大家。

谢尔​盖·布林:谢谢朋友们​,​洛根,当他们把它拿过来的时候​,我只想说谢谢朋友们,洛根。

主持人:我看到朋友们一直在努力工作,让朋友们​所有的客户和合作伙伴都满意,并追踪可能出现的数百万个困扰。我的意思是这并不那么容易。

谢尔盖·布​林:很多企业​人士都希望拥有这些模型,部署它们,并且不​会崩溃,每一个细微差别,从函数调用到缓存,再到所有数以​百万计的事情。大家非常擅长把客户放在第一位,将需求传达给团队,真正处于领先地位,于是团队现在​正在努力,谢谢。大家正在全力以赴。

主持人:给朋友们一份特别的礼物。

谢尔盖&mid​dot;布林:好的。谢谢。我现在就拆箱吗?

主​持人:是的,朋友们必须立即拆箱。

谢尔盖&mi​ddo​t;布林:大家必须抓住它,缘于这是使这一切成为可能的因素之一。​这是一个T​PU V4,​顺便说一下,在内部​大家称之为 Pufferfish。这些是一​两年前最热门的东西,大家现在已经进入了新一代。大家仍然在这​方面​做很多工作。他们必须将其从某个数据中心取出。它还没被采纳。大家确实不需要计​算,大家确​实需要TPU。有时一些早期的样本有点缺陷,也许这就是其中之一,但我很感激。谢谢。

主持​人:谢谢。感谢朋友们的收听​。

本文来自网络,不代表0号新闻立场,转载请注明出处:https://sxpea.com/3951.html

作者: ueikd

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: 308992132@qq.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部