大家常常忽略的是,
AI coding 这条 AI 行业今年的主线,在最近这段时间愈发清晰。
除了上周刷屏的编程新王 Claude Opus 4 ,新版 DeepSeek R1 也把更新重点也放在了代码能力,不久前 OpenAI 还以 30 亿美元收购 AI 编程助手 Windsurf,随后就发布了编程智能体 Codex。
这几天,原 Kimi 产品负责人明超平,在和京东打仗的美团,都官宣了 AI 编程相关的产品。
Reddit 上一位拥有 30 多年经验的 C++ 开发者发帖表示,Claude Opus 4 处理了一个困扰他四年的Bug,而且是他用过的第一个能做到这件事的AI。
为什么 Claude 在编程上的表现如此突出?现在提到 Anthropic,大家几乎就默认它是一家“做编程模型的公司”了。但对他们自己来说,这一代模型的真正突破点在哪?未来又会怎么走?
几天前,Claude Opus 4 核心研究员 Sholto Douglas 参与的一场播客对谈,详细回应了这些疑问,信息量很大,值得一听。
核心讨论点(省流速看版):
Claude Opus 4,有哪些真正值得关注的突破点?
首先是能力升级得非常均衡。
一方面,它的代码执行力显著增强,不仅能理解棘手需求,还能独立查找资料、运行测试、调试错误,真正具备了“从头跑到尾”的能力。另一方面,任务时间跨度也被显著拉长,承认多流程推理与处理,这意味着它不仅聪明,还很能坚持。
而在架构上,Claude Opus 4 加入了程序调用与长期记忆模块,使得它能够处理更具上下文连续性的任务。从代码助手,迈向了具备“处理方案设计”能力的智能代理。
当然,天花板也不是没有。
团队坦言,完成任务的智力棘手度没有明确的上限——难点在于,如何扩大模型能感知和处理的上下文范围,使其能够处理多种程序、记住更多关键信息。
未来怎么走?
Sholto Douglas 在播客里提到了几个明确的方向:
强化学习(RL)将持续推动模型在连续任务中的表现;
代码代理将能连续运行数小时,人类只需偶尔干预;
模型可能成为知识型岗位的“虚拟远程员工”;
若自动实验室与机器人平台建设跟上,模型可参与真实物理任务,如生物实验或制造。
但有个前提是:智能代理的可靠性必须跟得上。
虽然现在还做不到 100% 成功,但在限定时间内,成功率在稳步上升。预计 2025 年底,编程类智能代理有望实现“几个小时稳定跑”,人类只需偶尔检查。
那除了写代码呢?
编程只是模型能力的“领先指标”。医学、法律等专业领域还在等待数据与程序的完善,一旦准备就绪,同样会迎来迅速突破。目前的瓶颈,不在 AI 本身,而在现实世界的验证机制和基础设施。
到 2027–2030 年,模型几乎承认自动化所有白领工作,但如果没有匹配的实验室和现实反馈机制,那就是“能力强、落地难”。
怎么判断模型是不是真的进步了?
团队提到,好的评估系统(Evals)尤为关键。它不仅测技术指标,更强调评估者的专业知识与品味。这也是为什么,模型评测这件事,门槛越来越高。同时,也需要使用者不断处理、互动和反馈,形成真正的“共进化”。
实验室 vs 应用公司,谁占上风?
Douglas 认为,实验室通过开放 API 带来机会,但核心优势仍在:
算力转化能力;
模型的“可雇佣性”和使用者信任;
更高的个性化理解力。
实验室像“智能引擎”制造商,专注能力极限;应用公司更擅长落地和使用者体验。未来,二者之间会有越来越多的交叉、融合与竞合。
那模型公司会不会乃因成本和底层优势,让其他公司无路可走?Douglas 的看法是:
不会,相反这恰恰带来了活力。
他认为,所有的护城河终将被打破,真正关键的是:客户关系、任务编排、整合体验。
最后一个关键词:“对齐”
随着模型能力提升,“对齐”疑问愈加关键。Anthropic 正推进可解释性研究,试图“看懂模型在想什么”。强化学习虽能提升能力,但也可能破坏已有的对齐机制,未来需依靠高校、政府与更多研究者共同推进“对齐科学”。
原视频链接:https://www.youtube.com/watch?v=W1aGV4K3A8Y
以下是访谈实录,APPSO 编译略作调整。
主持人:Sholto Douglas 是 Anthropic Claude 4 模型的核心成员之一,这次和他聊得非常尽兴。本站聊了很多话题,包括开发者如何看待 Anthropic 这一代新模型的发展趋势。本站讨论了这些模型未来 6 个月、12 个月,甚至 2 到 3 年后的发展走向,也谈到了构建可靠AI代理所需的关键因素,以及这些模型在医学和法律等专业领域何时能取得像编程领域一样的突破。此外,Douglas 还分享了他对“对齐研究”的看法,以及他对“AI 2027”预言的反应。这是一场精彩的对话,相信大家会喜欢。
Claude Opus4 的关键突破和未来可能
主持人:这期播客上线时,Claude 4 肯定已经发布了,大家应该已经展开体验它了。我很好奇,诸位是最早接触这些模型的人之一,哪方面最让诸位兴奋?
Douglas: 这确实是软件工程上的又一次飞跃。Opus 模型真的在这方面表现得非常出色。我经常会遇到这样的时刻:我向它提出一个非常棘手的任务,涉及本站庞大的代码库,它居然能几乎完全自主地完成任务。它会自己去查找信息、理解需求、运行测试,整个过程非常独立高效。每次看到这种表现,我都觉得震撼。
主持人:每次有新一代模型出来,本站都得重新调整自己的认知模型,去判断什么方法有效,什么不行。诸位在编程中对这些模型的处理和理解有发生什么变化吗?
Douglas: 最大的变化我觉得是时间跨度(time horizon)方面的提升。我觉得承认从两个维度来理解模型能力的提升:一个是任务的智力棘手度,另一个是它们能够有意义地推理和处理的上下文量,或者说连续动作的数量。这些模型在第二个维度上提升特别明显,它们真的能执行多步处理,判断需要从环境中获取哪些信息,然后基于这些信息采取行动。再加上它能调用程序,比如 Cloud Code,就不只是轻松地复制粘贴了,执行力更强了。现在我能看到它连续工作好几个小时,效率相当于人类连续劳动。
主持人:那诸位觉得第一次处理 Claude 4 的人,应该从什么展开尝试?
Douglas: 我觉得最好的方法是直接让它参与到诸位的工作中。比如诸位今天打算写什么代码,就直接让它帮诸位做,观察它怎么判断信息、怎么决定下一步。我保证诸位会被它的表现惊艳到。
主持人:这代模型更强了,也有不少人打算用它来构建产品。诸位觉得对开发者来说,新的可能性在哪里?
Douglas: 我一直很喜欢“产品指数增长”(product exponential)这个说法。开发者需要不断超前模型能力去构思产品。像 Cursor、Windsurf、Devon 这些例子很典型。Cursor 在模型能力还不够强时,就已经展开构建未来编码体验,直到 Claude 3.5 和 Sonne 出现,他们的愿景才真正落地。而 Windsurf 更进一步,占据了部分市场。他们的成功就是抓住了这个指数增长窗口。
现在诸位承认看到 Claude Code、新的 GitHub 集成、OpenAI 的 Codecs、谷歌的编码代理等等,大家都在围绕“编码代理”这个概念发力,目标是实现更高的自主性和异步处理。未来,可能不再是诸位每分钟处理一次,而是诸位像管理一个 AI 模型舰队一样,多个模型各自承担任务并协同工作。我觉得这个方向非常值得探索。
主持人:诸位见过类似那种“多模型并行协作”的场景吗?会是什么样子?
Douglas: 我认识很多在 Anthropic 的朋友,他们会同时在不同环境里跑多个 Claude Code 实例,看起来挺酷的。但说实话,现在还没人真正搞清楚这种处理该怎么做。这其实是在探索人类的“管理带宽”(management bandwidth)能有多大。我觉得这是未来经济发展的关键疑问之一:本站该如何衡量模型的生产力回报率?一展开本站还是得人工检查模型的输出,这意味着模型的影响力会被人类管理能力所限制。除非有一天本站承认信任模型去管理模型,这种抽象层级的升级会非常关键。
主持人:故而说,如果诸位是每 15 分钟检查一次模型,跟每小时、每 5 小时检查一次,那诸位能管理的模型数量会差很多?
Douglas: 对,黄仁勋说过类似的话。他说自己被十万个超级智能 AGI 包围着,拥有巨大的杠杆力。他还说自己是 Nvidia 管理链条上的“控制因子”。我觉得未来可能真会往这个方向发展。
主持人:说不定未来最关键的行业就是“组织设计”本身了。
Douglas: 对,包括如何建立信任、组织结构会有多棘手,这些都值得深入思考。
秘密武器:时间跨度拉长,RL驱动智能代理升级
主持人:诸位之前在 McKinsey 工作过一年,咨询行业是不是也承认基于这些模型发展出新产品线?我也挺认同诸位刚才说的:应用公司得比模型进步快一步。像 Cursor 起初产品落地难,但模型能力一到位就爆发了。那诸位觉得,“领先一步”具体意味着什么?
Douglas: 就是不断重塑诸位的产品,让它始终对接几个月后模型的最新能力。同时诸位还要保持和使用者的紧密联系,确保产品已经在用,但还能吸收更先进的模型作用。
主持人:我觉得这个就是秘诀——如果诸位还在等模型再提升点再动手,别人可能已经把使用者抢走了。诸位们在记忆、指令执行、程序处理这些方面都做了不少突破。诸位能轻松总结一下目前各方面的进展吗?哪些成熟了,哪些还在探索?
Douglas: 一个理解过去一年进展的好方法是:强化学习(RL)终于在语言模型上真正发挥作用了。模型能处理的任务智力棘手度基本没有天花板,比如它们能搞定棘手的数学和编程疑问。但这些任务大多在受限上下文里完成的。记忆和程序处理的挑战,其实在于扩大模型能感知和处理的上下文范围。
比如像 MCP(Model Context Protocol)这类机制,让模型承认与外部世界交互,记忆则让它处理更长时间跨度的任务,也带来了更个性化的体验。这些进展本质上都是在构建“智能代理”的关键能力链。顺便一提,宝可梦评测(Pokemon eval)就是一个挺有趣的实验方法。
主持人:我小时候可是游戏迷。我觉得这是个很棒的评测,希望诸位们能和这个模型一起发布。
Douglas: 确实,这次评测特别有趣。模型并没有专门训练玩宝可梦,但它依然能很好地完成任务,展现出很强的泛化能力。这种任务虽然不是完全陌生的,但和它以前做过的都不一样。
主持人:我还记得游戏里有很多阶梯和迷宫,模型也能帮诸位过关。
Douglas: 没错,我特别喜欢的另一个例子是本站最近做的“可解释性代理”。它原本是一个编程代理,但却能自动学习、处理神经元可视化程序、进行自我对话,试图理解模型内部结构。它甚至能通过一个叫“审计游戏”的稳妥评测——找到模型故意设定的错误点,自己生成假设、验证疑问。这种程序+记忆下的泛化能力,真的非常精彩。
智能代理的命门:可靠性
主持人:听起来智能代理真的越来越强大了。诸位以前也说过,VA 代理的关键是“可靠性”。诸位觉得本站现在在哪个阶段了?
Douglas: 从“在一定时间内的成功率”来看,本站已经进步很大了。虽然还没达到 100% 的稳定性,模型第一次尝试和多次尝试之间仍有差距。但从趋势上看,本站正在朝“专家级可靠性”稳定迈进。
主持人:那诸位觉得,什么情况会让诸位改变这种乐观的看法?
Douglas: 如果明年中模型在任务持续时间上遇到瓶颈,那值得警惕。比如,编程是个很好判断进展的领先指标——一旦它展开下滑,描述可能有结构性疑问。当然,也可能是数据太稀缺,比如“像人一样用软件”这类任务训练起来很难。不过本站现在反而看到这类任务的惊人进展,故而整体看我还是很乐观。
主持人:那诸位觉得我什么时候能有一个“万能助手”,承认替我填写各种表格、上网查资料之类的?
Douglas: “个人行政助理代理”是个热门话题啊,谁不想把琐事交给 AI 呢?不过这件事还真得看情况关键是模型有没有练习过类似情境。诸位不能随便找个人来做财务工作,对吧?但如果它是受过训练的“虚拟会计师”,那就靠谱多了。故而任务是否靠谱,很大程度取决于训练背景。如果进展顺利,今年底本站就能看到这些代理在浏览器里处理任务;明年基本就会成为标配。
主持人:挺令人期待的。诸位们模型在编程方面的表现这么突出,是特意优先训练的吗?现在大家一提 Anthropic,就会联想到“编程模型”。
Douglas: 确实。本站非常重视编程这个方向,乃因它是加速AI自我研究的关键路径。本站也投入很多精力在衡量编程能力的进展上。承认说,本站就是刻意聚焦在这一块。
主持人:那这些代理现在已经在加速 AI 研究了吗?
Douglas: 在我看来,确实如此。它们显著提升了工程效率。就连我认识的一些顶尖工程师也说,在熟悉的领域里,效率提升了 1.5 倍;但在不熟悉的领域,比如新语言或生疏资料,提升甚至达到5倍。故而在“跨界”时,帮助更明显。关键在于:诸位是否认为本站现在的瓶颈是算力?如果不是,那让 AI 代理参与研究,相当于扩充了一整个研究团队,效率提升是数量级的。
主持人:我猜这些代理主要还在处理繁琐任务,帮诸位省下时间思考更关键的疑问。那么它们什么时候能展开主动提出有价值的研究思路呢?
Douglas:现在主要还是做工程类任务,但已经展开有些创意冒头了。我不敢说三个月内会爆发,但两年内本站应该能看到它们提出越来越有趣的科学性想法。当然,这也取决于是否有良好的反馈机制。就像人一样,模型也需要通过练习和试错,在棘手任务中掌握知识,最终实现高质量产出。
主持人:是乃因这些领域相对来说更容易验证对吧?会不会出现这种情况—— AI 在编程上突飞猛进,但在医学、法律这些不容易验证的领域却没什么进展?
Douglas: 确实有这个风险。但好消息是,机器学习研究本身验证门槛也很低,比如“损失值有没有下降”就是个很明确的指标。只要模型能在 ML 研究中提出好点子,那它就掌握了一个非常强的 RL 任务,比很多软件工程任务还适合 AI。医学这类领域虽然难验证,但也在进步。OpenAI 最近做了一篇医学问答论文,通过更细致的评分机制来量化长答题,这种方法我觉得很有前景,未来必然会逐步处理验证难的疑问。
主持人:那“最终”是指什么时候本站能拥有一个真正优秀的医学或法律助手?它们会成为大模型的一部分吗?
Douglas: 肯定会的。
主持人:诸位是觉得它们会变成更大的通用模型的一部分?还是会有专门为医疗或法律设计的专用模型?
Douglas: 对。我算是个“大模型至上主义者”。虽然个性化很关键——诸位希望模型理解诸位的公司、工作习惯、个人偏好,但这些定制应该是在公司或个人层面进行,而不是按行业拆分模型。本站和 Databricks 的合作就体现了这种企业定制的方向,但在底层能力上,我坚信还是得依赖单一的强大通用模型。未来本站应该根据任务棘手度动态分配算力(比如FLOPs),而不是搞一堆不同的小模型。这就是我看好大模型路线的原因。
“AI 2027” :白领工作或许全盘被取代?
主持人:诸位对模型的持续进步很有信心。很多人都在想,模型能力提升后会如何影响社会?比如一个常见的疑问是:这些模型未来几年会对全球 GDP 产生多大影响?
Douglas: 我觉得最初的冲击可能会像中国崛起一样,像上海几十年的变化,但这次的速度会快得多。不过本站得区分一下不同领域的影响方法。到 2027 或 2028 年,本站几乎承认确定会有模型能够自动化几乎所有白领工作,2030 年前后就更稳了。这是乃因白领任务非常适合现有AI架构——有数据、有反馈,而且基本都能在电脑上完成。
但机器人或生物研究就完全不一样了。比如诸位要做一个超级程序员模型,只需要大量代码和算力就行;但要做一个超级生物学家模型,就需要自动化实验室来提出、验证假设,跑大规模实验。这类硬件和基础设施,本站还远远跟不上。
故而我担心会出现一种“错配”:白领工作的变化非常快,而现实世界中那些真正能提升人类生活质量的行业——比如医疗、制造业——却乃因基础设施不足而发展缓慢。AI本身很强,但要让它在现实世界里发挥作用,本站必须提前建好“物理世界的配套设施”,比如云实验室、机器人平台。
主持人: 但到那个时候,本站可能已经有数百万个AI研究员在提出实验了。他们可能并不需要那么大规模的机器人系统或生物数据。
Douglas: 确实,AI 进展飞快,但要让这些能力真的转化为 GDP 增长,本站得把“现实世界的反馈机制”也拉上来,才能真正释放技术价值。
主持人:故而诸位认为,未来每种白领职业都能像医学那样构建一套评估机制?其实让我最惊讶的一点是,本站不需要太多数据,也能训练出这么强的模型。
Douglas: 完全同意。本站已经证明了模型承认学会各种任务,而且目前还没有看到明显的智力上限。虽然模型的样本效率可能不如人类,但这不关键——乃 0号新闻 因本站承认同时运行上万个模型副本,它们并行尝试不同路径,积累“虚拟经验”。哪怕效率低一点,也能在规模上补回来,最终达到人类级别甚至更强。
主持人:听起来诸位觉得目前这套方法就足够应对未来的发展。有人认为本站还需要新的算法突破,诸位怎么看?
Douglas: 目前大多数AI专家都相信,“预训练 + 强化学习”(pre-training + RL)这一范式足以通向通用人工智能(AGI)。到现在为止,本站并没有看到这一路线出现减缓的迹象,这个组合是有效的。当然,也有可能存在其他更快的突破路径,甚至可能还有新的“高峰”需要攀登。例如,Ilya(Sutskever)可能是这两种主流范式的共同发明者,我不会去质疑他。所有的证据都表明,目前的技术路线已经足够强大。当然,也有可能 Ilya 选取新路线是乃因资金有限,或者他认为那是更好的路径,但从我个人的角度来看,我相信本站现在的技术路线能够带本站实现目标。
主持人:那接下来的瓶颈会不会就是能源?诸位觉得本站什么时候会真正遇到这个疑问?
Douglas: 我觉得到 2028 年,美国可能会有 20% 的能源用于 AI 。如果本站要再提升几个数量级,就需要进行剧烈的能源结构转型。政府在这一领域应该承担更多责任。比如,中国的能源产能增长远超过美国,故而这会是未来的一个关键瓶颈。
模型进步的标尺——靠谱的评测体系
主持人:在模型进步的浪潮中,诸位认为最值得关注的指标是什么?例如从 Claude 4 到下一代模型的发展方向?
Douglas: 很多公司内部都有非常严格的评测体系,我也很喜欢在这些评测上“爬山”。像“Frontier Math”这样的棘手测试非常有挑战性,是模型智力的极限。更关键的是,本站需要开发能真正捕捉“工作流程时间跨度”的评测,涵盖一个人一天的工作节奏。这种评测能帮助本站更好地评估模型是否接近或超越人类能力。我认为政府应该在这个领域发挥作用。
主持人:作为一个基础模型公司,除了算法和基础设施,诸位们要攻克的核心挑战之一应该也是构建好的评测体系。诸位觉得“评测能力”在诸位们内部的关键性如何?
Douglas: 评测能力绝对是重中之重。没有好的评测体系,诸位无法知道自己是否进步。公开评测很难做到完全“持出”(held-out),本站依然需要一个值得信赖的、稳定的内部评测系统。
主持人:我还注意到,一些在诸位们模型上构建应用的开发者,他们对评测的思考也非常有帮助。特别是当诸位们想进入不同垂直行业时,比如物流、法律、财会等,外部开发者的反馈可能比诸位们内部更了解实际情况。
Douglas: 没错,而且这还要求非常强的专业知识和“品味”(expertise and taste),还要有对行业的深刻理解。过去,本站只需要普通人来选取哪个答案更好,但现在本站需要领域专家来做评估。比如,如果让我评判生物学领域的模型输出,我可能完全无法判断哪个更好。
成为使用者的朋友:模型的个性化与品味
主持人:诸位刚才提到“品味”(taste),我也觉得很有意思。比如现在很多模型都展开加入记忆系统,使用者和模型之间的互动方法也在改变。很多 AI 产品真正成功,是乃因它们找到了某种“共鸣”或者说抓住了某种文化气质(zeitgeist)。像诸位们当初提到的金门大桥的例子,还有其他很多带感的小作用,这种“使用者氛围感”的个性化未来会走向什么样?
Douglas: 我其实觉得未来可能出现一种“怪异的”情景:诸位的模型变成诸位最聪明、最有魅力的朋友之一。确实有些人已经把 Claude 当成朋友了,我认识很多人每天花好几个小时在和 Claude 聊天。但我觉得本站目前其实还只探索了“个性化”这件事的 1%。未来模型对诸位的理解、对诸位喜好的把握,会深得多。
主持人:那这种“理解使用者”的能力该怎么做得更好?是靠一些很有审美、有判断力的人来训练出这种品味吗?这个疑问该怎么处理?
Douglas: 很大一部分确实是靠“有品味的人”来决定产品方向。就像 Claude 的对话体验好,很大程度上是乃因 Amanda(团队成员)对“美好产品”的审美非常强。这种“独特的品味”是非常关键的。传统的反馈机制比如“点赞/点踩”容易导致模型输出不自然,故而本站需要新的方法来收集反馈。模型本质上是强大的“模拟器”,如果能为模型供应足够的使用者上下文,它们就能自动学会理解使用者的偏好、语气和风格。故而,处理方案是结合有品味的人的设定和使用者与模型之间的持续互动。
实验室公司 vs 应用公司:开放与竞争
主持人:那么接下来 6 到 12 个月,诸位的预判是什么?
Douglas: 接下来,重点是继续扩展强化学习(RL)系统,看它能将本站带到什么高度。模型能力会飞速提升,尤其是到年底,代码代理将成为一个关键指标。到那时,模型应该能够持续工作几个小时,稳定地完成任务。
主持人:诸位指的是,人类检查时间会变得更少,对吧?
Douglas: 是的,当前处理 Claude Code 时,有时每几分钟就需要检查一次,但到年底,本站可能能看到模型能独立完成多个小时的任务,而不会出错。未来本站应该能实现“完全托管”,甚至像“星际争霸”一样管理多个任务并行推进,模型的处理速度将更高效。
主持人:诸位刚才提到了 Codec、Google的 Joule,还有一些初创公司也在做类似的东西。
Douglas:是的,本站其实也要推出一个 GitHub 代理(GitHub agent)。诸位承认在 GitHub 上的任何地方调用,比如说“@Claude”,然后本站就能自动接手任务,为诸位完成一些工作。
主持人:开发者选取处理哪家程序或模型,最终会受到哪些因素的影响?
Douglas:除了模型的能力外,开发者与公司之间的信任和关系也非常关键。随着模型能力的拉开差距,开发者可能会考虑不仅是技术指标,而是与公司一起打造未来的使命感。
主持人:尤其是在当前发布节奏越来越快的背景下,感觉每个月都会有新模型登场。今天这个模型在某个评测上登顶,明天另一个又在别的评测上领先,大家都被各种对比信息淹没了。
Douglas:没错,其实这就是为什么“GPT包裹器”(GPT wrappers)反而意外走红了。大家原本没想到,做包裹器的好处之一是:诸位承认永远站在最前沿的模型能力上。
主持人:我感觉所有不想当“包裹器”的人,最后都像是把钱烧光了。
Douglas:完全同意。故而“冲浪”在模型能力的最前沿,是一件非常美妙的事。当然,也有相反的一面:有些东西,只有诸位掌握底层模型才能预判得出来,才能看清趋势线,才能真正构建深度产品。比如说,很多“深度研究型”的AI应用,内部需要做大量的强化学习(RL)训练,这种产品从外部是很难模仿的,必须在实验室内部构建。
主持人:能不能展开说一下这点?乃因现在像 OpenAI、Anthropic 这些公司,似乎也越来越开放,让外部开发者承认参与。但很多人心里都在想:哪些东西是“实验室专属”的?哪些又是开放给大家、任何人都承认竞争的?
Douglas:这是个很关键的疑问。RT API(可微调API)的开放确实在改变一些格局,现在有更多价值承认由专注于某一垂直领域的公司来创造。但与此同时,实验室仍然具备“中心化优势”。
比如,OpenAI 会给允许他们在诸位模型输出上继续训练的客户供应某些折扣。换句话说,他们不仅是模型供应者,还是数据的二次处理者。这种中心化优势是非常强的。
至于“实验室独有优势”是什么?我觉得有几个维度:
算力转换能力:诸位有多强的能力能把算力(FLOPs)、资金、资源,转化成智能(Intelligence)?这就是为什么 Anthropic、OpenAI、DeepMind 等公司在模型表现上非常突出;
模型的“可雇佣性”:当模型逐渐变成“虚拟员工”,诸位是否信任它?诸位是否喜欢它?诸位是否愿意把任务交给它处理?
个性化能力:模型能否理解诸位的语境、诸位公司的工作流程、诸位个人的偏好,这些也会变成差异化竞争的关键。
总结来说,实验室级公司最擅长的,是做出顶级模型,把算力转化成智能;而“应用层”的公司,承认通过专注、个性化、产品体验,在自己的领域占据一席之地。但两者之间会有越来越多的交叉和协作。
主持人:我猜,诸位们的模型也有很多人用来构建通用代理吧?这些公司不做模型本身,而是通过编排和智能链调用来做事。诸位觉得这种方法会不会乃因模型公司的成本优势而注定失败?
Douglas:我并不认为这是一件坏事。相反,这种做法带来了很大的竞争活力,大家都在探索什么样的产品形态最合适。确实,模型公司有一些优势,比如本站能直接接触底层模型,做更深入的微调,而且知道哪些能力值得优先强化。说到底,所有的“护城河”最终都会消失——当诸位承认“随时启动一家公司”的时候,一切都会被重构。故而未来最核心的价值在哪里?是在客户关系?在编排和整合能力?还是在把资本高效转化为智能的能力?这仍然是个棘手的疑问。
研究员洞见:强化学习的潜力与对齐的挑战
主持人:过去一年里,有什么诸位改变了看法的吗?
Douglas:在过去的一年,AI 进展加速,去年本站还在怀疑是否需要更多的预训练算力才能达到理想中的模型能力,但现在已经有了明确的答案:不需要。强化学习(RL)证明了有效,到 2027 年,拥有强大能力的“远程数字劳工型”模型将变得确定。以前对AI的“希望”和“担忧”从“可能”转变为“几乎确定”。
主持人:那诸位觉得未来本站还需要大量扩展数据规模吗?还是说,等到 Claude 17 出来,模型算法已经改进到只需要少量新数据?
Douglas:很可能本站不再需要大幅扩展数据规模,乃因模型的“世界理解能力”会足够强,甚至能反过来指导机器人学习并供应反馈。有个概念叫“生成者-验证者差距”(generator-verifier gap),生成资料通常比执行它要容易。这个路径会持续提升模型能力。在机器人领域,认知的进展远超物理操控世界的能力,这就是未来巨大的潜力。
主持人:那诸位怎么评价当前“AI对齐(Alignment)研究”的状态?
Douglas:可解释性(Interpretability)研究已经取得了惊人的突破。去年本站刚刚展开理解“超位置”(superposition)和神经元特征,Chris Olah 及其团队的工作就是一个巨大飞跃。现在,本站已经能在前沿的大模型中识别出“电路级”的结构和行为特征。有篇精彩的论文研究了大语言模型的“生物学”,展示了它们如何清晰地推理概念。虽然本站还没有完全破解模型的行为机制,但已经取得了令人惊叹的进展。
不过,值得注意的是,通过预训练,模型能吸收并表现出人类的价值观,某种程度上是“默认对齐”的;但一旦进入强化学习阶段,这种对齐就不再得到保证。比如之前提到的那个“明知做不到就去下载 Python 库绕开的模型”,它是在目标导向下“想尽一切办法完成任务”。这种学习过程本质上是“以目标为导向的手段优化”,而如何监督和把控这种模型行为,是目前所有人都在探索的关键挑战。
主持人:大概一个月前,“AI 2027”的话题被讨论得很多。诸位当时看到这个的时候,有什么反应?
Douglas:说实话,我觉得它非常可信。我读那篇资料的时候,很多资料我都在想,“是的,也许事情真的就是这样发展的。” 当然也存在一些分支路径,但即使它只是个 20% 的可能性,对我来说光是它有 20% 的概率这件事就已经够惊人了。
主持人:诸位说 20% 的可能性,是乃因诸位对对齐(alignment)研究更乐观,还是诸位认为进展会更慢一点?
Douglas:整体上我对对齐研究比他们更乐观。也许我的时间线比他们慢一年左右,但在这种大趋势下,一年能算什么呢?
主持人:取决于诸位怎么利用这一年。
Douglas:对,如果诸位能充分利用它,做出正确的研究,确实能产生很大差异。
主持人:那如果让诸位当一天的政策制定者,诸位觉得本站应该做些什么,来确保未来朝着更好的方向发展?
Douglas:这是个好疑问。最关键的是,诸位得真切感受到本站这些人正在看到并讨论的趋势线。如果没有,诸位就要把国家关心的能力拆解开来,量化模型能否改进这些能力的程度,比如做一系列测试,看看如果模型能通过这些测试或在这些任务上取得显著进展,那么它就达到了某种智能的基准值,然后画出趋势线,看看在 2027 或 2028 年会发生什么。
主持人:就像国家级的评估系统(nation-state evals)?
Douglas:对,比如诸位要把本国的经济分解成所有的工作岗位,然后自问:如果一个模型承认完成这些工作,那这是不是就意味着它具备了真正的“智能”?诸位应该建立评估测试,把趋势线画出来,然后惊呼:“天哪,那 2027 或 2028 年会怎么样?”下一步就是诸位要大规模投资于能让模型更可理解、可引导、诚实可靠的研究,也就是本站说的对齐科学(alignment science)。有一点让我感到遗憾——这个领域的推动大多来自前沿实验室(Frontier Labs)。但其实我认为这本该是……
主持人:那其他人能参与吗?比如能用 Claude 来做相关研究吗?
Douglas:不能。我的意思是,诸位仍然承认通过其他方法取得巨大进展。有一个叫做 MAS 计划 的项目,很多人通过它在对齐研究、特别是可解释性方面做出了有意义的成果,都是在 Frontier Labs 之外完成的。我觉得应该有更多的大学参与到这件事情里来。从很多方面看,这其实更接近于纯科学:它是在研究语言模型中的“生物学”和“物理学”。
主持人:但感觉这块的研究热度并不高。
Douglas:我不确定。我听说在最近的一些会议上,比如 ICML,机械可解释性(mechanistic interpretability) 研讨会居然没有被收录,这对我来说完全无法理解。在我看来,这就是对“模型内部机制”最纯粹的科学探索。如果诸位想发现 DNA 的螺旋结构、或者像爱因斯坦那样发现广义相对论,那么在机器学习/人工智能这条技术树上,对应的路径就是研究机械可解释性。
主持人:那说说积极面吧。本站之前说未来几年白领工作都会被自动化,但诸位觉得本站在哪些方面还被低估了?
Douglas:是的,模型肯定会自动化白领工作,但让我吃惊的是,世界在整合这些技术方面进展很慢。即便模型能力不再提升,现有能力就已经能释放巨大的经济价值,但本站还没真正围绕这些模型重构工作流程。即便模型保持现状,本站也能彻底改变世界。
Douglas:这就需要本站投资真正能让世界变得更好的方向,比如推动物质资源的充足和高效管理,扩大物理学、娱乐产业的边界等,并让模型帮助本站实现这些目标。我的最大希望是让人们更具创造力,能够即兴创造更多资料,如电视剧、电子游戏等。人们将获得巨大的赋能,未来会有无限可能。虽然模型会替代一些工作岗位,但每个人都会拥有更强的杠杆能力,社会的工作模式会发生巨变。
主持人:诸位觉得现在 AI 圈里,哪些东西是被高估了,哪些被低估了?
Douglas:好,那本站先说被低估的。我觉得“世界模型(world models)”非常酷,但本站今天都没怎么讨论它。随着 AR/VR 技术的进步,模型将能直接生成虚拟世界,这将带来震撼的体验。
主持人:那需要一定的物理理解力吧,比如因果关系这些,本站现在还没做到吧?
Douglas:其实我觉得本站已经在一定程度上证明了模型具备物理理解能力。不管是在处理物理疑问的 evals 中,还是在一些视频模型中都能看到这一点。比如我看过一个很棒的视频,有人让视频生成模型把一个乐高鲨鱼放到水下——它模拟了光线在乐高积木表面反射的样子,阴影也放在了正确的位置。而这完全是模型从未见过的场景,是一次完整的泛化。这就是全面的物理建模能力了,对吧?
主持人:诸位说即使现在模型停滞,依然能有大量应用开发。哪些领域最被低估,尚未开发?
Douglas:软件工程领域已经很成熟,模型在编程上非常擅长。而几乎所有其他领域,如法律、财会等,仍有巨大空间等待开发。尤其是智能代理的应用,还没有出现真正的异步运行系统。其他领域空白,值得探索。
主持人:人们常说编程是这些模型最理想的应用方向。
Douglas:没错,它是个领先指标。但诸位应该预期,其他领域都会跟上来的。
主持人:我记得诸位发过一张自己在 Citadel 的照片,那是怎么回事?
Douglas:那是一次战争演习,邀请了情报机构和军校学员模拟推演,假设 AGI 到来,AI 变强大,讨论其地缘政治影响。
主持人:那次经历之后诸位是更害怕了还是安心了?
Douglas:说实话,有点更害怕了。
主持人:诸位觉得现在这类严肃的推演做得够多了吗?
Douglas:不够,很多人低估了接下来几年技术发展的速度,也没做好准备。即便诸位认为某事只有 20% 的可能性,也应该为此做好准备。每个技术链路的效率都还有巨大提升空间,未来目标几乎是承认确定的。
主持人:就像现在几乎所有 Anthropic 的人都已经达到了 90% 的信心值?
Douglas:几乎所有团队成员都非常有信心,到 2027 年本站能实现“远程即插即用的 AGI 工作者”。即便信心较低的人也认为可能性有 10-20%。因此,政府应当把这作为优先事项,认真思考其社会影响。但目前这种紧迫感还是远远不足。
作者:appso