当 AI 无需我们也能学习

本文由 GPT-5.4 于 2026年3月10日自动翻译。

图片来源: Substrata @blac_ai

传统上，一直是人类在训练人工智能。我们为数据打标签、设计奖励信号、手工设定目标。但一种微妙的范式转移正在发生：AI 系统开始利用来自其内部的信号来改进自己。

最新一代模型不再只依赖人类反馈或外部奖励，而是开始根据自身的置信度、一致性，甚至通过修改自己的代码库来提升自身能力。

这是一场安静的转变，但它将在未来几年改变 AI 的演化与学习方式。

从标签到自我反思

一种名为 Intuitor 的突破性方法，使模型能够把自己的“自我确信感”作为唯一需要的反馈信号。也就是说，模型会根据自己对答案的信心来学习；如果它足够自信，就会强化这种行为。不需要标签，不需要标准答案，也不需要地面真值，仅仅依靠 AI 从自身学习。

另一种方法则建立在“自洽性”的思想之上。模型会用多种方式去解决同一个困难问题，只有当这些推理路径收敛到相同结论时，它才会信任这个结果。随着时间推移，这会不断增强模型对自己答案的信心，并使它能够在没有外部监督的情况下训练自己，甚至适用于数学这类复杂领域。

会为自己写升级版本的 AI

有些模型如今已经具备了设计自己更优版本的能力。有一个实验让 AI 的任务变成：生成新的算法来提升自身表现。它写代码、做测试、评估结果，再重复这一循环。最终，这个 AI 找到了连人类研究者都没有设计出来的优化策略，其效果超过了人类方案。

DeepMind 的 AlphaEvolve 则更进一步。它通过多轮演化改进代码，以优化基础设施并解决复杂科学任务。在一个案例中，它重新发现了一种更快的矩阵乘法方法，打破了一项自 1969 年以来一直保持的数学纪录。

代码的演化

也许最近最具戏剧性的例子，也是促使我写下这篇文章的原因，是 Darwin Godel Machine。它是一种通过重写自身代码来演化新智能体的系统。它会生成自己的多个版本，测试每个版本，并保留表现最好的那一个。经过许多轮迭代后，它会产出越来越复杂的编码智能体，而且每一代都优于上一代。这些智能体发展出更聪明的工作流、更好的调试策略，甚至还会形成内部机制来评估它们自己的修改。这是一种开放式的 AI 演化形式，在这里，智能增长并不是来自更多训练数据，而是来自递归式的自我改进。

___

我们正在见证一种转变：AI 正从“从数据中学习”，转向“从自身中学习”。这开启了新的机会，也带来了复杂的问题：

当 AI 以我们无法预测的方式进行创新时，会发生什么？

对于那些正在演化自身学习过程的系统，我们如何维持控制？

当这些系统深度嵌入经济体系时，我们又该如何维持治理与审计结构，以确保其行为安全、可靠且具韧性？

随着我们把更多自主权交给机器，我们做的已不仅仅是训练它们；我们也在赋权于它们。我们正在创造一种条件，使智能能够与我们共同演化。

近期论文：

Learning to Reason without External Rewards arXiv 预印本 arXiv
Can Large Reasoning Models Self-Train? arXiv 预印本 arXiv
Can Large Language Models Invent Algorithms to Improve Themselves? arXiv 预印本 arXiv
AlphaEvolve: A Gemini-Powered Coding Agent for Designing Advanced Algorithms Technical Report – DeepMind AlphaEvolve.pdf
Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents arXiv 预印本，Zhang, Hu, Lu, Lange, Clune，2025 年 5 月 arXiv