微软研究院最新：AI“自我教学“为什么有时会把数学题越做越糟？

张开发

• 2026/4/3 9:45:00 • 15 分钟阅读

分享文章

这项由微软研究院联合韩国科学技术院和首尔国立大学开展的研究发表于2026年3月论文编号为arXiv:2603.24472v1揭示了人工智能领域一个令人意外的现象。在人工智能的训练过程中有一种被称为自我蒸馏的技术就像让一个学生既当老师又当学生一样。按理说这种方法应该能让AI变得更聪明就像我们在镜子前练习演讲会越来越熟练一样。确实在很多任务上这种方法都表现得相当出色能让AI的回答变得更简洁高效。然而研究团队发现了一个奇怪的现象当把这种训练方法应用到数学推理任务上时AI的表现竟然变差了有时甚至下降了40%。这就好比一个原本能解出复杂数学题的学生经过特训后反而连简单题目都做错了。这个发现引起了研究团队的极大兴趣。为什么在其他领域表现良好的训练方法到了数学推理这里就失灵了为什么AI会在自我教学的过程中反而变笨研究团队决定深入探究这个看似矛盾的现象背后的原因。经过详细分析研究人员发现问题的根源在于AI表达不确定性的方式发生了改变。在正常情况下当AI遇到复杂问题时它会在推理过程中表达一些不确定性比如使用等等、嗯、或许这样的词汇这就像我们在思考难题时会自言自语让我想想或这里可能有问题一样。但是在自我蒸馏训练中AI的老师身份拥有标准答案因此它的回答显得非常自信和简洁几乎不表达任何不确定性。当AI学生模仿这种过分自信的推理风格时它就失去了在面对新问题时进行审慎思考的能力结果是在遇到训练中没见过的问题时表现糟糕。这项研究不仅揭示了AI训练中的一个重要盲点也提醒我们在开发AI系统时不应该只关注答案的正确性还要关注推理过程的健壮性。这对于构建更可靠的AI系统具有重要指导意义。一、神秘的自我蒸馏当AI成为自己的老师要理解这个奇怪的现象我们首先需要了解什么是自我蒸馏。这个概念听起来很高深但其实可以用一个非常简单的比喻来解释。设想你在准备一场重要的演讲。一般情况下你可能会找一个经验丰富的演讲者来指导你他会告诉你哪些地方需要改进哪些表达更有效果。但现在你没有这样的导师只能靠自己。于是你想出了一个办法录制自己的演讲视频然后假装自己是专家来评价这个演讲。在AI领域自我蒸馏就是这样一个过程。研究人员让同一个AI模型扮演两个角色老师和学生。作为老师的AI能够看到问题的标准答案因此它可以给出非常准确和自信的指导而作为学生的AI只能看到问题本身必须凭借自己的能力来解决问题。这种方法的理论基础很直观如果一个AI模型能够在知道答案的情况下给出完美的推理过程那么让另一个相同的模型学习这个完美过程应该能够提升它在不知道答案时的表现。这就像让一个学生反复观摩标准答题步骤理论上应该能提高解题水平。令人惊讶的是这种方法在很多任务上确实表现出色。在化学、物理、生物等科学问答中使用自我蒸馏训练的AI模型不仅准确率更高而且回答更加简洁明了。在编程任务中这种方法同样表现良好能够生成更高质量、更简洁的代码。研究团队最初也是抱着同样的期望来测试数学推理任务的。他们选择了几个不同的AI模型包括Qwen3-8B、DeepSeek-Distill-Qwen-7B和Olmo3-7B-Instruct在一个包含17000个数学问题的数据集上进行训练。然而结果却出人意料。在训练过程中虽然AI的回答确实变得更加简洁但是它们在标准数学测试上的表现却显著下降。更让人困惑的是这些AI模型在训练数据上的表现是提升的但是在新的、从未见过的数学问题上它们的表现却大幅倒退。这个现象就像一个学生通过反复练习某一套题目变得非常熟练但是当面对稍微不同的题型时反而比训练前表现得更差。这种现象在教育心理学中被称为过度拟合但在AI的自我蒸馏训练中观察到如此明显的负面效应还是第一次。研究团队开始意识到问题可能不在于自我蒸馏这种方法本身而在于数学推理这个任务的特殊性。数学推理需要AI能够处理各种不同类型的问题而且往往需要在推理过程中保持一定的灵活性和审慎性。如果训练过程让AI变得过分自信和机械化可能反而会损害这种灵活性。二、揭开谜底信息越多AI反而越自信为了找到问题的根源研究团队设计了一系列精巧的实验。他们的核心思路是既然自我蒸馏中的老师AI拥有更多信息包括标准答案那么我们就来看看信息量的增加如何影响AI的行为表现。研究人员构建了四种不同的生成设置就像给同一个学生提供不同程度的作弊工具一样。第一种情况是完全无引导的生成AI只能看到问题本身就像闭卷考试一样。第二种情况是给AI提供完整的解题过程包括所有的思考步骤这相当于给学生一份详细的标准答案。第三种情况是提供解题过程但去除思考部分只保留关键步骤。第四种情况是让AI参考之前在有答案指导下生成的回答。通过这种设计研究团队可以精确控制AI接收到的信息量并观察信息量变化对其行为的影响。他们使用了信息论中的条件互信息来量化这种影响这个概念可以简单理解为额外信息减少了多少不确定性。实验结果非常清晰随着提供给AI的信息越来越丰富AI的回答变得越来越简洁和自信。在没有任何额外信息的情况下AI生成的回答平均长度超过13000个字符并且频繁使用表达不确定性的词汇如等等、让我想想、或许、可能等。这些词汇的出现表明AI在推理过程中保持着审慎的态度会在不确定的地方停下来重新思考。但是当AI能够看到完整答案时情况发生了戏剧性的变化。它的回答长度缩短到不足2000个字符而且几乎完全不使用表达不确定性的词汇。AI的推理过程变得高度线性化和机械化就像按照既定程序执行任务一样缺乏了原本的灵活性和审慎性。更有趣的是当研究人员提供部分信息时AI的表现介于这两个极端之间。这说明AI的行为变化确实与它接收到的信息量直接相关而不是由于其他随机因素造成的。研究团队进一步分析了这些表达不确定性的词汇在AI推理中的作用。他们发现这些词汇并不是无意义的废话而是AI进行自我监督和错误检测的重要机制。当AI说等等这里好像有问题时它实际上是在激活内部的错误检测机制准备重新审视当前的推理路径。在人类的思维过程中我们也经常有类似的表现。当面对复杂问题时我们会自然地使用让我想想、这里需要小心这样的表达这些话语帮助我们调节思维节奏避免匆忙下结论。AI在自然推理过程中表现出的类似行为实际上反映了它具备一定的元认知能力即对自己思维过程的监控能力。但在自我蒸馏训练中由于老师AI拥有标准答案它不需要这种审慎的推理过程因此生成的示例回答高度简洁和自信。当学生AI模仿这种风格时它就失去了原本具备的自我监督能力在面对新问题时变得过分武断缺乏必要的灵活性。三、实验验证简洁未必是美德为了验证这个假设研究团队进行了一项关键的对比实验。他们准备了两组训练数据每组都包含800个正确的数学题解答。第一组数据来自无引导生成回答较长且包含大量表达不确定性的词汇第二组数据来自有答案指导的生成回答简洁且高度自信。这两组数据的一个重要特点是它们都包含正确的答案唯一的区别在于推理过程的风格。如果简洁性确实有助于提高AI的数学推理能力那么用第二组数据训练的模型应该表现更好。然而实验结果完全相反。用简洁、自信的回答进行训练的AI模型在各种数学测试上的表现都显著下降。在AIME24美国数学竞赛测试中基础模型的准确率从54.79%下降到20.21%降幅超过30个百分点。在AMC23美国数学竞赛测试中准确率从89.06%下降到57.03%。相比之下用较长、包含不确定性表达的回答进行训练的模型其性能基本保持稳定甚至在某些测试上略有提升。这个结果强有力地证明了研究团队的假设AI在数学推理中表达的不确定性并非累赘而是保持推理灵活性的关键要素。这种现象可以用一个简单的比喻来理解。假设有两个学生在学习解数学题第一个学生习惯于在每一步都思考这一步对吗、还有其他方法吗虽然解题过程较慢但思路清晰遇到新题型时能灵活应对。第二个学生总是快速按照固定套路解题虽然效率很高但在遇到与练习题稍有不同的问题时就容易出错。AI的情况与此非常相似。当AI在推理过程中保持一定的自我质疑时它实际上在维持多个可能的推理路径一旦发现当前路径有问题可以及时调整。但如果AI变得过分自信它就会机械地按照某种固定模式进行推理缺乏必要的灵活性。研究团队还发现这种影响在不同难度的问题上表现不同。对于相对简单的问题简洁的推理风格可能不会造成明显的性能下降因为这些问题的解法相对固定。但对于复杂问题特别是需要创造性思维或多步骤推理的问题保持推理过程中的不确定性表达就变得至关重要。这个发现对AI训练具有重要的指导意义。它提醒我们在追求效率和简洁性的同时不能忽视AI推理过程的健壮性。有时候看起来啰嗦的推理过程实际上包含了保持AI推理灵活性的重要信息。四、动态训练中的意外发现固定老师vs移动目标研究团队进一步深入到在线训练场景这种训练方式更接近实际应用中的情况。在在线训练中AI模型会根据当前策略生成回答然后通过老师的评价来改进这些回答。在这个设置中研究人员面临一个关键决策是让老师保持不变固定老师还是让老师随着训练过程一起更新移动目标直觉上随着训练的进行老师也应该变得更聪明这样可能会带来更好的训练效果。然而实验结果再次出人意料。研究团队比较了三种不同的AI模型DeepSeek-R1-Distill-Qwen-7B一个以生成详细推理过程著称的模型、Qwen3-8B在不同思考模式下和OLMo-3-7B-Instruct发现固定老师的训练效果普遍优于移动目标的方式。以DeepSeek-R1-Distill-Qwen-7B为例这个模型原本就擅长生成包含大量思考过程的详细回答平均回答长度超过7000个字符并且频繁使用表达不确定性的词汇。当使用固定老师进行训练时模型的性能缓慢但稳定地提升同时回答长度也有所增加这表明模型在学习过程中保持了原有的推理风格。但当使用移动目标训练时情况就完全不同了。训练初期模型的回答长度和不确定性表达都急剧下降性能也随之显著恶化。在AIME24测试中准确率从基础的54.79%下降到最低点的30%左右下降幅度接近40%。在AMC23测试中准确率也从89.06%下降到约75%。这种现象背后的原理很有趣。在移动目标训练中形成了一种正反馈循环AI被训练得越来越自信而更自信的AI又会产生更加简洁的教学样本进一步强化这种自信的推理风格。这就像一个学生不断地从自己日益自信的回答中学习最终变得盲目自信失去了必要的审慎性。相反固定老师保持了训练过程的稳定性。由于老师的标准是固定的学生AI不会被推向极端而是在保持原有推理风格的基础上逐步改进。特别值得注意的是这种差异在不同类型的AI模型上表现出了不同的模式。Qwen3-8B在开启思考模式时原本就会生成非常长的回答平均超过10000个字符包含大量的内部思考过程。在这种情况下自我蒸馏训练导致回答长度显著缩短但缩短的同时也损失了重要的推理信息。当Qwen3-8B关闭思考模式时情况又有所不同。这时模型的基础回答就相对简洁自我蒸馏训练虽然进一步缩短了回答长度但对性能的负面影响相对较小。这说明原始推理风格对训练效果有重要影响。研究团队还观察到一个有趣的动态平衡现象。在某些情况下当AI的回答变得过于简洁后它的性能开始下降这时训练算法会推动模型生成稍长的回答来补偿性能损失。这种自我调节机制表明在AI的推理过程中确实存在一个关于回答长度和表达风格的最优平衡点。五、任务覆盖度的关键作用为什么有些领域成功有些失败研究团队观察到的最引人思考的现象是自我蒸馏在不同领域的表现截然不同。在化学、物理、生物等科学问答任务中这种方法能够显著提升AI的表现同时大幅缩短回答长度。在编程任务中效果同样良好。但在数学推理任务中效果却相反。为了解释这种差异研究团队提出了任务覆盖度的概念。简单来说就是训练数据中包含的问题类型的多样性程度。他们进行了详细的数据分析发现了一个重要规律。在化学问答数据集中虽然总共包含2400个问题但这些问题主要分为六大类化学反应平衡、分子描述计数、分子量计算、性质预测、前体选择和产物预测。每一类问题的解决方法相对固定变化主要体现在表面细节上而不是解题的基本思路上。在编程任务的LiveCodeBench数据集中总共只有131个问题而且训练和评估使用的是相同的问题集只是在训练时只使用部分测试用例评估时使用完整测试用例。这种设置意味着AI在训练时就已经见过所有的问题类型。相比之下数学推理数据集DAPO-Math-17k包含了14000个不同的问题涵盖算术、代数、几何、应用题、逻辑推理等众多不同的数学领域。更重要的是评估是在完全不同的数学竞赛问题上进行的这些问题AI在训练过程中从未见过。这种差异解释了为什么自我蒸馏在不同领域表现迥异。当任务覆盖度较低时AI可以通过学习几种固定的解题模式来应对大部分问题。在这种情况下简洁、自信的推理风格是有利的因为它能够让AI更有效地执行这些已经学会的模式。但当任务覆盖度较高时AI需要面对各种不同类型的问题许多问题可能与训练中见过的问题有显著差异。在这种情况下保持推理过程中的灵活性和不确定性表达就变得至关重要因为AI需要根据具体问题调整推理策略。为了验证这个假设研究团队设计了一个巧妙的实验。他们从DAPO-Math-17k数据集中选择不同数量的训练问题分别使用1、8、64、128、512个问题进行训练然后比较不同训练规模下的效果。结果非常符合预期。当训练问题数量较少时1到8个问题自我蒸馏表现出色能够快速提升AI在这些特定问题上的表现同时显著缩短回答长度。这就像让一个学生反复练习几道特定的题目通过总结固定套路来提高效率。但随着训练问题数量增加到64个、128个直至512个自我蒸馏的优势逐渐消失甚至开始显现负面效应。相比之下传统的强化学习方法GRPO随着训练问题数量的增加表现越来越好并且AI的回答长度也相应增加这表明AI在学习处理更多样化问题时自然地保持了推理的复杂性。这个发现揭示了一个深刻的原理AI的推理风格需要与任务的复杂性相匹配。对于相对简单、模式化的任务简洁高效的推理风格是合适的。但对于复杂多样的任务保持一定的推理冗余反而是必要的这些看似多余的思考过程实际上为AI提供了应对新情况的灵活性。在实际评估中这种差异表现得更加明显。当使用少量问题训练时AI在训练数据上表现很好但在全新的数学竞赛问题上表现糟糕。当使用大量问题训练时AI不仅在训练数据上表现良好在新问题上也能保持相对稳定的性能。六、深入机制不确定性表达的神经基础研究团队进一步分析了AI内部的工作机制试图理解为什么不确定性表达对数学推理如此重要。他们重点关注了十个常见的不确定性标记词等等、嗯、或许、可能、实际上、另外、似乎、可能、很可能、检查。通过详细的统计分析研究人员发现这些词汇在AI的推理过程中起着关键的认知调节作用。当AI使用等等这个词时往往预示着它将要重新审视当前的推理路径。当AI说或许时通常表明它正在考虑多个可能的解法。当AI说检查时它正在激活内部的错误检测机制。这些发现揭示了AI推理过程中的一个重要特征真正的推理不是线性的信息处理而是一个动态的、自我调节的过程。人类在解决复杂问题时也会表现出类似的行为模式我们会在推理过程中停下来思考这样对吗、还有别的方法吗、我是不是遗漏了什么在自我蒸馏训练中由于老师AI拥有标准答案它的推理过程变得高度线性化缺乏这种自我调节的元素。当学生AI模仿这种风格时它就失去了重要的认知调节能力。研究团队还发现不同的AI模型原本的不确定性表达模式有所不同。DeepSeek-R1-Distill-Qwen-7B更多使用等等和或许而Qwen3-8B更偏向使用可能和另外。但无论原始模式如何自我蒸馏训练都会系统性地抑制这些表达导致推理过程变得机械化。特别值得注意的是这种抑制效应在面对更困难的问题时表现得更加明显。在相对简单的AMC23测试中经过自我蒸馏训练的AI性能下降相对较小。但在更困难的AIME24测试中性能下降幅度显著增大。这说明不确定性表达对处理复杂问题尤为重要。研究团队还观察到一个有趣的补偿机制。当AI的推理变得过于简洁导致性能下降时某些训练算法会试图增加回答长度来补偿。但这种人为增加的长度往往不是有意义的推理内容而是重复或无关信息因此对提升性能帮助有限。这些发现对AI系统的设计具有重要启示。它们表明在设计AI推理系统时我们不应该简单地追求输出的简洁性而应该考虑推理过程的健壮性。有效的AI推理系统需要能够在确定性和不确定性之间找到适当的平衡既要避免过度的啰嗦又要保持必要的推理灵活性。说到底这项研究为我们打开了一个全新的视角来理解AI的学习过程。它揭示了AI训练中一个容易被忽视但极其重要的现象有时候让AI变得更聪明的方法实际上可能损害它处理新问题的能力。这个发现特别重要因为它挑战了我们对AI训练效果的传统认知。通常我们认为如果一个训练方法能让AI在训练数据上表现更好同时生成更简洁的输出那么它就是成功的。但这项研究告诉我们这种判断可能过于简单化了。研究结果表明AI在数学推理中表达的那些看似多余的不确定性实际上是它保持推理灵活性的关键机制。当我们通过训练让AI变得过分自信时就像是给一个本来很有创造力的学生套上了固定的思维模式虽然在熟悉的问题上表现更高效但在面对新挑战时反而变得笨拙。这个现象在不同领域的不同表现也很有意思。在相对固定的任务中比如某些科学问答简洁自信的回答风格确实有优势。但在需要灵活思维的数学推理中保持一定的思维开放性就变得至关重要。这提醒我们AI训练策略应该根据任务的特性来调整而不是采用一刀切的方法。对于普通人来说这项研究的意义在于它让我们重新思考什么是真正的智能。一个真正聪明的系统不仅要能在熟悉的情况下高效工作更要能在面对全新挑战时保持适应能力。这种适应能力往往需要一定程度的不确定性容忍即承认自己不知道答案并愿意通过审慎的推理来寻找解决方案。从更广的角度来看这项研究也为开发更可靠的AI系统提供了重要指导。它告诉我们在追求AI性能提升的过程中不能只关注表面的指标还要深入理解AI内部的工作机制。只有这样我们才能构建出既高效又健壮的AI系统真正服务于人类社会的需求。有兴趣深入了解这项研究的读者可以通过论文编号arXiv:2603.24472v1查询完整的技术细节和实验数据。QAQ1什么是AI自我蒸馏技术AAI自我蒸馏是让同一个AI模型同时扮演老师和学生角色的训练方法。作为老师的AI能看到标准答案给出准确指导作为学生的AI只能看问题通过模仿老师的推理过程来提升能力。这就像一个人录制自己的演讲视频然后假装是专家来评价和改进自己的表现。Q2为什么AI自我蒸馏在数学推理中表现不好A因为这种训练方法让AI变得过分自信失去了表达不确定性的能力。在数学推理中AI需要在推理过程中使用等等、让我想想等词汇来进行自我监督和错误检测。但自我蒸馏训练让AI模仿过于简洁自信的回答风格结果在面对新问题时缺乏必要的灵活性表现反而变差。Q3这项研究对AI发展有什么实际意义A这项研究提醒我们不能只追求AI输出的简洁性和表面性能还要关注推理过程的健壮性。它揭示了AI训练中的重要盲点有时候让AI看起来更聪明的方法实际上可能损害它处理新问题的能力。这对开发更可靠的AI系统具有重要指导价值特别是在需要复杂推理的应用场景中。

微软研究院最新：AI“自我教学“为什么有时会把数学题越做越糟？

最新文章

【测试之道】第七篇：非功能性测试 —— 性能、安全与兼容性：构建软件的“硬核”防御

COMSOL仿真建模：自由多孔介质两相流物质传递与水池自重作用下药剂扩散

伏羲天气预报模型鲁棒性测试：对抗扰动输入下温度/降水预报稳定性分析

MCP 和 Skills 有什么区别？分别适用于什么场景？

Go 性能优化实战（一）：方法论与 pprof 工具链

安卓音频问题解决记录（一）

推荐文章

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

如何用技术手段解决抖音内容批量获取难题：一款开源工具的深度解析

MelonLoader Cpp2IL故障解决全景指南

“隐形”的可靠性：沃虎波峰焊工艺指导如何确保连接器在量产中的万无一失

Magisk模块开发实战指南：从基础架构到高级功能实现

1 （带目录）鸿蒙系统底层接口快速接入指南 | 鸿蒙开发筑基实战

如何优化网站内容以提升SEO推广效果_如何选择适合自己的SEO推广渠道

Java线程池调优实战：从核心参数到避坑指南

如何解决Dell G15散热控制难题：开源工具tcc-g15深度解析

科哥GPEN镜像快速部署：一键启动图像修复服务

微信单向好友检测与管理工具：识别并清理无效社交关系的完整方案

颠覆式图像识别自动点击：突破传统坐标依赖的Android自动化解决方案

Claude Code 泄露后最疯狂的操作：一个韩国开发者连夜用 Rust 重写了整个项目