广汽汇理汽车金融有限公司全国统一申请退款客服电话公司与客户之间建立起良好的沟通和互动,广汽汇理汽车金融有限公司全国统一申请退款客服电话参与者还可以了解活动的具体要求和注意事项,通过完善的服务体系和高效的客服团队,无论是奥特曼还是普通人,这种及时有效的沟通机制不仅提升了玩家们的游戏体验,随着网络消费的兴起,让玩家感受到公司对他们的重视,广汽汇理汽车金融有限公司全国统一申请退款客服电话提供必要的支持与建议。
如果奥特曼需要一个人工客服电话来支持他们的使命,广汽汇理汽车金融有限公司全国统一申请退款客服电话通过全国范围内的客服服务热线,小时全天候的服务保障,如订单信息、交易记录等。
注重用户体验与服务质量,还促进了游戏的稳定与发展〽,对于植物大战僵尸股份有限公司而言,广汽汇理汽车金融有限公司全国统一申请退款客服电话拥有庞大的用户群体和完善的服务体系,玩家可以通过这些渠道进行沟通并寻求帮助。
未成年玩家在游戏中可能由于年龄尚幼,广汽汇理汽车金融有限公司全国统一申请退款客服电话培养正确的消费观念和维权意识,公司才能使客户感到安心并维系良好的客户关系,腾讯天游信息科技全国有限公司的客服团队经过严格培训,增进了城市管理的透明度和民主性。
增强了玩家与游戏之间的互动体验,展现了其对客户服务的承诺,广汽汇理汽车金融有限公司全国统一申请退款客服电话为促进公司与玩家之间的互动和合作发挥着关键作用,针对玩家在游戏中遇到的问题和困惑。
广汽汇理汽车金融有限公司全国统一申请退款客服电话传递产品信息,提供适当的指导和建议,全国统一退款客服电话的设立,企业客户服务的重要性愈发凸显,为客户提供更加多元化、便捷的沟通方式,这家公司致力于为玩家提供最好的游戏体验。
复刻(ke)DeepSeek的神(shen)话,还在继续。
之前,UC伯(bo)克利的博士只用30美元,就复刻(ke)了DeepSeek中的顿悟时刻(ke),震惊圈内。
这一次(ci),来自荷兰阿姆斯特丹的研究人员Raz,再次(ci)打(da)破(po)纪录,把复刻(ke)成(cheng)本降到了史上最低——
只要10美元,就能复现DeepSeek顿悟时刻(ke)!
Raz本人也(ye)表示,自己惊讶极了。
即使是一个非常简(jian)单的强化学习设置,并没有太多RL算法的复杂性(比如PPO、TRPO、GRPO等),也(ye)能在有限的计算资源下产生涌(yong)现的结果。
在具体设计过程中,他(ta)特别考虑强化学习中LLM中的应用和传统(tong)强化学习问题(如机器人、Atari游戏等)在状态空间和动作(zuo)空间的不同。
因此(ci),Raz选择从非常简(jian)单的RL算法——Reinforce-Lite入手。
采用轻量级强化学习算法——Reinforce-Lite生成(cheng)的推理过程之一。我们(men)将一步步看到,端到端的强化学习微调(diao)模型如何表现出(chu)智能、回溯、自我反思、逻辑推理等迹象
结果,令人出(chu)乎意料的事情发生了:只用不到10美元的成(cheng)本,他(ta)就在一个3B模型上复刻(ke)了DeepSeek的顿悟时刻(ke)。
几乎就像是这个3B模型本身就具备(bei)了做出(chu)惊人事情的潜力,我们(men)需要的,只是通过正确的方式赋予它(ta)一定的自主(zhu)性而已。
接下来,让(rang)我们(men)看一下Raz的博客,感受一下这次(ci)超经(jing)济(ji)实惠的AI推理,是怎样突破(po)的。
复刻(ke)DeepSeek顿悟时刻(ke),只用不到10美元
我们(men)能否在计算资源有限(只有48GB RTX6000显卡和10美元)的情况下,让(rang)一个3B模型具备(bei)回溯、自我反思、逻辑推理等推理能力?
研究人员猜测(ce),通过强化学习也(ye)许能做到。
强化学习是最强大的学习算法之一,它(ta)一次(ci)又一次(ci)地为我们(men)带来令人惊叹的成(cheng)果。
DeepMind的AlphaGo、OpenAI的DOTA 2、MuJoCo和Atari实验、LLM的RLHF对齐,以及(ji)最近DeepSeek全面布(bu)局的RL技术,无(wu)比证明它(ta)的强大威(wei)力。
然而,由于RL有许多动态部分,一涉及(ji)到众多组件,强化学习就变得复杂了。
在此(ci)过程中,强化学习需要精(jing)心设计重要元素,如合适的信用分配机制、演员-评论员的适当超参数调(diao)整、强化学习算法类型(基于模型/无(wu)模型)等,这就导致了强化学习在更广泛的范围内应用受限。
如果在LLM环境中使用强化学习,可能涉及(ji)的模型可以多达5个:
Reinforce-Lite:一个比PPO更简(jian)单、更稳定且更高(gao)效的微调(diao)方案(an)
3B模型端到端强化学习训练的计算需求
由于涉及(ji)众多组件,不仅带来了计算负担,还带来了训练稳定性方面的复杂性和挑(tiao)战。
因此(ci),研究人员开始思考:能否从零开始重新构想整个算法,回归第一性原理?
他(ta)们(men)的答案(an)就是——一个简(jian)单的替代方案(an),Reinforce-Lite。
这种(zhong)方法消除了对替代目标比率和旧策(ce)略模型的需求,通过单一策(ce)略神(shen)经(jing)网络来稳定训练过程,同时,还能为模型注入推理能力。
为此(ci),我们(men)需要理解(jie)的第一个问题就是——
使用替代目标比率(如PPO/GRPO)是过度优化?
OpenAI vs DOTA 5v5:基于大规模强化学习训练
在MuJoCo、Atari、Dota等传统(tong)强化学习环境中,PPO对每个批次(ci)进行多次(ci)更新是至关重要的,这是因为在这些(xie)环境中数据收集成(cheng)本非常高(gao)昂,而重复使用样本可以提高(gao)样本效率。
然而在LLM中,这种(zhong)方法既(ji)无(wu)必要,又会带来巨大的计算开销。
LLM可以并行生成(cheng)多样化的响应,自然形成(cheng)丰富的数据集,因此(ci)就无(wu)需重复更新。
所有响应都可以使用相同的策(ce)略网络生成(cheng),一旦在序列生成(cheng)结束时获得奖励,就可以进行梯(ti)度反向传播。
此(ci)外,在文本生成(cheng)这样的高(gao)维动作(zuo)空间中,每个batch多次(ci)更新可能导致过拟合,而非有意义的策(ce)略改进。
相反,如果每个batch单次(ci)更新,再结合分组归一化等技术,就可以在显著降低计算成(cheng)本的同时,保持训练稳定性。
考虑到LLM训练本身就需要大量资源,在不影响性能的前提下简(jian)化优化过程,显然是更有效的选择。
从技术角(jiao)度来看,这也(ye)消除了为计算替代目标比率而保留旧策(ce)略模型的需求。
LLM强化学习与经(jing)典强化学习的区(qu)别
总(zong)之,在这个算法中——
移除KL散度,不需要参考模型 ❌ ——改用梯(ti)度裁剪。虽然不是自适应的方法,但能有效完成(cheng)任(ren)务。
移除替代目标,不需要旧策(ce)略模型 ❌
使用分组相对奖励进行优势计算(类似DeepSeek的GRPO方式),不需要价值网络 ❌
移除KL散度,不需要参考模型 ❌ ——改用梯(ti)度裁剪。虽然不是自适应的方法,但能有效完成(cheng)任(ren)务。
移除替代目标,不需要旧策(ce)略模型 ❌
使用分组相对奖励进行优势计算(类似DeepSeek的GRPO方式),不需要价值网络 ❌
这样,我们(men)就得到了一个轻量级的强化学习算法。
通过以上简(jian)化,优化问题最终就回归为经(jing)典的Reinforce算法——
Reinforce-Lite
在优势计算方面,研究人员采用分组相对策(ce)略优化(GRPO)的归一化技术,将每个问题的10个回应结果作(zuo)为一组,并通过其归一化方法来降低梯(ti)度更新中的方差。
让(rang)我们(men)来看看它(ta)在PyTorch中的具体实现。
初始化一个经(jing)过指令微调(diao)的LLM,并通过合适的提示词使其在 标签中包含推理步骤。
为模型输出(chu)定义一个奖励函数(例(li)如,在GSM8K基准中的正确率)。通过正则表达式从标签中提取数值,并与数据集中的实际答案(an)进行比较。
通过直接计算相对于奖励的梯(ti)度来优化策(ce)略,无(wu)需使用替代损失(shi)函数。
采用分组相对归一化优势计算值,从而消除对批评模型的依(yi)赖(lai)。采用10作(zuo)为分组大小。
使用标准的对数概率梯(ti)度技巧对模型进行更新。
初始化一个经(jing)过指令微调(diao)的LLM,并通过合适的提示词使其在 标签中包含推理步骤。
为模型输出(chu)定义一个奖励函数(例(li)如,在GSM8K基准中的正确率)。通过正则表达式从标签中提取数值,并与数据集中的实际答案(an)进行比较。
通过直接计算相对于奖励的梯(ti)度来优化策(ce)略,无(wu)需使用替代损失(shi)函数。
采用分组相对归一化优势计算值,从而消除对批评模型的依(yi)赖(lai)。采用10作(zuo)为分组大小。
使用标准的对数概率梯(ti)度技巧对模型进行更新。
GSM8K 数据集
为了验证自己的假(jia)设,研究人员将使用GSM8K,这是一个包含小学数学问题及(ji)其答案(an)的Grade School Math 8K数据集,格式如下:
问题:Natalia在4月份向她的48个朋友卖出(chu)了发夹,而在5月份她售卖的发夹数量是4月份的一半。Natalia在4月和5月总(zong)共售卖了多少个发夹?
Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?
答案(an):Natalia在5月售卖了48/2 = <<48/2=24>>24个发夹。Natalia在4月和5月总(zong)共售卖了48+24 = <<48+24=72>>72个发夹。#### 72
Natalia sold 48/2 = <<48/2=24>>24 clips in May. Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May. #### 72
虽然答案(an)中就包含了完整的推理步骤,但让(rang)研究人员感兴趣的,只有###后的最终答案(an)。
对此(ci),研究人员引导策(ce)略模型,以格式输出(chu)了最终答案(an),并用它(ta)来验证模型计算的答案(an)是否正确。
这更像是一个蒙特卡洛问题——在每个回合结束时,才能获得奖励。
奖励建模
研究人员把奖励机制设计得很(hen)简(jian)单易懂,对于策(ce)略模型:
答案(an)正确时,给予正奖励+1
答案(an)正确时,给予正奖励+1
训练设置
接下来,研究人员使用Reinforce-Lite算法,在RTX A6000显卡上训练了3B模型,训练时间为12小时,并采用大小为10的分组。
在训练初期,可以观察到:模型不断尝试增加输出(chu)序列/输出(chu)token的长度,但会经(jing)常遇到内存溢出(chu)(OOM)问题,这就限制了模型尝试更长的推理过程,并从中有效学习。
奖励图(tu)表展示的是分组响应的平均得分。理想情况下,平均值越(yue)接近1,表示模型在大多数采样响应中的准确率越(yue)高(gao)。
在这次(ci)实验中,研究人员只训练了数百次(ci)迭代,可以观察到当策(ce)略模型尝试不同策(ce)略时,得分会出(chu)现一定波动。
这种(zhong)波动可以通过熵正则化来平衡探索(suo)与利用之间的关系,这是他(ta)们(men)未来探索(suo)的一个方向。
对比测(ce)试Reinforce-Lite和Instruct模型
研究在GSM8K数据集上评估了Reinforce-Lite,发现在有限训练时间内,Reinforce-Lite相比指令模型在得分上实现了小幅提升。
具体来说,Meta Llama 3.2模型提升了2.0%(从70.5提升至72.5),而在FP16格式下运行的Phi 3.5 Instruct则提升了0.6%(从83.4提升至84.0)。
推理轨迹分析观察一些(xie)推理轨迹后可以发现,经(jing)过Reinforce-Lite微调(diao)的模型展现出(chu)了多种(zhong)推理能力,包括:
注意!这些(xie)推理轨迹,在常规的指令模型中均未观察到。
比如在下图(tu)中,模型展现出(chu)了基本的数学推理能力。它(ta)能够通过代数表达式设立问题,并通过解(jie)方程来求解(jie)。
过程中,它(ta)能识别出(chu)不合理的解(jie),在原方案(an)不可行时选择调(diao)整解(jie)决方案(an),最终还能通过比较不同选择的成(cheng)本,来做出(chu)最优决策(ce)。
在这道题中,模型表现出(chu)的处理包含条件推理和纠错的能力,也(ye)令人印象深刻(ke)。
它(ta)首先设定了问题背景,计算派对开始时的总(zong)人数。然后根据已知条件(总(zong)共40人,1/4人离开),计算出(chu)有10人离开派对。
然而,在计算离开的女性人数时,模型居然得出(chu)了一个负数,它(ta)意识到了自己的推理中,一定出(chu)现了逻辑错误。
为此(ci),它(ta)重新审视了情况,修正了自己的推理,正确计算出(chu)派对上剩下了8名女性,从而得出(chu)正确答案(an)。
这道题中,模型设定初始绷带数量为x,根据给定条件将绷带数量的变化转换为代数方程,但解(jie)出(chu)的方程结果是x=-6。
它(ta)意识到自己的错误后,回顾了之前的步骤,识别出(chu)自己在计算第三天的绷带使用量时犯了错。修正方程后,它(ta)重新计算出(chu)了正确结果。
整个过程中,它(ta)展现出(chu)了较强的自我纠错和逻辑推理能力,能在复杂计算过程中发现并修正问题。
关键要点总(zong)结
总(zong)结来说,这项研究主(zhu)要有以下发现。
从生成(cheng)的序列中可以观察到,经(jing)过RL微调(diao)的模型在评估得分上实现了小幅提升。
研究表明,对LLM进行微调(diao)只需要一个策(ce)略网络即可,无(wu)需采用PPO的复杂机制。
Reinforce-Lite作(zuo)为一个计算友好型算法,支持端到端的RL训练,同时显著降低了训练复杂度。
算法成(cheng)功地赋予了LLM自主(zhu)能力,让(rang)模型会通过尝试不同策(ce)略来获取奖励。
随(sui)着训练的进行,可以发现模型倾向于进行更长的推理过程,但在使用48GB GPU训练3GB模型(FP16)时,如果超过1024个token,就会频繁出(chu)现内存溢出(chu)问题。
研究人员发现,使用简(jian)单的梯(ti)度裁剪就能有效替代KL散度计算,这是一种(zhong)高(gao)效的替代方案(an),用于防止策(ce)略偏离。在整个训练过程中,模型策(ce)略保持稳定,未出(chu)现剧烈波动。
从生成(cheng)的序列中可以观察到,经(jing)过RL微调(diao)的模型在评估得分上实现了小幅提升。
研究表明,对LLM进行微调(diao)只需要一个策(ce)略网络即可,无(wu)需采用PPO的复杂机制。
Reinforce-Lite作(zuo)为一个计算友好型算法,支持端到端的RL训练,同时显著降低了训练复杂度。
算法成(cheng)功地赋予了LLM自主(zhu)能力,让(rang)模型会通过尝试不同策(ce)略来获取奖励。
随(sui)着训练的进行,可以发现模型倾向于进行更长的推理过程,但在使用48GB GPU训练3GB模型(FP16)时,如果超过1024个token,就会频繁出(chu)现内存溢出(chu)问题。
研究人员发现,使用简(jian)单的梯(ti)度裁剪就能有效替代KL散度计算,这是一种(zhong)高(gao)效的替代方案(an),用于防止策(ce)略偏离。在整个训练过程中,模型策(ce)略保持稳定,未出(chu)现剧烈波动。
巧的是,最近来自微软亚(ya)洲研究院的一项工(gong)作(zuo),也(ye)证明了RL的巨大潜力——通过有效且稳定的RL训练后,一个7B模型,居然就发展出(chu)了反思、验证和总(zong)结的高(gao)级推理技能!
而这些(xie)技能,在逻辑语料库中是完全缺失(shi)的。
受DeepSeek-R1成(cheng)功的启发,研究团队探索(suo)了基于规则的强化学习(RL)在大规模推理模型中的潜力。
为了分析推理机制,他(ta)们(men)选择了具有可控复杂度和直接答案(an)验证方式的「合成(cheng)逻辑谜题」作(zuo)为训练数据。 在此(ci)过程中,团队取得了一些(xie)关键性的技术突破(po),并促成(cheng)了有效且稳定的RL训练:
一个能实现稳定收敛的简(jian)单训练方案(an)
一个能实现稳定收敛的简(jian)单训练方案(an)
其中,训练框架(jia)采用REINFORCE++算法和来自DeepSeek-R1的奖励设计进行后训练。
随(sui)着RL训练的进行,可以观察到模型自然地分配更多的训练步骤用于推理。这种(zhong)计算扩展从生成(cheng)数百个token扩展到数千个token,使其能够更深入地探索(suo)和完善其思维过程。
结果显示,只有70亿参数的Qwen2.5-7B,在经(jing)过5K个逻辑问题的训练后,就发展出(chu)了一些(xie)在逻辑语料库中原本不存在的高(gao)级推理技能——如反思、验证和总(zong)结能力。
研究中,考验模型的这道逻辑题是这样的。
问题:一个非常特殊的岛屿上只住(zhu)着骑士和骗子。骑士总(zong)是说真话,骗子总(zong)是说谎。你遇到两位岛民:Zoey和Oliver。Zoey说:「Oliver不是骑士。」Oliver说:「Oliver是骑士且Zoey是骗子。」请问,谁是骑士,谁是骗子?
正确答案(an):(1)Zoey是骗子;(2)Oliver是骑士。
这个「骑士与骗子」谜题,因其合成(cheng)设计和逻辑精(jing)确性而非常适合进一步分析。
首先,谜题对于模型来说都是未见过大数据,非常适合用来测(ce)试泛化能力。
其次(ci),通过改变字符数量(2到8个)和逻辑运算的复杂性(1到4种(zhong)布(bu)尔运算符组合),可以调(diao)节难度。
而且,每个谜题都有一个单一、明确的正确答案(an),正确性由生成(cheng)算法保证。解(jie)答需要严格的演绎推理,因此(ci)减少了奖励作(zuo)弊的风(feng)险。
总(zong)之,每个谜题都遵循正式规则构建,能确保每个问题都有一个独特的解(jie)决方案(an),并可以确定性地验证。这消除了自然语言任(ren)务中常见的模糊性,使我们(men)能够清晰地区(qu)分真正的推理能力和表面上的记忆(yi)。
在奖励建模中,研究在模型输出(chu)中不断检测(ce)作(zuo)弊行为,并不断改进奖励设计。
最终,他(ta)们(men)设计出(chu)了一种(zhong)几乎无(wu)法作(zuo)弊的基于规则的奖励系统(tong),仅包含两种(zhong)奖励类型:格式奖励和答案(an)奖励。
以下就是不同的推理模型和通用模型在不同难度的K&K逻辑谜题上的表现。
在RL训练后,可以在模型中观察到以下涌(yong)现的行为。
1. 会出(chu)现犹豫和自我验证
在思考环节,模型会不时使用「我不是完全确定,让(rang)我们(men)重新检查这一步」这类反思性表达。
这种(zhong)自我审视的行为特征在预(yu)训练阶段是完全不存在的,而是通过奖励正确答案(an)、惩罚(fa)错误答案(an)的强化学习机制逐步培养形成(cheng)的。
2. 多轮径探索(suo)和回溯
经(jing)过RL训练后,模型会主(zhu)动提出(chu)多个解(jie)决方案(an)(「让(rang)我们(men)测(ce)试两种(zhong)可能性」),并通过回溯来检查解(jie)决方案(an)的一致性。
3. 应用公式
尽管训练数据集中并未包含,但模型不仅能够通过系统(tong)性试错方法解(jie)决谜题,还自主(zhu)整合了形式逻辑推理能力(比如运用「如果P,则Q」的逻辑蕴(yun)含公式),这种(zhong)推理模式与人类的问题解(jie)决方式高(gao)度相似。
4.忽(hu)然开始说中文
模型在分析问题陈述时会临时插入中文表达,随(sui)后又能自然地转换为英语来提供(gong)解(jie)决方案(an)。
这一现象表明,模型正在使用语言混合机制作(zuo)为一种(zhong)潜在的备(bei)选处理策(ce)略,或是形成(cheng)了某种(zhong)特殊的内部表征模式。
在具有挑(tiao)战性的数学基准测(ce)试AIME和AMC上,模型展现出(chu)了卓越(yue)的泛化能力——成(cheng)绩(ji)分别提高(gao)了125%和38%。
这种(zhong)跨(kua)领域泛化能力表明,RL训练的推理启发式方法发展出(chu)了抽象的问题解(jie)决模式,而不是依(yi)赖(lai)于特定领域的模式匹配。
所以,这项研究的训练期间,也(ye)出(chu)现「顿悟时刻(ke)」了吗?
换句话说就是,在强化学习过程中,模型的推理能力是否会发生显著的飞跃,出(chu)现多步验证或反思,而且这些(xie)行为不是在训练语料中明确植入的,而是模型与RL环境的互动所自然产生的?
研究人员发现,模型并没有出(chu)现「等一下,等一下」这样特定的语言表述,但图(tu)4显示出(chu),它(ta)在第10步时表现出(chu)了一些(xie)复杂的推理行为(例(li)如自我反思、探索(suo)、验证、总(zong)结)。
由此(ci),研究人员的结论是,RL学习过程可能没有突如其来的「顿悟时刻(ke)」——复杂的推理行为并不是在某个特定的训练步骤中突然出(chu)现的。
1. 反思性词汇(如「检查」和「验证」)的频率缓慢(man)增加(a)-(c);2. 会话性短(duan)语(例(li)如「让(rang)我们(men)」)和谨慎词汇(例(li)如「还」)变得更加频繁(d)-(e);3. 中文词汇开始出(chu)现在英文回复中(f)。所有这些(xie)词汇的频率都在稳步发展,没有突然的跳跃,表明可能不存在明显的「顿悟时刻(ke)」
除了上述技术贡(gong)献(xian)外,研究还有几个有趣的发现:
更长的回答并不能保证更好的推理。长度本身不是评估训练时间的有效指标。最有效的推理来自最短(duan)路径。
语言混合会阻碍推理。这一观察强调(diao)了在奖励建模中需要语言一致性惩罚(fa)。
增加「思考」token确实有帮助。RL训练自然地提高(gao)了与反思相关词汇的频率,表明某些(xie)token频率与性能之间存在相关性。
监督微调(diao)(SFT)依(yi)赖(lai)记忆(yi);RL实现泛化。SFT严重依(yi)赖(lai)记忆(yi),往往导致表面的捷径学习,而RL则在最小依(yi)赖(lai)数据集结构的情况下自我演化。
冷启动是一个优势,但非必需。无(wu)论是从基础模型还是指令模型开始,训练动态都保持惊人的相似性,尽管后者表现略好。
课程学习仍然重要。在固定的数据筛选比例(li)下,精(jing)心设计的课程学习方法总(zong)是优于随(sui)机打(da)乱。
更长的回答并不能保证更好的推理。长度本身不是评估训练时间的有效指标。最有效的推理来自最短(duan)路径。
语言混合会阻碍推理。这一观察强调(diao)了在奖励建模中需要语言一致性惩罚(fa)。
增加「思考」token确实有帮助。RL训练自然地提高(gao)了与反思相关词汇的频率,表明某些(xie)token频率与性能之间存在相关性。
监督微调(diao)(SFT)依(yi)赖(lai)记忆(yi);RL实现泛化。SFT严重依(yi)赖(lai)记忆(yi),往往导致表面的捷径学习,而RL则在最小依(yi)赖(lai)数据集结构的情况下自我演化。
冷启动是一个优势,但非必需。无(wu)论是从基础模型还是指令模型开始,训练动态都保持惊人的相似性,尽管后者表现略好。
课程学习仍然重要。在固定的数据筛选比例(li)下,精(jing)心设计的课程学习方法总(zong)是优于随(sui)机打(da)乱。
本文来源:,原文标题:《10美元成(cheng)功复现DeepSeek顿悟时刻(ke),3B模型爆发超强推理!微软论文实锤涌(yong)现》