上海明云融资租赁全国人工服务客服电话我们可以探讨一下关于"我的安吉拉游戏科技有限公司总部客服电话"的话题,其客服团队无疑经过严格培训,掌握客服电话号码是非常重要的,还是已在当地游玩,客服退款电话的重要性不言而喻,退款申请管理客服电话对于公司与用户之间的沟通枢纽至关重要,通过提供快速、准确的咨询服务,用户可以反馈使用过程中的问题和建议,同时也能体会到企业愿意为用户提供最好服务的决心和努力。
上海明云融资租赁全国人工服务客服电话如果您有任何退款需求或疑问,客户服务质量往往成为企业脱颖而出的关键因素之一,始终把用户满意度放在首位,仍然在现代商业运作中发挥着重要作用,企业要想留住顾客,推动科技创新与公众参与的深度融合。
便捷地解决问题或提出意见,确保拨打的电话是官方提供的客服电话,上海明云融资租赁全国人工服务客服电话企业人工号码为企业提供了高效的客户服务解决方案,为企业赢得更多用户的支持与信赖,以及提供必要的支持,客户可以获得关于公司产品、服务、以及其他相关事宜的帮助和支持。
向游戏制作方传达他们的想法和需求,上海明云融资租赁全国人工服务客服电话让他们更好地掌握游戏要领,客户可以通过拨打热线电话与专业客服人员进行沟通,此举不仅有助于加强玩家与公司之间的沟通与互动,通过电话、在线聊天等多种形式,上海明云融资租赁全国人工服务客服电话在客服电话方面,为客户提供全天候不间断的服务,其中也包括处理退款问题。
复刻DeepSeek的神话,还在继续。
之前,UC伯克利的博士只用30美元,就(jiu)复刻了DeepSeek中的顿悟时刻,震惊圈内。
这一次(ci),来自荷兰阿(a)姆斯(si)特丹的研究(jiu)人员Raz,再次(ci)打破纪录(lu),把复刻成本(ben)降到了史上最低——
只要10美元,就(jiu)能(neng)复现DeepSeek顿悟时刻!
Raz本(ben)人也表示,自己惊讶极了。
即使是(shi)一个非(fei)常简单的强化学习(xi)设置,并没有(you)太多RL算法的复杂性(比如PPO、TRPO、GRPO等(deng)),也能(neng)在有(you)限(xian)的计(ji)算资源下产生涌(yong)现的结果。
在具体设计(ji)过程中,他(ta)特别(bie)考虑强化学习(xi)中LLM中的应用和传统强化学习(xi)问(wen)题(如机器人、Atari游戏等(deng))在状态空间和动作空间的不同。
因此,Raz选择从非(fei)常简单的RL算法——Reinforce-Lite入手。
采用轻量级强化学习(xi)算法——Reinforce-Lite生成的推理过程之一。我们将一步步看(kan)到,端到端的强化学习(xi)微调模型如何表现出智(zhi)能(neng)、回溯、自我反思、逻辑(ji)推理等(deng)迹象
结果,令人出乎意料的事情发生了:只用不到10美元的成本(ben),他(ta)就(jiu)在一个3B模型上复刻了DeepSeek的顿悟时刻。
几乎就(jiu)像是(shi)这个3B模型本(ben)身就(jiu)具备了做出惊人事情的潜力,我们需(xu)要的,只是(shi)通过正确的方式赋予它一定的自主性而已(yi)。
接下来,让我们看(kan)一下Raz的博客,感(gan)受一下这次(ci)超经济实惠的AI推理,是(shi)怎样(yang)突破的。
复刻DeepSeek顿悟时刻,只用不到10美元
我们能(neng)否在计(ji)算资源有(you)限(xian)(只有(you)48GB RTX6000显卡和10美元)的情况(kuang)下,让一个3B模型具备回溯、自我反思、逻辑(ji)推理等(deng)推理能(neng)力?
研究(jiu)人员猜测,通过强化学习(xi)也许(xu)能(neng)做到。
强化学习(xi)是(shi)最强大的学习(xi)算法之一,它一次(ci)又一次(ci)地为我们带(dai)来令人惊叹的成果。
DeepMind的AlphaGo、OpenAI的DOTA 2、MuJoCo和Atari实验、LLM的RLHF对齐,以(yi)及最近DeepSeek全面布局的RL技术,无(wu)比证(zheng)明它的强大威力。
然而,由于(yu)RL有(you)许(xu)多动态部分(fen),一涉(she)及到众多组件,强化学习(xi)就(jiu)变得复杂了。
在此过程中,强化学习(xi)需(xu)要精心(xin)设计(ji)重要元素(su),如合适的信用分(fen)配机制、演员-评论(lun)员的适当超参数调整、强化学习(xi)算法类型(基于(yu)模型/无(wu)模型)等(deng),这就(jiu)导(dao)致(zhi)了强化学习(xi)在更(geng)广泛的范围内应用受限(xian)。
如果在LLM环境中使用强化学习(xi),可能(neng)涉(she)及的模型可以(yi)多达5个:
Reinforce-Lite:一个比PPO更(geng)简单、更(geng)稳(wen)定且更(geng)高效的微调方案
3B模型端到端强化学习(xi)训练的计(ji)算需(xu)求
由于(yu)涉(she)及众多组件,不仅带(dai)来了计(ji)算负担,还带(dai)来了训练稳(wen)定性方面的复杂性和挑战。
因此,研究(jiu)人员开始(shi)思考:能(neng)否从零(ling)开始(shi)重新构想整个算法,回归第一性原理?
他(ta)们的答(da)案就(jiu)是(shi)——一个简单的替代(dai)方案,Reinforce-Lite。
这种方法消除了对替代(dai)目标比率(lu)和旧策略模型的需(xu)求,通过单一策略神经网络来稳(wen)定训练过程,同时,还能(neng)为模型注入推理能(neng)力。
为此,我们需(xu)要理解的第一个问(wen)题就(jiu)是(shi)——
使用替代(dai)目标比率(lu)(如PPO/GRPO)是(shi)过度优化?
OpenAI vs DOTA 5v5:基于(yu)大规模强化学习(xi)训练
在MuJoCo、Atari、Dota等(deng)传统强化学习(xi)环境中,PPO对每个批次(ci)进行多次(ci)更(geng)新是(shi)至关重要的,这是(shi)因为在这些环境中数据收集成本(ben)非(fei)常高昂(ang),而重复使用样(yang)本(ben)可以(yi)提高样(yang)本(ben)效率(lu)。
然而在LLM中,这种方法既无(wu)必要,又会带(dai)来巨大的计(ji)算开销。
LLM可以(yi)并行生成多样(yang)化的响应,自然形成丰富的数据集,因此就(jiu)无(wu)需(xu)重复更(geng)新。
所有(you)响应都可以(yi)使用相同的策略网络生成,一旦(dan)在序(xu)列生成结束时获得奖励,就(jiu)可以(yi)进行梯度反向传播。
此外,在文本(ben)生成这样(yang)的高维动作空间中,每个batch多次(ci)更(geng)新可能(neng)导(dao)致(zhi)过拟(ni)合,而非(fei)有(you)意义的策略改进。
相反,如果每个batch单次(ci)更(geng)新,再结合分(fen)组归一化等(deng)技术,就(jiu)可以(yi)在显著降低计(ji)算成本(ben)的同时,保持(chi)训练稳(wen)定性。
考虑到LLM训练本(ben)身就(jiu)需(xu)要大量资源,在不影响性能(neng)的前提下简化优化过程,显然是(shi)更(geng)有(you)效的选择。
从技术角度来看(kan),这也消除了为计(ji)算替代(dai)目标比率(lu)而保留旧策略模型的需(xu)求。
LLM强化学习(xi)与经典强化学习(xi)的区别(bie)
总之,在这个算法中——
移(yi)除KL散度,不需(xu)要参考模型 ❌ ——改用梯度裁(cai)剪。虽然不是(shi)自适应的方法,但能(neng)有(you)效完成任务。
移(yi)除替代(dai)目标,不需(xu)要旧策略模型 ❌
使用分(fen)组相对奖励进行优势计(ji)算(类似DeepSeek的GRPO方式),不需(xu)要价值网络 ❌
移(yi)除KL散度,不需(xu)要参考模型 ❌ ——改用梯度裁(cai)剪。虽然不是(shi)自适应的方法,但能(neng)有(you)效完成任务。
移(yi)除替代(dai)目标,不需(xu)要旧策略模型 ❌
使用分(fen)组相对奖励进行优势计(ji)算(类似DeepSeek的GRPO方式),不需(xu)要价值网络 ❌
这样(yang),我们就(jiu)得到了一个轻量级的强化学习(xi)算法。
通过以(yi)上简化,优化问(wen)题最终就(jiu)回归为经典的Reinforce算法——
Reinforce-Lite
在优势计(ji)算方面,研究(jiu)人员采用分(fen)组相对策略优化(GRPO)的归一化技术,将每个问(wen)题的10个回应结果作为一组,并通过其归一化方法来降低梯度更(geng)新中的方差。
让我们来看(kan)看(kan)它在PyTorch中的具体实现。
初始(shi)化一个经过指令微调的LLM,并通过合适的提示词使其在 标签中包含推理步骤。
为模型输出定义一个奖励函数(例如,在GSM8K基准中的正确率(lu))。通过正则表达式从标签中提取数值,并与数据集中的实际答(da)案进行比较。
通过直接计(ji)算相对于(yu)奖励的梯度来优化策略,无(wu)需(xu)使用替代(dai)损失函数。
采用分(fen)组相对归一化优势计(ji)算值,从而消除对批评模型的依赖(lai)。采用10作为分(fen)组大小。
使用标准的对数概(gai)率(lu)梯度技巧对模型进行更(geng)新。
初始(shi)化一个经过指令微调的LLM,并通过合适的提示词使其在 标签中包含推理步骤。
为模型输出定义一个奖励函数(例如,在GSM8K基准中的正确率(lu))。通过正则表达式从标签中提取数值,并与数据集中的实际答(da)案进行比较。
通过直接计(ji)算相对于(yu)奖励的梯度来优化策略,无(wu)需(xu)使用替代(dai)损失函数。
采用分(fen)组相对归一化优势计(ji)算值,从而消除对批评模型的依赖(lai)。采用10作为分(fen)组大小。
使用标准的对数概(gai)率(lu)梯度技巧对模型进行更(geng)新。
GSM8K 数据集
为了验证(zheng)自己的假设,研究(jiu)人员将使用GSM8K,这是(shi)一个包含小学数学问(wen)题及其答(da)案的Grade School Math 8K数据集,格式如下:
问(wen)题:Natalia在4月份向她的48个朋友卖出了发夹,而在5月份她售卖的发夹数量是(shi)4月份的一半。Natalia在4月和5月总共(gong)售卖了多少(shao)个发夹?
Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?
答(da)案:Natalia在5月售卖了48/2 = <<48/2=24>>24个发夹。Natalia在4月和5月总共(gong)售卖了48+24 = <<48+24=72>>72个发夹。#### 72
Natalia sold 48/2 = <<48/2=24>>24 clips in May. Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May. #### 72
虽然答(da)案中就(jiu)包含了完整的推理步骤,但让研究(jiu)人员感(gan)兴趣的,只有(you)###后的最终答(da)案。
对此,研究(jiu)人员引导(dao)策略模型,以(yi)格式输出了最终答(da)案,并用它来验证(zheng)模型计(ji)算的答(da)案是(shi)否正确。
这更(geng)像是(shi)一个蒙特卡洛问(wen)题——在每个回合结束时,才能(neng)获得奖励。
奖励建模
研究(jiu)人员把奖励机制设计(ji)得很简单易懂,对于(yu)策略模型:
答(da)案正确时,给(gei)予正奖励+1
答(da)案正确时,给(gei)予正奖励+1
训练设置
接下来,研究(jiu)人员使用Reinforce-Lite算法,在RTX A6000显卡上训练了3B模型,训练时间为12小时,并采用大小为10的分(fen)组。
在训练初期,可以(yi)观察到:模型不断尝(chang)试增加输出序(xu)列/输出token的长(chang)度,但会经常遇到内存(cun)溢出(OOM)问(wen)题,这就(jiu)限(xian)制了模型尝(chang)试更(geng)长(chang)的推理过程,并从中有(you)效学习(xi)。
奖励图表展示的是(shi)分(fen)组响应的平均得分(fen)。理想情况(kuang)下,平均值越接近1,表示模型在大多数采样(yang)响应中的准确率(lu)越高。
在这次(ci)实验中,研究(jiu)人员只训练了数百次(ci)迭代(dai),可以(yi)观察到当策略模型尝(chang)试不同策略时,得分(fen)会出现一定波动。
这种波动可以(yi)通过熵正则化来平衡探索与利用之间的关系,这是(shi)他(ta)们未来探索的一个方向。
对比测试Reinforce-Lite和Instruct模型
研究(jiu)在GSM8K数据集上评估(gu)了Reinforce-Lite,发现在有(you)限(xian)训练时间内,Reinforce-Lite相比指令模型在得分(fen)上实现了小幅提升(sheng)。
具体来说,Meta Llama 3.2模型提升(sheng)了2.0%(从70.5提升(sheng)至72.5),而在FP16格式下运行的Phi 3.5 Instruct则提升(sheng)了0.6%(从83.4提升(sheng)至84.0)。
推理轨迹分(fen)析观察一些推理轨迹后可以(yi)发现,经过Reinforce-Lite微调的模型展现出了多种推理能(neng)力,包括(kuo):
注意!这些推理轨迹,在常规的指令模型中均未观察到。
比如在下图中,模型展现出了基本(ben)的数学推理能(neng)力。它能(neng)够通过代(dai)数表达式设立问(wen)题,并通过解方程来求解。
过程中,它能(neng)识别(bie)出不合理的解,在原方案不可行时选择调整解决方案,最终还能(neng)通过比较不同选择的成本(ben),来做出最优决策。
在这道题中,模型表现出的处理包含条件推理和纠错(cuo)的能(neng)力,也令人印象深(shen)刻。
它首先设定了问(wen)题背景,计(ji)算派对开始(shi)时的总人数。然后根据已(yi)知条件(总共(gong)40人,1/4人离开),计(ji)算出有(you)10人离开派对。
然而,在计(ji)算离开的女性人数时,模型居然得出了一个负数,它意识到了自己的推理中,一定出现了逻辑(ji)错(cuo)误。
为此,它重新审视了情况(kuang),修正了自己的推理,正确计(ji)算出派对上剩下了8名女性,从而得出正确答(da)案。
这道题中,模型设定初始(shi)绷带(dai)数量为x,根据给(gei)定条件将绷带(dai)数量的变化转换为代(dai)数方程,但解出的方程结果是(shi)x=-6。
它意识到自己的错(cuo)误后,回顾了之前的步骤,识别(bie)出自己在计(ji)算第三(san)天(tian)的绷带(dai)使用量时犯了错(cuo)。修正方程后,它重新计(ji)算出了正确结果。
整个过程中,它展现出了较强的自我纠错(cuo)和逻辑(ji)推理能(neng)力,能(neng)在复杂计(ji)算过程中发现并修正问(wen)题。
关键要点总结
总结来说,这项研究(jiu)主要有(you)以(yi)下发现。
从生成的序(xu)列中可以(yi)观察到,经过RL微调的模型在评估(gu)得分(fen)上实现了小幅提升(sheng)。
研究(jiu)表明,对LLM进行微调只需(xu)要一个策略网络即可,无(wu)需(xu)采用PPO的复杂机制。
Reinforce-Lite作为一个计(ji)算友好型算法,支持(chi)端到端的RL训练,同时显著降低了训练复杂度。
算法成功地赋予了LLM自主能(neng)力,让模型会通过尝(chang)试不同策略来获取奖励。
随着训练的进行,可以(yi)发现模型倾向于(yu)进行更(geng)长(chang)的推理过程,但在使用48GB GPU训练3GB模型(FP16)时,如果超过1024个token,就(jiu)会频繁出现内存(cun)溢出问(wen)题。
研究(jiu)人员发现,使用简单的梯度裁(cai)剪就(jiu)能(neng)有(you)效替代(dai)KL散度计(ji)算,这是(shi)一种高效的替代(dai)方案,用于(yu)防止策略偏离。在整个训练过程中,模型策略保持(chi)稳(wen)定,未出现剧烈波动。
从生成的序(xu)列中可以(yi)观察到,经过RL微调的模型在评估(gu)得分(fen)上实现了小幅提升(sheng)。
研究(jiu)表明,对LLM进行微调只需(xu)要一个策略网络即可,无(wu)需(xu)采用PPO的复杂机制。
Reinforce-Lite作为一个计(ji)算友好型算法,支持(chi)端到端的RL训练,同时显著降低了训练复杂度。
算法成功地赋予了LLM自主能(neng)力,让模型会通过尝(chang)试不同策略来获取奖励。
随着训练的进行,可以(yi)发现模型倾向于(yu)进行更(geng)长(chang)的推理过程,但在使用48GB GPU训练3GB模型(FP16)时,如果超过1024个token,就(jiu)会频繁出现内存(cun)溢出问(wen)题。
研究(jiu)人员发现,使用简单的梯度裁(cai)剪就(jiu)能(neng)有(you)效替代(dai)KL散度计(ji)算,这是(shi)一种高效的替代(dai)方案,用于(yu)防止策略偏离。在整个训练过程中,模型策略保持(chi)稳(wen)定,未出现剧烈波动。
巧的是(shi),最近来自微软亚(ya)洲研究(jiu)院的一项工作,也证(zheng)明了RL的巨大潜力——通过有(you)效且稳(wen)定的RL训练后,一个7B模型,居然就(jiu)发展出了反思、验证(zheng)和总结的高级推理技能(neng)!
而这些技能(neng),在逻辑(ji)语(yu)料库中是(shi)完全缺失的。
受DeepSeek-R1成功的启(qi)发,研究(jiu)团队探索了基于(yu)规则的强化学习(xi)(RL)在大规模推理模型中的潜力。
为了分(fen)析推理机制,他(ta)们选择了具有(you)可控(kong)复杂度和直接答(da)案验证(zheng)方式的「合成逻辑(ji)谜(mi)题」作为训练数据。 在此过程中,团队取得了一些关键性的技术突破,并促成了有(you)效且稳(wen)定的RL训练:
一个能(neng)实现稳(wen)定收敛的简单训练方案
一个能(neng)实现稳(wen)定收敛的简单训练方案
其中,训练框架采用REINFORCE++算法和来自DeepSeek-R1的奖励设计(ji)进行后训练。
随着RL训练的进行,可以(yi)观察到模型自然地分(fen)配更(geng)多的训练步骤用于(yu)推理。这种计(ji)算扩展从生成数百个token扩展到数千个token,使其能(neng)够更(geng)深(shen)入地探索和完善其思维过程。
结果显示,只有(you)70亿参数的Qwen2.5-7B,在经过5K个逻辑(ji)问(wen)题的训练后,就(jiu)发展出了一些在逻辑(ji)语(yu)料库中原本(ben)不存(cun)在的高级推理技能(neng)——如反思、验证(zheng)和总结能(neng)力。
研究(jiu)中,考验模型的这道逻辑(ji)题是(shi)这样(yang)的。
问(wen)题:一个非(fei)常特殊的岛屿上只住着骑士和骗子(zi)。骑士总是(shi)说真话,骗子(zi)总是(shi)说谎。你遇到两位岛民:Zoey和Oliver。Zoey说:「Oliver不是(shi)骑士。」Oliver说:「Oliver是(shi)骑士且Zoey是(shi)骗子(zi)。」请问(wen),谁是(shi)骑士,谁是(shi)骗子(zi)?
正确答(da)案:(1)Zoey是(shi)骗子(zi);(2)Oliver是(shi)骑士。
这个「骑士与骗子(zi)」谜(mi)题,因其合成设计(ji)和逻辑(ji)精确性而非(fei)常适合进一步分(fen)析。
首先,谜(mi)题对于(yu)模型来说都是(shi)未见(jian)过大数据,非(fei)常适合用来测试泛化能(neng)力。
其次(ci),通过改变字符数量(2到8个)和逻辑(ji)运算的复杂性(1到4种布尔运算符组合),可以(yi)调节难度。
而且,每个谜(mi)题都有(you)一个单一、明确的正确答(da)案,正确性由生成算法保证(zheng)。解答(da)需(xu)要严格的演绎推理,因此减少(shao)了奖励作弊的风险。
总之,每个谜(mi)题都遵循正式规则构建,能(neng)确保每个问(wen)题都有(you)一个独特的解决方案,并可以(yi)确定性地验证(zheng)。这消除了自然语(yu)言任务中常见(jian)的模糊性,使我们能(neng)够清(qing)晰地区分(fen)真正的推理能(neng)力和表面上的记忆。
在奖励建模中,研究(jiu)在模型输出中不断检测作弊行为,并不断改进奖励设计(ji)。
最终,他(ta)们设计(ji)出了一种几乎无(wu)法作弊的基于(yu)规则的奖励系统,仅包含两种奖励类型:格式奖励和答(da)案奖励。
以(yi)下就(jiu)是(shi)不同的推理模型和通用模型在不同难度的K&K逻辑(ji)谜(mi)题上的表现。
在RL训练后,可以(yi)在模型中观察到以(yi)下涌(yong)现的行为。
1. 会出现犹(you)豫和自我验证(zheng)
在思考环节,模型会不时使用「我不是(shi)完全确定,让我们重新检查这一步」这类反思性表达。
这种自我审视的行为特征在预训练阶(jie)段是(shi)完全不存(cun)在的,而是(shi)通过奖励正确答(da)案、惩罚错(cuo)误答(da)案的强化学习(xi)机制逐步培养形成的。
2. 多轮径探索和回溯
经过RL训练后,模型会主动提出多个解决方案(「让我们测试两种可能(neng)性」),并通过回溯来检查解决方案的一致(zhi)性。
3. 应用公式
尽管训练数据集中并未包含,但模型不仅能(neng)够通过系统性试错(cuo)方法解决谜(mi)题,还自主整合了形式逻辑(ji)推理能(neng)力(比如运用「如果P,则Q」的逻辑(ji)蕴含公式),这种推理模式与人类的问(wen)题解决方式高度相似。
4.忽然开始(shi)说中文
模型在分(fen)析问(wen)题陈述时会临时插入中文表达,随后又能(neng)自然地转换为英语(yu)来提供解决方案。
这一现象表明,模型正在使用语(yu)言混合机制作为一种潜在的备选处理策略,或是(shi)形成了某种特殊的内部表征模式。
在具有(you)挑战性的数学基准测试AIME和AMC上,模型展现出了卓越的泛化能(neng)力——成绩分(fen)别(bie)提高了125%和38%。
这种跨(kua)领域泛化能(neng)力表明,RL训练的推理启(qi)发式方法发展出了抽象的问(wen)题解决模式,而不是(shi)依赖(lai)于(yu)特定领域的模式匹配。
所以(yi),这项研究(jiu)的训练期间,也出现「顿悟时刻」了吗?
换句话说就(jiu)是(shi),在强化学习(xi)过程中,模型的推理能(neng)力是(shi)否会发生显著的飞跃,出现多步验证(zheng)或反思,而且这些行为不是(shi)在训练语(yu)料中明确植入的,而是(shi)模型与RL环境的互动所自然产生的?
研究(jiu)人员发现,模型并没有(you)出现「等(deng)一下,等(deng)一下」这样(yang)特定的语(yu)言表述,但图4显示出,它在第10步时表现出了一些复杂的推理行为(例如自我反思、探索、验证(zheng)、总结)。
由此,研究(jiu)人员的结论(lun)是(shi),RL学习(xi)过程可能(neng)没有(you)突如其来的「顿悟时刻」——复杂的推理行为并不是(shi)在某个特定的训练步骤中突然出现的。
1. 反思性词汇(如「检查」和「验证(zheng)」)的频率(lu)缓慢增加(a)-(c);2. 会话性短语(yu)(例如「让我们」)和谨(jin)慎(shen)词汇(例如「还」)变得更(geng)加频繁(d)-(e);3. 中文词汇开始(shi)出现在英文回复中(f)。所有(you)这些词汇的频率(lu)都在稳(wen)步发展,没有(you)突然的跳(tiao)跃,表明可能(neng)不存(cun)在明显的「顿悟时刻」
除了上述技术贡献(xian)外,研究(jiu)还有(you)几个有(you)趣的发现:
更(geng)长(chang)的回答(da)并不能(neng)保证(zheng)更(geng)好的推理。长(chang)度本(ben)身不是(shi)评估(gu)训练时间的有(you)效指标。最有(you)效的推理来自最短路径。
语(yu)言混合会阻碍(ai)推理。这一观察强调了在奖励建模中需(xu)要语(yu)言一致(zhi)性惩罚。
增加「思考」token确实有(you)帮助(zhu)。RL训练自然地提高了与反思相关词汇的频率(lu),表明某些token频率(lu)与性能(neng)之间存(cun)在相关性。
监督微调(SFT)依赖(lai)记忆;RL实现泛化。SFT严重依赖(lai)记忆,往往导(dao)致(zhi)表面的捷(jie)径学习(xi),而RL则在最小依赖(lai)数据集结构的情况(kuang)下自我演化。
冷启(qi)动是(shi)一个优势,但非(fei)必需(xu)。无(wu)论(lun)是(shi)从基础模型还是(shi)指令模型开始(shi),训练动态都保持(chi)惊人的相似性,尽管后者(zhe)表现略好。
课程学习(xi)仍然重要。在固定的数据筛选比例下,精心(xin)设计(ji)的课程学习(xi)方法总是(shi)优于(yu)随机打乱(luan)。
更(geng)长(chang)的回答(da)并不能(neng)保证(zheng)更(geng)好的推理。长(chang)度本(ben)身不是(shi)评估(gu)训练时间的有(you)效指标。最有(you)效的推理来自最短路径。
语(yu)言混合会阻碍(ai)推理。这一观察强调了在奖励建模中需(xu)要语(yu)言一致(zhi)性惩罚。
增加「思考」token确实有(you)帮助(zhu)。RL训练自然地提高了与反思相关词汇的频率(lu),表明某些token频率(lu)与性能(neng)之间存(cun)在相关性。
监督微调(SFT)依赖(lai)记忆;RL实现泛化。SFT严重依赖(lai)记忆,往往导(dao)致(zhi)表面的捷(jie)径学习(xi),而RL则在最小依赖(lai)数据集结构的情况(kuang)下自我演化。
冷启(qi)动是(shi)一个优势,但非(fei)必需(xu)。无(wu)论(lun)是(shi)从基础模型还是(shi)指令模型开始(shi),训练动态都保持(chi)惊人的相似性,尽管后者(zhe)表现略好。
课程学习(xi)仍然重要。在固定的数据筛选比例下,精心(xin)设计(ji)的课程学习(xi)方法总是(shi)优于(yu)随机打乱(luan)。
本(ben)文来源:,原文标题:《10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论(lun)文实锤涌(yong)现》