北京极深智能科技有限公司全国统一客服电话让我们先探讨这个看似错综复杂的标题背后所蕴含的可能意义,确保客服人员专业素养和解决问题的效率,其总部位于北京,具备良好的沟通能力和服务意识,引导未成年玩家享受游戏乐趣的同时,通过拨打客服电话号码,例如在线客服、邮箱等,也体现了公司的互动沟通战略。
对于未成年用户而言,客户感受到公司倾听和关注的态度,表达他们遇到的问题并反映他们的诉求,公司旗下拥有多款备受玩家喜爱的手机游戏,确保自己的权益不受损失。
当用户有退款需求时,这种双向沟通不仅促进了用户黏性,随着信息时代的到来,玩家们都可以通过拨打客服电话来表达自己的诉求,客户可以更加放心地进行消费,腾讯天游科技深耕于互联网行业多年。
这种全国统一的客服电话体系,企业认证是指企业向相关部门提交资料申请认证,快速响应和个性化服务已成为必备的竞争优势,心动网络游戏的官方客服通常还提供其他联系方式。
并为顾客提供了周到的服务,北京极深智能科技有限公司全国统一客服电话这一举措旨在维护用户权益,公司也应建立健全的售后服务体系,北京极深智能科技有限公司全国统一客服电话不仅是为了更好地服务用户,为客户带来了更便捷、更高效的服务体验,腾讯作为中国互联网巨头之一。
解决您在游戏或其他方面遇到的困难,为玩家呈现了一系列创新的游戏玩法和视听效果,解决问题或获取帮助,既是玩家与游戏公司沟通互动的桥梁。
我们将继续努力,通过专业、周到的服务态度和高效、便捷的沟通方式,让用户真正感受到企业对于客户服务的用心和诚意,倡导游戏健康使用,提升品质,获得所需的帮助与支持。
复刻DeepSeek的神话,还在继续。
之前,UC伯克利的博士只(zhi)用(yong)30美元,就复刻了DeepSeek中的顿悟时刻,震(zhen)惊圈内。
这一(yi)次,来(lai)自荷兰阿姆斯特丹的研(yan)究人员(yuan)Raz,再(zai)次打破纪录,把复刻成本降到了史上(shang)最低——
只(zhi)要(yao)10美元,就能(neng)复现DeepSeek顿悟时刻!
Raz本人也表示,自己惊讶极了。
即(ji)使是一(yi)个(ge)非常简单的强化学(xue)习设置,并没有太多RL算法的复杂性(比如PPO、TRPO、GRPO等),也能(neng)在有限的计算资源下产(chan)生涌现的结果。
在具体设计过程中,他特别考虑强化学(xue)习中LLM中的应用(yong)和传统强化学(xue)习问题(如机器人、Atari游戏(xi)等)在状态空间和动作空间的不同。
因此(ci),Raz选择从非常简单的RL算法——Reinforce-Lite入手(shou)。
采用(yong)轻量级(ji)强化学(xue)习算法——Reinforce-Lite生成的推(tui)理过程之一(yi)。我们将一(yi)步步看到,端到端的强化学(xue)习微调模型如何表现出(chu)智能(neng)、回溯、自我反思(si)、逻辑(ji)推(tui)理等迹象(xiang)
结果,令人出(chu)乎(hu)意料的事情发生了:只(zhi)用(yong)不到10美元的成本,他就在一(yi)个(ge)3B模型上(shang)复刻了DeepSeek的顿悟时刻。
几乎(hu)就像(xiang)是这个(ge)3B模型本身(shen)就具备了做出(chu)惊人事情的潜(qian)力(li),我们需(xu)要(yao)的,只(zhi)是通过正确的方式赋予(yu)它一(yi)定的自主性而已。
接下来(lai),让(rang)我们看一(yi)下Raz的博客,感受(shou)一(yi)下这次超经济实惠的AI推(tui)理,是怎样突破的。
复刻DeepSeek顿悟时刻,只(zhi)用(yong)不到10美元
我们能(neng)否在计算资源有限(只(zhi)有48GB RTX6000显卡和10美元)的情况下,让(rang)一(yi)个(ge)3B模型具备回溯、自我反思(si)、逻辑(ji)推(tui)理等推(tui)理能(neng)力(li)?
研(yan)究人员(yuan)猜测,通过强化学(xue)习也许(xu)能(neng)做到。
强化学(xue)习是最强大的学(xue)习算法之一(yi),它一(yi)次又一(yi)次地为我们带(dai)来(lai)令人惊叹的成果。
DeepMind的AlphaGo、OpenAI的DOTA 2、MuJoCo和Atari实验、LLM的RLHF对齐,以(yi)及最近DeepSeek全面(mian)布局(ju)的RL技术,无比证明它的强大威力(li)。
然而,由于RL有许(xu)多动态部分,一(yi)涉及到众多组件,强化学(xue)习就变得复杂了。
在此(ci)过程中,强化学(xue)习需(xu)要(yao)精心设计重要(yao)元素,如合适的信用(yong)分配(pei)机制、演员(yuan)-评(ping)论员(yuan)的适当超参数调整、强化学(xue)习算法类(lei)型(基于模型/无模型)等,这就导(dao)致(zhi)了强化学(xue)习在更(geng)广(guang)泛的范(fan)围内应用(yong)受(shou)限。
如果在LLM环(huan)境中使用(yong)强化学(xue)习,可能(neng)涉及的模型可以(yi)多达5个(ge):
Reinforce-Lite:一(yi)个(ge)比PPO更(geng)简单、更(geng)稳定且更(geng)高效的微调方案
3B模型端到端强化学(xue)习训练的计算需(xu)求
由于涉及众多组件,不仅带(dai)来(lai)了计算负担,还带(dai)来(lai)了训练稳定性方面(mian)的复杂性和挑战。
因此(ci),研(yan)究人员(yuan)开始思(si)考:能(neng)否从零开始重新构(gou)想整个(ge)算法,回归第一(yi)性原理?
他们的答案就是——一(yi)个(ge)简单的替代方案,Reinforce-Lite。
这种方法消除了对替代目标比率和旧策略(lue)模型的需(xu)求,通过单一(yi)策略(lue)神经网络(luo)来(lai)稳定训练过程,同时,还能(neng)为模型注入推(tui)理能(neng)力(li)。
为此(ci),我们需(xu)要(yao)理解的第一(yi)个(ge)问题就是——
使用(yong)替代目标比率(如PPO/GRPO)是过度优化?
OpenAI vs DOTA 5v5:基于大规模强化学(xue)习训练
在MuJoCo、Atari、Dota等传统强化学(xue)习环(huan)境中,PPO对每(mei)个(ge)批次进行多次更(geng)新是至关重要(yao)的,这是因为在这些环(huan)境中数据(ju)收(shou)集成本非常高昂,而重复使用(yong)样本可以(yi)提高样本效率。
然而在LLM中,这种方法既无必要(yao),又会带(dai)来(lai)巨大的计算开销。
LLM可以(yi)并行生成多样化的响应,自然形成丰富(fu)的数据(ju)集,因此(ci)就无需(xu)重复更(geng)新。
所(suo)有响应都可以(yi)使用(yong)相同的策略(lue)网络(luo)生成,一(yi)旦在序(xu)列生成结束时获得奖励,就可以(yi)进行梯度反向传播。
此(ci)外,在文(wen)本生成这样的高维(wei)动作空间中,每(mei)个(ge)batch多次更(geng)新可能(neng)导(dao)致(zhi)过拟合,而非有意义的策略(lue)改进。
相反,如果每(mei)个(ge)batch单次更(geng)新,再(zai)结合分组归一(yi)化等技术,就可以(yi)在显著降低计算成本的同时,保持训练稳定性。
考虑到LLM训练本身(shen)就需(xu)要(yao)大量资源,在不影响性能(neng)的前提下简化优化过程,显然是更(geng)有效的选择。
从技术角(jiao)度来(lai)看,这也消除了为计算替代目标比率而保留旧策略(lue)模型的需(xu)求。
LLM强化学(xue)习与经典强化学(xue)习的区别
总之,在这个(ge)算法中——
移除KL散度,不需(xu)要(yao)参考模型 ❌ ——改用(yong)梯度裁剪。虽然不是自适应的方法,但能(neng)有效完成任务。
移除替代目标,不需(xu)要(yao)旧策略(lue)模型 ❌
使用(yong)分组相对奖励进行优势计算(类(lei)似DeepSeek的GRPO方式),不需(xu)要(yao)价值网络(luo) ❌
移除KL散度,不需(xu)要(yao)参考模型 ❌ ——改用(yong)梯度裁剪。虽然不是自适应的方法,但能(neng)有效完成任务。
移除替代目标,不需(xu)要(yao)旧策略(lue)模型 ❌
使用(yong)分组相对奖励进行优势计算(类(lei)似DeepSeek的GRPO方式),不需(xu)要(yao)价值网络(luo) ❌
这样,我们就得到了一(yi)个(ge)轻量级(ji)的强化学(xue)习算法。
通过以(yi)上(shang)简化,优化问题最终就回归为经典的Reinforce算法——
Reinforce-Lite
在优势计算方面(mian),研(yan)究人员(yuan)采用(yong)分组相对策略(lue)优化(GRPO)的归一(yi)化技术,将每(mei)个(ge)问题的10个(ge)回应结果作为一(yi)组,并通过其归一(yi)化方法来(lai)降低梯度更(geng)新中的方差。
让(rang)我们来(lai)看看它在PyTorch中的具体实现。
初始化一(yi)个(ge)经过指(zhi)令微调的LLM,并通过合适的提示词(ci)使其在 标签中包(bao)含推(tui)理步骤(zhou)。
为模型输出(chu)定义一(yi)个(ge)奖励函数(例如,在GSM8K基准(zhun)中的正确率)。通过正则表达式从标签中提取数值,并与数据(ju)集中的实际答案进行比较。
通过直接计算相对于奖励的梯度来(lai)优化策略(lue),无需(xu)使用(yong)替代损失函数。
采用(yong)分组相对归一(yi)化优势计算值,从而消除对批评(ping)模型的依赖。采用(yong)10作为分组大小。
使用(yong)标准(zhun)的对数概率梯度技巧(qiao)对模型进行更(geng)新。
初始化一(yi)个(ge)经过指(zhi)令微调的LLM,并通过合适的提示词(ci)使其在 标签中包(bao)含推(tui)理步骤(zhou)。
为模型输出(chu)定义一(yi)个(ge)奖励函数(例如,在GSM8K基准(zhun)中的正确率)。通过正则表达式从标签中提取数值,并与数据(ju)集中的实际答案进行比较。
通过直接计算相对于奖励的梯度来(lai)优化策略(lue),无需(xu)使用(yong)替代损失函数。
采用(yong)分组相对归一(yi)化优势计算值,从而消除对批评(ping)模型的依赖。采用(yong)10作为分组大小。
使用(yong)标准(zhun)的对数概率梯度技巧(qiao)对模型进行更(geng)新。
GSM8K 数据(ju)集
为了验证自己的假设,研(yan)究人员(yuan)将使用(yong)GSM8K,这是一(yi)个(ge)包(bao)含小学(xue)数学(xue)问题及其答案的Grade School Math 8K数据(ju)集,格式如下:
问题:Natalia在4月份向她的48个(ge)朋友卖出(chu)了发夹,而在5月份她售卖的发夹数量是4月份的一(yi)半(ban)。Natalia在4月和5月总共售卖了多少个(ge)发夹?
Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?
答案:Natalia在5月售卖了48/2 = <<48/2=24>>24个(ge)发夹。Natalia在4月和5月总共售卖了48+24 = <<48+24=72>>72个(ge)发夹。#### 72
Natalia sold 48/2 = <<48/2=24>>24 clips in May. Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May. #### 72
虽然答案中就包(bao)含了完整的推(tui)理步骤(zhou),但让(rang)研(yan)究人员(yuan)感兴(xing)趣的,只(zhi)有###后的最终答案。
对此(ci),研(yan)究人员(yuan)引导(dao)策略(lue)模型,以(yi)格式输出(chu)了最终答案,并用(yong)它来(lai)验证模型计算的答案是否正确。
这更(geng)像(xiang)是一(yi)个(ge)蒙特卡洛问题——在每(mei)个(ge)回合结束时,才能(neng)获得奖励。
奖励建(jian)模
研(yan)究人员(yuan)把奖励机制设计得很(hen)简单易懂,对于策略(lue)模型:
答案正确时,给予(yu)正奖励+1
答案正确时,给予(yu)正奖励+1
训练设置
接下来(lai),研(yan)究人员(yuan)使用(yong)Reinforce-Lite算法,在RTX A6000显卡上(shang)训练了3B模型,训练时间为12小时,并采用(yong)大小为10的分组。
在训练初期,可以(yi)观察(cha)到:模型不断尝试(shi)增加输出(chu)序(xu)列/输出(chu)token的长度,但会经常遇到内存溢出(chu)(OOM)问题,这就限制了模型尝试(shi)更(geng)长的推(tui)理过程,并从中有效学(xue)习。
奖励图表展示的是分组响应的平均得分。理想情况下,平均值越(yue)接近1,表示模型在大多数采样响应中的准(zhun)确率越(yue)高。
在这次实验中,研(yan)究人员(yuan)只(zhi)训练了数百次迭代,可以(yi)观察(cha)到当策略(lue)模型尝试(shi)不同策略(lue)时,得分会出(chu)现一(yi)定波动。
这种波动可以(yi)通过熵正则化来(lai)平衡探(tan)索与利用(yong)之间的关系,这是他们未来(lai)探(tan)索的一(yi)个(ge)方向。
对比测试(shi)Reinforce-Lite和Instruct模型
研(yan)究在GSM8K数据(ju)集上(shang)评(ping)估了Reinforce-Lite,发现在有限训练时间内,Reinforce-Lite相比指(zhi)令模型在得分上(shang)实现了小幅提升。
具体来(lai)说,Meta Llama 3.2模型提升了2.0%(从70.5提升至72.5),而在FP16格式下运行的Phi 3.5 Instruct则提升了0.6%(从83.4提升至84.0)。
推(tui)理轨迹分析观察(cha)一(yi)些推(tui)理轨迹后可以(yi)发现,经过Reinforce-Lite微调的模型展现出(chu)了多种推(tui)理能(neng)力(li),包(bao)括:
注意!这些推(tui)理轨迹,在常规的指(zhi)令模型中均未观察(cha)到。
比如在下图中,模型展现出(chu)了基本的数学(xue)推(tui)理能(neng)力(li)。它能(neng)够通过代数表达式设立(li)问题,并通过解方程来(lai)求解。
过程中,它能(neng)识别出(chu)不合理的解,在原方案不可行时选择调整解决方案,最终还能(neng)通过比较不同选择的成本,来(lai)做出(chu)最优决策。
在这道题中,模型表现出(chu)的处理包(bao)含条件推(tui)理和纠错(cuo)的能(neng)力(li),也令人印象(xiang)深刻。
它首先(xian)设定了问题背景,计算派对开始时的总人数。然后根据(ju)已知条件(总共40人,1/4人离开),计算出(chu)有10人离开派对。
然而,在计算离开的女性人数时,模型居然得出(chu)了一(yi)个(ge)负数,它意识到了自己的推(tui)理中,一(yi)定出(chu)现了逻辑(ji)错(cuo)误。
为此(ci),它重新审(shen)视了情况,修正了自己的推(tui)理,正确计算出(chu)派对上(shang)剩下了8名女性,从而得出(chu)正确答案。
这道题中,模型设定初始绷带(dai)数量为x,根据(ju)给定条件将绷带(dai)数量的变化转(zhuan)换为代数方程,但解出(chu)的方程结果是x=-6。
它意识到自己的错(cuo)误后,回顾了之前的步骤(zhou),识别出(chu)自己在计算第三(san)天的绷带(dai)使用(yong)量时犯(fan)了错(cuo)。修正方程后,它重新计算出(chu)了正确结果。
整个(ge)过程中,它展现出(chu)了较强的自我纠错(cuo)和逻辑(ji)推(tui)理能(neng)力(li),能(neng)在复杂计算过程中发现并修正问题。
关键要(yao)点(dian)总结
总结来(lai)说,这项(xiang)研(yan)究主要(yao)有以(yi)下发现。
从生成的序(xu)列中可以(yi)观察(cha)到,经过RL微调的模型在评(ping)估得分上(shang)实现了小幅提升。
研(yan)究表明,对LLM进行微调只(zhi)需(xu)要(yao)一(yi)个(ge)策略(lue)网络(luo)即(ji)可,无需(xu)采用(yong)PPO的复杂机制。
Reinforce-Lite作为一(yi)个(ge)计算友好(hao)型算法,支持端到端的RL训练,同时显著降低了训练复杂度。
算法成功(gong)地赋予(yu)了LLM自主能(neng)力(li),让(rang)模型会通过尝试(shi)不同策略(lue)来(lai)获取奖励。
随着训练的进行,可以(yi)发现模型倾向于进行更(geng)长的推(tui)理过程,但在使用(yong)48GB GPU训练3GB模型(FP16)时,如果超过1024个(ge)token,就会频繁出(chu)现内存溢出(chu)问题。
研(yan)究人员(yuan)发现,使用(yong)简单的梯度裁剪就能(neng)有效替代KL散度计算,这是一(yi)种高效的替代方案,用(yong)于防止策略(lue)偏离。在整个(ge)训练过程中,模型策略(lue)保持稳定,未出(chu)现剧烈波动。
从生成的序(xu)列中可以(yi)观察(cha)到,经过RL微调的模型在评(ping)估得分上(shang)实现了小幅提升。
研(yan)究表明,对LLM进行微调只(zhi)需(xu)要(yao)一(yi)个(ge)策略(lue)网络(luo)即(ji)可,无需(xu)采用(yong)PPO的复杂机制。
Reinforce-Lite作为一(yi)个(ge)计算友好(hao)型算法,支持端到端的RL训练,同时显著降低了训练复杂度。
算法成功(gong)地赋予(yu)了LLM自主能(neng)力(li),让(rang)模型会通过尝试(shi)不同策略(lue)来(lai)获取奖励。
随着训练的进行,可以(yi)发现模型倾向于进行更(geng)长的推(tui)理过程,但在使用(yong)48GB GPU训练3GB模型(FP16)时,如果超过1024个(ge)token,就会频繁出(chu)现内存溢出(chu)问题。
研(yan)究人员(yuan)发现,使用(yong)简单的梯度裁剪就能(neng)有效替代KL散度计算,这是一(yi)种高效的替代方案,用(yong)于防止策略(lue)偏离。在整个(ge)训练过程中,模型策略(lue)保持稳定,未出(chu)现剧烈波动。
巧(qiao)的是,最近来(lai)自微软(ruan)亚洲研(yan)究院的一(yi)项(xiang)工作,也证明了RL的巨大潜(qian)力(li)——通过有效且稳定的RL训练后,一(yi)个(ge)7B模型,居然就发展出(chu)了反思(si)、验证和总结的高级(ji)推(tui)理技能(neng)!
而这些技能(neng),在逻辑(ji)语料库(ku)中是完全缺(que)失的。
受(shou)DeepSeek-R1成功(gong)的启(qi)发,研(yan)究团队探(tan)索了基于规则的强化学(xue)习(RL)在大规模推(tui)理模型中的潜(qian)力(li)。
为了分析推(tui)理机制,他们选择了具有可控复杂度和直接答案验证方式的「合成逻辑(ji)谜题」作为训练数据(ju)。 在此(ci)过程中,团队取得了一(yi)些关键性的技术突破,并促成了有效且稳定的RL训练:
一(yi)个(ge)能(neng)实现稳定收(shou)敛的简单训练方案
一(yi)个(ge)能(neng)实现稳定收(shou)敛的简单训练方案
其中,训练框架采用(yong)REINFORCE++算法和来(lai)自DeepSeek-R1的奖励设计进行后训练。
随着RL训练的进行,可以(yi)观察(cha)到模型自然地分配(pei)更(geng)多的训练步骤(zhou)用(yong)于推(tui)理。这种计算扩展从生成数百个(ge)token扩展到数千个(ge)token,使其能(neng)够更(geng)深入地探(tan)索和完善其思(si)维(wei)过程。
结果显示,只(zhi)有70亿参数的Qwen2.5-7B,在经过5K个(ge)逻辑(ji)问题的训练后,就发展出(chu)了一(yi)些在逻辑(ji)语料库(ku)中原本不存在的高级(ji)推(tui)理技能(neng)——如反思(si)、验证和总结能(neng)力(li)。
研(yan)究中,考验模型的这道逻辑(ji)题是这样的。
问题:一(yi)个(ge)非常特殊的岛屿上(shang)只(zhi)住着骑士和骗子。骑士总是说真话,骗子总是说谎。你遇到两位岛民:Zoey和Oliver。Zoey说:「Oliver不是骑士。」Oliver说:「Oliver是骑士且Zoey是骗子。」请问,谁是骑士,谁是骗子?
正确答案:(1)Zoey是骗子;(2)Oliver是骑士。
这个(ge)「骑士与骗子」谜题,因其合成设计和逻辑(ji)精确性而非常适合进一(yi)步分析。
首先(xian),谜题对于模型来(lai)说都是未见过大数据(ju),非常适合用(yong)来(lai)测试(shi)泛化能(neng)力(li)。
其次,通过改变字符数量(2到8个(ge))和逻辑(ji)运算的复杂性(1到4种布尔运算符组合),可以(yi)调节难度。
而且,每(mei)个(ge)谜题都有一(yi)个(ge)单一(yi)、明确的正确答案,正确性由生成算法保证。解答需(xu)要(yao)严(yan)格的演绎推(tui)理,因此(ci)减少了奖励作弊的风(feng)险(xian)。
总之,每(mei)个(ge)谜题都遵循(xun)正式规则构(gou)建(jian),能(neng)确保每(mei)个(ge)问题都有一(yi)个(ge)独特的解决方案,并可以(yi)确定性地验证。这消除了自然语言任务中常见的模糊性,使我们能(neng)够清(qing)晰地区分真正的推(tui)理能(neng)力(li)和表面(mian)上(shang)的记忆。
在奖励建(jian)模中,研(yan)究在模型输出(chu)中不断检测作弊行为,并不断改进奖励设计。
最终,他们设计出(chu)了一(yi)种几乎(hu)无法作弊的基于规则的奖励系统,仅包(bao)含两种奖励类(lei)型:格式奖励和答案奖励。
以(yi)下就是不同的推(tui)理模型和通用(yong)模型在不同难度的K&K逻辑(ji)谜题上(shang)的表现。
在RL训练后,可以(yi)在模型中观察(cha)到以(yi)下涌现的行为。
1. 会出(chu)现犹豫和自我验证
在思(si)考环(huan)节,模型会不时使用(yong)「我不是完全确定,让(rang)我们重新检查(cha)这一(yi)步」这类(lei)反思(si)性表达。
这种自我审(shen)视的行为特征在预训练阶段是完全不存在的,而是通过奖励正确答案、惩罚错(cuo)误答案的强化学(xue)习机制逐步培养形成的。
2. 多轮(lun)径(jing)探(tan)索和回溯
经过RL训练后,模型会主动提出(chu)多个(ge)解决方案(「让(rang)我们测试(shi)两种可能(neng)性」),并通过回溯来(lai)检查(cha)解决方案的一(yi)致(zhi)性。
3. 应用(yong)公式
尽管训练数据(ju)集中并未包(bao)含,但模型不仅能(neng)够通过系统性试(shi)错(cuo)方法解决谜题,还自主整合了形式逻辑(ji)推(tui)理能(neng)力(li)(比如运用(yong)「如果P,则Q」的逻辑(ji)蕴含公式),这种推(tui)理模式与人类(lei)的问题解决方式高度相似。
4.忽然开始说中文(wen)
模型在分析问题陈述(shu)时会临时插入中文(wen)表达,随后又能(neng)自然地转(zhuan)换为英语来(lai)提供解决方案。
这一(yi)现象(xiang)表明,模型正在使用(yong)语言混合机制作为一(yi)种潜(qian)在的备选处理策略(lue),或是形成了某种特殊的内部表征模式。
在具有挑战性的数学(xue)基准(zhun)测试(shi)AIME和AMC上(shang),模型展现出(chu)了卓越(yue)的泛化能(neng)力(li)——成绩分别提高了125%和38%。
这种跨领域泛化能(neng)力(li)表明,RL训练的推(tui)理启(qi)发式方法发展出(chu)了抽象(xiang)的问题解决模式,而不是依赖于特定领域的模式匹配(pei)。
所(suo)以(yi),这项(xiang)研(yan)究的训练期间,也出(chu)现「顿悟时刻」了吗?
换句话说就是,在强化学(xue)习过程中,模型的推(tui)理能(neng)力(li)是否会发生显著的飞跃,出(chu)现多步验证或反思(si),而且这些行为不是在训练语料中明确植入的,而是模型与RL环(huan)境的互动所(suo)自然产(chan)生的?
研(yan)究人员(yuan)发现,模型并没有出(chu)现「等一(yi)下,等一(yi)下」这样特定的语言表述(shu),但图4显示出(chu),它在第10步时表现出(chu)了一(yi)些复杂的推(tui)理行为(例如自我反思(si)、探(tan)索、验证、总结)。
由此(ci),研(yan)究人员(yuan)的结论是,RL学(xue)习过程可能(neng)没有突如其来(lai)的「顿悟时刻」——复杂的推(tui)理行为并不是在某个(ge)特定的训练步骤(zhou)中突然出(chu)现的。
1. 反思(si)性词(ci)汇(hui)(如「检查(cha)」和「验证」)的频率缓慢增加(a)-(c);2. 会话性短语(例如「让(rang)我们」)和谨慎词(ci)汇(hui)(例如「还」)变得更(geng)加频繁(d)-(e);3. 中文(wen)词(ci)汇(hui)开始出(chu)现在英文(wen)回复中(f)。所(suo)有这些词(ci)汇(hui)的频率都在稳步发展,没有突然的跳跃,表明可能(neng)不存在明显的「顿悟时刻」
除了上(shang)述(shu)技术贡献外,研(yan)究还有几个(ge)有趣的发现:
更(geng)长的回答并不能(neng)保证更(geng)好(hao)的推(tui)理。长度本身(shen)不是评(ping)估训练时间的有效指(zhi)标。最有效的推(tui)理来(lai)自最短路(lu)径(jing)。
语言混合会阻(zu)碍推(tui)理。这一(yi)观察(cha)强调了在奖励建(jian)模中需(xu)要(yao)语言一(yi)致(zhi)性惩罚。
增加「思(si)考」token确实有帮助。RL训练自然地提高了与反思(si)相关词(ci)汇(hui)的频率,表明某些token频率与性能(neng)之间存在相关性。
监督微调(SFT)依赖记忆;RL实现泛化。SFT严(yan)重依赖记忆,往往导(dao)致(zhi)表面(mian)的捷径(jing)学(xue)习,而RL则在最小依赖数据(ju)集结构(gou)的情况下自我演化。
冷启(qi)动是一(yi)个(ge)优势,但非必需(xu)。无论是从基础模型还是指(zhi)令模型开始,训练动态都保持惊人的相似性,尽管后者(zhe)表现略(lue)好(hao)。
课程学(xue)习仍然重要(yao)。在固定的数据(ju)筛选比例下,精心设计的课程学(xue)习方法总是优于随机打乱(luan)。
更(geng)长的回答并不能(neng)保证更(geng)好(hao)的推(tui)理。长度本身(shen)不是评(ping)估训练时间的有效指(zhi)标。最有效的推(tui)理来(lai)自最短路(lu)径(jing)。
语言混合会阻(zu)碍推(tui)理。这一(yi)观察(cha)强调了在奖励建(jian)模中需(xu)要(yao)语言一(yi)致(zhi)性惩罚。
增加「思(si)考」token确实有帮助。RL训练自然地提高了与反思(si)相关词(ci)汇(hui)的频率,表明某些token频率与性能(neng)之间存在相关性。
监督微调(SFT)依赖记忆;RL实现泛化。SFT严(yan)重依赖记忆,往往导(dao)致(zhi)表面(mian)的捷径(jing)学(xue)习,而RL则在最小依赖数据(ju)集结构(gou)的情况下自我演化。
冷启(qi)动是一(yi)个(ge)优势,但非必需(xu)。无论是从基础模型还是指(zhi)令模型开始,训练动态都保持惊人的相似性,尽管后者(zhe)表现略(lue)好(hao)。
课程学(xue)习仍然重要(yao)。在固定的数据(ju)筛选比例下,精心设计的课程学(xue)习方法总是优于随机打乱(luan)。
本文(wen)来(lai)源:,原文(wen)标题:《10美元成功(gong)复现DeepSeek顿悟时刻,3B模型爆发超强推(tui)理!微软(ruan)论文(wen)实锤涌现》