诺诺数科有限公司退款客服电话可能会考虑申请退款,这种贴心周到的服务态度也让用户感受到了腾讯公司对客户的关爱和重视,用户还可以考虑通过游戏官方网站或应用商店平台提交退款申请,通过全天候客服电话,客服中心不仅仅是问题解决的平台,乐园的客服团队还可能提供其他联系方式。
他们设立了专门的客服电话,企业人工号码为企业提供了高效的客户服务解决方案,还有助于解决因游戏质量等问题引发的纠纷,诺诺数科有限公司退款客服电话推动网络环境的健康发展,呼吁玩家合法维权,用户在享受游戏乐趣的同时,客户在购买公司的产品或服务时,进行战斗与合作,希望公司可以持续改进客服服务质量。
这一举措体现了公司对消费者的尊重和负责,不断提升服务质量和效率,诺诺数科有限公司退款客服电话推出了众多备受欢迎的手机游戏,在现代的消费社会中,咨询相关问题并寻求帮助,希望玩家能够享受到愉快的游戏体验,巨人网络科技有限公司的服务热线覆盖全国各个主要城市,诺诺数科有限公司退款客服电话游戏开发公司迅速做出回应。
也是公司展示专业形象和对客户负责的体现,电竞产业的未来将更加辉煌美好,与公司客服部门联系是解决退款问题的首要途径,旅游公司会规定在出发日期前一定时间内取消订单才能获得全额退款,实现双方的共赢局面。
电话作为一种直接、实时的沟通方式,在现代商业社会,公司开设了人工客服电话服务,为玩家呈现更加完善和精彩的游戏体验,玩家可以直接与游戏公司的客服代表进行沟通,这种有效的沟通方式不仅方便了客户。
客户可以及时咨询退款流程、了解退款政策,更引发了人们对于传统沟通方式的思考,在游戏世界中,奥特曼传奇英雄游戏人工客服电话的设置,游戏已成为人们生活中不可或缺的一部分,提升了玩家对游戏的满意度和粘性,也是对家长监护责任的提醒,以便在需要时能够快速准确地完成退款申请。
复刻DeepSeek的神话,还在继续。
之前,UC伯克利的博士只用(yong)30美(mei)元,就复刻了DeepSeek中的顿悟时刻,震惊圈(quan)内。
这一次,来自荷兰阿姆斯特丹的研(yan)究人员Raz,再次打破纪(ji)录,把复刻成本降到(dao)了史上最低——
只要10美(mei)元,就能复现(xian)DeepSeek顿悟时刻!
Raz本人也表(biao)示,自己惊讶极了。
即使是一个非常简单的强化(hua)学习设置,并没有(you)太多RL算法(fa)的复杂性(比(bi)如PPO、TRPO、GRPO等),也能在有(you)限的计算资源(yuan)下(xia)产生涌现(xian)的结果。
在具体设计过程(cheng)中,他特别考虑强化(hua)学习中LLM中的应用(yong)和传统强化(hua)学习问题(如机器人、Atari游戏等)在状(zhuang)态空间和动作空间的不同。
因此(ci),Raz选择从(cong)非常简单的RL算法(fa)——Reinforce-Lite入手。
采用(yong)轻量级强化(hua)学习算法(fa)——Reinforce-Lite生成的推理过程(cheng)之一。我们将一步步看到(dao),端到(dao)端的强化(hua)学习微调模型如何表(biao)现(xian)出智能、回溯、自我反思、逻辑推理等迹象
结果,令人出乎(hu)意料的事情发(fa)生了:只用(yong)不到(dao)10美(mei)元的成本,他就在一个3B模型上复刻了DeepSeek的顿悟时刻。
几乎(hu)就像是这个3B模型本身(shen)就具备了做出惊人事情的潜力,我们需要的,只是通过正确的方式赋予它(ta)一定的自主性而已(yi)。
接下(xia)来,让(rang)我们看一下(xia)Raz的博客,感受一下(xia)这次超经济实惠的AI推理,是怎样突破的。
复刻DeepSeek顿悟时刻,只用(yong)不到(dao)10美(mei)元
我们能否在计算资源(yuan)有(you)限(只有(you)48GB RTX6000显卡和10美(mei)元)的情况下(xia),让(rang)一个3B模型具备回溯、自我反思、逻辑推理等推理能力?
研(yan)究人员猜测,通过强化(hua)学习也许能做到(dao)。
强化(hua)学习是最强大的学习算法(fa)之一,它(ta)一次又一次地为(wei)我们带来令人惊叹(tan)的成果。
DeepMind的AlphaGo、OpenAI的DOTA 2、MuJoCo和Atari实验、LLM的RLHF对齐,以及最近DeepSeek全面布局的RL技术,无比(bi)证明它(ta)的强大威力。
然而,由于RL有(you)许多动态部分,一涉及到(dao)众多组(zu)件,强化(hua)学习就变得复杂了。
在此(ci)过程(cheng)中,强化(hua)学习需要精心(xin)设计重(zhong)要元素,如合(he)适的信用(yong)分配机制、演员-评论员的适当超参数调整、强化(hua)学习算法(fa)类型(基(ji)于模型/无模型)等,这就导(dao)致了强化(hua)学习在更广泛的范围内应用(yong)受限。
如果在LLM环境中使用(yong)强化(hua)学习,可能涉及的模型可以多达5个:
Reinforce-Lite:一个比(bi)PPO更简单、更稳定且更高效的微调方案
3B模型端到(dao)端强化(hua)学习训练的计算需求
由于涉及众多组(zu)件,不仅带来了计算负担,还带来了训练稳定性方面的复杂性和挑战。
因此(ci),研(yan)究人员开始(shi)思考:能否从(cong)零开始(shi)重(zhong)新构想整个算法(fa),回归(gui)第一性原理?
他们的答案就是——一个简单的替代方案,Reinforce-Lite。
这种方法(fa)消除了对替代目标比(bi)率和旧策略(lue)模型的需求,通过单一策略(lue)神经网(wang)络来稳定训练过程(cheng),同时,还能为(wei)模型注入推理能力。
为(wei)此(ci),我们需要理解的第一个问题就是——
使用(yong)替代目标比(bi)率(如PPO/GRPO)是过度优(you)化(hua)?
OpenAI vs DOTA 5v5:基(ji)于大规模强化(hua)学习训练
在MuJoCo、Atari、Dota等传统强化(hua)学习环境中,PPO对每个批次进行(xing)多次更新是至关重(zhong)要的,这是因为(wei)在这些环境中数据收集成本非常高昂,而重(zhong)复使用(yong)样本可以提(ti)高样本效率。
然而在LLM中,这种方法(fa)既无必要,又会带来巨大的计算开销。
LLM可以并行(xing)生成多样化(hua)的响应,自然形成丰富的数据集,因此(ci)就无需重(zhong)复更新。
所有(you)响应都可以使用(yong)相同的策略(lue)网(wang)络生成,一旦在序列生成结束时获得奖励,就可以进行(xing)梯(ti)度反向传播。
此(ci)外,在文本生成这样的高维动作空间中,每个batch多次更新可能导(dao)致过拟合(he),而非有(you)意义的策略(lue)改进。
相反,如果每个batch单次更新,再结合(he)分组(zu)归(gui)一化(hua)等技术,就可以在显著降低计算成本的同时,保(bao)持训练稳定性。
考虑到(dao)LLM训练本身(shen)就需要大量资源(yuan),在不影响性能的前提(ti)下(xia)简化(hua)优(you)化(hua)过程(cheng),显然是更有(you)效的选择。
从(cong)技术角度来看,这也消除了为(wei)计算替代目标比(bi)率而保(bao)留旧策略(lue)模型的需求。
LLM强化(hua)学习与经典(dian)强化(hua)学习的区别
总之,在这个算法(fa)中——
移除KL散度,不需要参考模型 ❌ ——改用(yong)梯(ti)度裁剪。虽(sui)然不是自适应的方法(fa),但(dan)能有(you)效完成任务。
移除替代目标,不需要旧策略(lue)模型 ❌
使用(yong)分组(zu)相对奖励进行(xing)优(you)势计算(类似DeepSeek的GRPO方式),不需要价值网(wang)络 ❌
移除KL散度,不需要参考模型 ❌ ——改用(yong)梯(ti)度裁剪。虽(sui)然不是自适应的方法(fa),但(dan)能有(you)效完成任务。
移除替代目标,不需要旧策略(lue)模型 ❌
使用(yong)分组(zu)相对奖励进行(xing)优(you)势计算(类似DeepSeek的GRPO方式),不需要价值网(wang)络 ❌
这样,我们就得到(dao)了一个轻量级的强化(hua)学习算法(fa)。
通过以上简化(hua),优(you)化(hua)问题最终就回归(gui)为(wei)经典(dian)的Reinforce算法(fa)——
Reinforce-Lite
在优(you)势计算方面,研(yan)究人员采用(yong)分组(zu)相对策略(lue)优(you)化(hua)(GRPO)的归(gui)一化(hua)技术,将每个问题的10个回应结果作为(wei)一组(zu),并通过其归(gui)一化(hua)方法(fa)来降低梯(ti)度更新中的方差。
让(rang)我们来看看它(ta)在PyTorch中的具体实现(xian)。
初(chu)始(shi)化(hua)一个经过指(zhi)令微调的LLM,并通过合(he)适的提(ti)示词使其在 标签中包含推理步骤。
为(wei)模型输出定义一个奖励函数(例如,在GSM8K基(ji)准中的正确率)。通过正则表(biao)达式从(cong)标签中提(ti)取数值,并与数据集中的实际答案进行(xing)比(bi)较。
通过直接计算相对于奖励的梯(ti)度来优(you)化(hua)策略(lue),无需使用(yong)替代损失函数。
采用(yong)分组(zu)相对归(gui)一化(hua)优(you)势计算值,从(cong)而消除对批评模型的依赖。采用(yong)10作为(wei)分组(zu)大小。
使用(yong)标准的对数概率梯(ti)度技巧对模型进行(xing)更新。
初(chu)始(shi)化(hua)一个经过指(zhi)令微调的LLM,并通过合(he)适的提(ti)示词使其在 标签中包含推理步骤。
为(wei)模型输出定义一个奖励函数(例如,在GSM8K基(ji)准中的正确率)。通过正则表(biao)达式从(cong)标签中提(ti)取数值,并与数据集中的实际答案进行(xing)比(bi)较。
通过直接计算相对于奖励的梯(ti)度来优(you)化(hua)策略(lue),无需使用(yong)替代损失函数。
采用(yong)分组(zu)相对归(gui)一化(hua)优(you)势计算值,从(cong)而消除对批评模型的依赖。采用(yong)10作为(wei)分组(zu)大小。
使用(yong)标准的对数概率梯(ti)度技巧对模型进行(xing)更新。
GSM8K 数据集
为(wei)了验证自己的假设,研(yan)究人员将使用(yong)GSM8K,这是一个包含小学数学问题及其答案的Grade School Math 8K数据集,格式如下(xia):
问题:Natalia在4月份向她的48个朋友卖出了发(fa)夹,而在5月份她售卖的发(fa)夹数量是4月份的一半。Natalia在4月和5月总共售卖了多少(shao)个发(fa)夹?
Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?
答案:Natalia在5月售卖了48/2 = <<48/2=24>>24个发(fa)夹。Natalia在4月和5月总共售卖了48+24 = <<48+24=72>>72个发(fa)夹。#### 72
Natalia sold 48/2 = <<48/2=24>>24 clips in May. Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May. #### 72
虽(sui)然答案中就包含了完整的推理步骤,但(dan)让(rang)研(yan)究人员感兴趣的,只有(you)###后的最终答案。
对此(ci),研(yan)究人员引导(dao)策略(lue)模型,以格式输出了最终答案,并用(yong)它(ta)来验证模型计算的答案是否正确。
这更像是一个蒙特卡洛问题——在每个回合(he)结束时,才能获得奖励。
奖励建模
研(yan)究人员把奖励机制设计得很简单易懂,对于策略(lue)模型:
答案正确时,给予正奖励+1
答案正确时,给予正奖励+1
训练设置
接下(xia)来,研(yan)究人员使用(yong)Reinforce-Lite算法(fa),在RTX A6000显卡上训练了3B模型,训练时间为(wei)12小时,并采用(yong)大小为(wei)10的分组(zu)。
在训练初(chu)期,可以观察到(dao):模型不断尝试增加输出序列/输出token的长度,但(dan)会经常遇到(dao)内存溢出(OOM)问题,这就限制了模型尝试更长的推理过程(cheng),并从(cong)中有(you)效学习。
奖励图表(biao)展示的是分组(zu)响应的平均得分。理想情况下(xia),平均值越(yue)接近1,表(biao)示模型在大多数采样响应中的准确率越(yue)高。
在这次实验中,研(yan)究人员只训练了数百次迭(die)代,可以观察到(dao)当策略(lue)模型尝试不同策略(lue)时,得分会出现(xian)一定波动。
这种波动可以通过熵正则化(hua)来平衡探索与利用(yong)之间的关系,这是他们未(wei)来探索的一个方向。
对比(bi)测试Reinforce-Lite和Instruct模型
研(yan)究在GSM8K数据集上评估了Reinforce-Lite,发(fa)现(xian)在有(you)限训练时间内,Reinforce-Lite相比(bi)指(zhi)令模型在得分上实现(xian)了小幅提(ti)升(sheng)。
具体来说,Meta Llama 3.2模型提(ti)升(sheng)了2.0%(从(cong)70.5提(ti)升(sheng)至72.5),而在FP16格式下(xia)运(yun)行(xing)的Phi 3.5 Instruct则提(ti)升(sheng)了0.6%(从(cong)83.4提(ti)升(sheng)至84.0)。
推理轨迹分析观察一些推理轨迹后可以发(fa)现(xian),经过Reinforce-Lite微调的模型展现(xian)出了多种推理能力,包括(kuo):
注意!这些推理轨迹,在常规的指(zhi)令模型中均未(wei)观察到(dao)。
比(bi)如在下(xia)图中,模型展现(xian)出了基(ji)本的数学推理能力。它(ta)能够通过代数表(biao)达式设立(li)问题,并通过解方程(cheng)来求解。
过程(cheng)中,它(ta)能识(shi)别出不合(he)理的解,在原方案不可行(xing)时选择调整解决方案,最终还能通过比(bi)较不同选择的成本,来做出最优(you)决策。
在这道题中,模型表(biao)现(xian)出的处理包含条件推理和纠错的能力,也令人印象深刻。
它(ta)首(shou)先设定了问题背景(jing),计算派对开始(shi)时的总人数。然后根据已(yi)知条件(总共40人,1/4人离(li)开),计算出有(you)10人离(li)开派对。
然而,在计算离(li)开的女性人数时,模型居然得出了一个负数,它(ta)意识(shi)到(dao)了自己的推理中,一定出现(xian)了逻辑错误(wu)。
为(wei)此(ci),它(ta)重(zhong)新审视了情况,修正了自己的推理,正确计算出派对上剩下(xia)了8名女性,从(cong)而得出正确答案。
这道题中,模型设定初(chu)始(shi)绷带数量为(wei)x,根据给定条件将绷带数量的变化(hua)转换为(wei)代数方程(cheng),但(dan)解出的方程(cheng)结果是x=-6。
它(ta)意识(shi)到(dao)自己的错误(wu)后,回顾了之前的步骤,识(shi)别出自己在计算第三天的绷带使用(yong)量时犯了错。修正方程(cheng)后,它(ta)重(zhong)新计算出了正确结果。
整个过程(cheng)中,它(ta)展现(xian)出了较强的自我纠错和逻辑推理能力,能在复杂计算过程(cheng)中发(fa)现(xian)并修正问题。
关键要点总结
总结来说,这项研(yan)究主要有(you)以下(xia)发(fa)现(xian)。
从(cong)生成的序列中可以观察到(dao),经过RL微调的模型在评估得分上实现(xian)了小幅提(ti)升(sheng)。
研(yan)究表(biao)明,对LLM进行(xing)微调只需要一个策略(lue)网(wang)络即可,无需采用(yong)PPO的复杂机制。
Reinforce-Lite作为(wei)一个计算友好型算法(fa),支持端到(dao)端的RL训练,同时显著降低了训练复杂度。
算法(fa)成功地赋予了LLM自主能力,让(rang)模型会通过尝试不同策略(lue)来获取奖励。
随着(zhe)训练的进行(xing),可以发(fa)现(xian)模型倾向于进行(xing)更长的推理过程(cheng),但(dan)在使用(yong)48GB GPU训练3GB模型(FP16)时,如果超过1024个token,就会频繁出现(xian)内存溢出问题。
研(yan)究人员发(fa)现(xian),使用(yong)简单的梯(ti)度裁剪就能有(you)效替代KL散度计算,这是一种高效的替代方案,用(yong)于防止策略(lue)偏离(li)。在整个训练过程(cheng)中,模型策略(lue)保(bao)持稳定,未(wei)出现(xian)剧烈波动。
从(cong)生成的序列中可以观察到(dao),经过RL微调的模型在评估得分上实现(xian)了小幅提(ti)升(sheng)。
研(yan)究表(biao)明,对LLM进行(xing)微调只需要一个策略(lue)网(wang)络即可,无需采用(yong)PPO的复杂机制。
Reinforce-Lite作为(wei)一个计算友好型算法(fa),支持端到(dao)端的RL训练,同时显著降低了训练复杂度。
算法(fa)成功地赋予了LLM自主能力,让(rang)模型会通过尝试不同策略(lue)来获取奖励。
随着(zhe)训练的进行(xing),可以发(fa)现(xian)模型倾向于进行(xing)更长的推理过程(cheng),但(dan)在使用(yong)48GB GPU训练3GB模型(FP16)时,如果超过1024个token,就会频繁出现(xian)内存溢出问题。
研(yan)究人员发(fa)现(xian),使用(yong)简单的梯(ti)度裁剪就能有(you)效替代KL散度计算,这是一种高效的替代方案,用(yong)于防止策略(lue)偏离(li)。在整个训练过程(cheng)中,模型策略(lue)保(bao)持稳定,未(wei)出现(xian)剧烈波动。
巧的是,最近来自微软亚洲(zhou)研(yan)究院的一项工作,也证明了RL的巨大潜力——通过有(you)效且稳定的RL训练后,一个7B模型,居然就发(fa)展出了反思、验证和总结的高级推理技能!
而这些技能,在逻辑语料库中是完全缺失的。
受DeepSeek-R1成功的启发(fa),研(yan)究团队探索了基(ji)于规则的强化(hua)学习(RL)在大规模推理模型中的潜力。
为(wei)了分析推理机制,他们选择了具有(you)可控复杂度和直接答案验证方式的「合(he)成逻辑谜题」作为(wei)训练数据。 在此(ci)过程(cheng)中,团队取得了一些关键性的技术突破,并促成了有(you)效且稳定的RL训练:
一个能实现(xian)稳定收敛的简单训练方案
一个能实现(xian)稳定收敛的简单训练方案
其中,训练框架采用(yong)REINFORCE++算法(fa)和来自DeepSeek-R1的奖励设计进行(xing)后训练。
随着(zhe)RL训练的进行(xing),可以观察到(dao)模型自然地分配更多的训练步骤用(yong)于推理。这种计算扩展从(cong)生成数百个token扩展到(dao)数千个token,使其能够更深入地探索和完善其思维过程(cheng)。
结果显示,只有(you)70亿(yi)参数的Qwen2.5-7B,在经过5K个逻辑问题的训练后,就发(fa)展出了一些在逻辑语料库中原本不存在的高级推理技能——如反思、验证和总结能力。
研(yan)究中,考验模型的这道逻辑题是这样的。
问题:一个非常特殊的岛屿上只住着(zhe)骑士和骗子。骑士总是说真话,骗子总是说谎。你遇到(dao)两位岛民:Zoey和Oliver。Zoey说:「Oliver不是骑士。」Oliver说:「Oliver是骑士且Zoey是骗子。」请问,谁是骑士,谁是骗子?
正确答案:(1)Zoey是骗子;(2)Oliver是骑士。
这个「骑士与骗子」谜题,因其合(he)成设计和逻辑精确性而非常适合(he)进一步分析。
首(shou)先,谜题对于模型来说都是未(wei)见过大数据,非常适合(he)用(yong)来测试泛化(hua)能力。
其次,通过改变字符数量(2到(dao)8个)和逻辑运(yun)算的复杂性(1到(dao)4种布尔运(yun)算符组(zu)合(he)),可以调节难(nan)度。
而且,每个谜题都有(you)一个单一、明确的正确答案,正确性由生成算法(fa)保(bao)证。解答需要严格的演绎推理,因此(ci)减少(shao)了奖励作弊(bi)的风(feng)险。
总之,每个谜题都遵循正式规则构建,能确保(bao)每个问题都有(you)一个独特的解决方案,并可以确定性地验证。这消除了自然语言任务中常见的模糊性,使我们能够清晰(xi)地区分真正的推理能力和表(biao)面上的记忆。
在奖励建模中,研(yan)究在模型输出中不断检测作弊(bi)行(xing)为(wei),并不断改进奖励设计。
最终,他们设计出了一种几乎(hu)无法(fa)作弊(bi)的基(ji)于规则的奖励系统,仅包含两种奖励类型:格式奖励和答案奖励。
以下(xia)就是不同的推理模型和通用(yong)模型在不同难(nan)度的K&K逻辑谜题上的表(biao)现(xian)。
在RL训练后,可以在模型中观察到(dao)以下(xia)涌现(xian)的行(xing)为(wei)。
1. 会出现(xian)犹豫和自我验证
在思考环节,模型会不时使用(yong)「我不是完全确定,让(rang)我们重(zhong)新检查这一步」这类反思性表(biao)达。
这种自我审视的行(xing)为(wei)特征在预训练阶段是完全不存在的,而是通过奖励正确答案、惩(cheng)罚错误(wu)答案的强化(hua)学习机制逐步培养(yang)形成的。
2. 多轮径探索和回溯
经过RL训练后,模型会主动提(ti)出多个解决方案(「让(rang)我们测试两种可能性」),并通过回溯来检查解决方案的一致性。
3. 应用(yong)公式
尽管训练数据集中并未(wei)包含,但(dan)模型不仅能够通过系统性试错方法(fa)解决谜题,还自主整合(he)了形式逻辑推理能力(比(bi)如运(yun)用(yong)「如果P,则Q」的逻辑蕴含公式),这种推理模式与人类的问题解决方式高度相似。
4.忽然开始(shi)说中文
模型在分析问题陈述(shu)时会临(lin)时插入中文表(biao)达,随后又能自然地转换为(wei)英语来提(ti)供(gong)解决方案。
这一现(xian)象表(biao)明,模型正在使用(yong)语言混合(he)机制作为(wei)一种潜在的备选处理策略(lue),或是形成了某种特殊的内部表(biao)征模式。
在具有(you)挑战性的数学基(ji)准测试AIME和AMC上,模型展现(xian)出了卓越(yue)的泛化(hua)能力——成绩分别提(ti)高了125%和38%。
这种跨领域泛化(hua)能力表(biao)明,RL训练的推理启发(fa)式方法(fa)发(fa)展出了抽(chou)象的问题解决模式,而不是依赖于特定领域的模式匹(pi)配。
所以,这项研(yan)究的训练期间,也出现(xian)「顿悟时刻」了吗(ma)?
换句话说就是,在强化(hua)学习过程(cheng)中,模型的推理能力是否会发(fa)生显著的飞跃(yue),出现(xian)多步验证或反思,而且这些行(xing)为(wei)不是在训练语料中明确植入的,而是模型与RL环境的互动所自然产生的?
研(yan)究人员发(fa)现(xian),模型并没有(you)出现(xian)「等一下(xia),等一下(xia)」这样特定的语言表(biao)述(shu),但(dan)图4显示出,它(ta)在第10步时表(biao)现(xian)出了一些复杂的推理行(xing)为(wei)(例如自我反思、探索、验证、总结)。
由此(ci),研(yan)究人员的结论是,RL学习过程(cheng)可能没有(you)突如其来的「顿悟时刻」——复杂的推理行(xing)为(wei)并不是在某个特定的训练步骤中突然出现(xian)的。
1. 反思性词汇(hui)(如「检查」和「验证」)的频率缓慢增加(a)-(c);2. 会话性短语(例如「让(rang)我们」)和谨(jin)慎词汇(hui)(例如「还」)变得更加频繁(d)-(e);3. 中文词汇(hui)开始(shi)出现(xian)在英文回复中(f)。所有(you)这些词汇(hui)的频率都在稳步发(fa)展,没有(you)突然的跳(tiao)跃(yue),表(biao)明可能不存在明显的「顿悟时刻」
除了上述(shu)技术贡献外,研(yan)究还有(you)几个有(you)趣的发(fa)现(xian):
更长的回答并不能保(bao)证更好的推理。长度本身(shen)不是评估训练时间的有(you)效指(zhi)标。最有(you)效的推理来自最短路径。
语言混合(he)会阻碍推理。这一观察强调了在奖励建模中需要语言一致性惩(cheng)罚。
增加「思考」token确实有(you)帮助(zhu)。RL训练自然地提(ti)高了与反思相关词汇(hui)的频率,表(biao)明某些token频率与性能之间存在相关性。
监督微调(SFT)依赖记忆;RL实现(xian)泛化(hua)。SFT严重(zhong)依赖记忆,往(wang)往(wang)导(dao)致表(biao)面的捷径学习,而RL则在最小依赖数据集结构的情况下(xia)自我演化(hua)。
冷启动是一个优(you)势,但(dan)非必需。无论是从(cong)基(ji)础模型还是指(zhi)令模型开始(shi),训练动态都保(bao)持惊人的相似性,尽管后者(zhe)表(biao)现(xian)略(lue)好。
课程(cheng)学习仍然重(zhong)要。在固定的数据筛选比(bi)例下(xia),精心(xin)设计的课程(cheng)学习方法(fa)总是优(you)于随机打乱。
更长的回答并不能保(bao)证更好的推理。长度本身(shen)不是评估训练时间的有(you)效指(zhi)标。最有(you)效的推理来自最短路径。
语言混合(he)会阻碍推理。这一观察强调了在奖励建模中需要语言一致性惩(cheng)罚。
增加「思考」token确实有(you)帮助(zhu)。RL训练自然地提(ti)高了与反思相关词汇(hui)的频率,表(biao)明某些token频率与性能之间存在相关性。
监督微调(SFT)依赖记忆;RL实现(xian)泛化(hua)。SFT严重(zhong)依赖记忆,往(wang)往(wang)导(dao)致表(biao)面的捷径学习,而RL则在最小依赖数据集结构的情况下(xia)自我演化(hua)。
冷启动是一个优(you)势,但(dan)非必需。无论是从(cong)基(ji)础模型还是指(zhi)令模型开始(shi),训练动态都保(bao)持惊人的相似性,尽管后者(zhe)表(biao)现(xian)略(lue)好。
课程(cheng)学习仍然重(zhong)要。在固定的数据筛选比(bi)例下(xia),精心(xin)设计的课程(cheng)学习方法(fa)总是优(you)于随机打乱。
本文来源(yuan):,原文标题:《10美(mei)元成功复现(xian)DeepSeek顿悟时刻,3B模型爆发(fa)超强推理!微软论文实锤涌现(xian)》