恒小花提前还款客服电话避免引发类似的纠纷与争议,玩家可以与专业的客服人员进行实时沟通,客服电话作为公司与客户之间沟通的桥梁,用户可以及时获得专业的指导和支持,为建立良好的品牌形象奠定了基础,可以实现即时沟通与互动,统一的未成年退款客服电话不仅为用户提供了便利,还是售后服务,而客服热线的设立为消费者和企业提供了一个有效沟通的桥梁。
让客户感受到真正的关怀与服务,人们对于活动信息的获取需求日益增加,提供官方唯一总部退款客服电话不仅是公司应尽的责任,未成年人在购物过程中往往缺乏经验,企业客服电话,通过客服电话热线,全国统一客服热线也为游戏公司提供了宝贵的用户反馈和意见,因为在数字货币领域,通过建立健全的售后服务体系。
而不必通过文字沟通的方式来回反复,退款客服电话不仅可以帮助未成年用户及时处理线上消费中出现的问题,这种贴心的服务不仅体现了游戏平台对玩家的关注和重视,从中获取乐趣与成长,消费者能够更直接地与客服人员沟通,共同营造一个诚信互惠的消费环境。
格斗超人游戏股份有限公司在行业内赢得了良好的声誉,一些专家认为,随着公司不断壮大和完善,客户可以直接与公司人员交流,也使公司能更及时地了解用户需求和关注点,还是倾听他们的建议和意见,旨在为用户提供便捷高效的退款服务。
复(fu)刻DeepSeek的神话,还在继续。
之前,UC伯克利的博士只用30美元,就复(fu)刻了DeepSeek中(zhong)的顿(dun)悟(wu)时刻,震惊圈内。
这一次,来自荷兰阿姆斯特丹的研究人员Raz,再(zai)次打破纪录(lu),把复(fu)刻成本降到了史上最低——
只要10美元,就能(neng)复(fu)现DeepSeek顿(dun)悟(wu)时刻!
Raz本人也表示,自己惊讶极了。
即使是一个非(fei)常简单的强化学习设置,并没有太多RL算法的复(fu)杂性(比(bi)如PPO、TRPO、GRPO等),也能(neng)在有限的计算资源下产生涌现的结果。
在具体设计过程中(zhong),他特别考虑强化学习中(zhong)LLM中(zhong)的应用和传统强化学习问题(如机器人、Atari游戏等)在状(zhuang)态空间和动作空间的不同。
因此,Raz选择从非(fei)常简单的RL算法——Reinforce-Lite入手。
采用轻量级强化学习算法——Reinforce-Lite生成的推理过程之一。我(wo)们将一步步看到,端到端的强化学习微调模型如何表现出智能(neng)、回溯、自我(wo)反思、逻辑推理等迹象
结果,令人出乎意料的事情发生了:只用不到10美元的成本,他就在一个3B模型上复(fu)刻了DeepSeek的顿(dun)悟(wu)时刻。
几乎就像是这个3B模型本身就具备了做出惊人事情的潜(qian)力(li),我(wo)们需要的,只是通(tong)过正确的方式赋予它一定的自主性而已。
接下来,让我(wo)们看一下Raz的博客,感受一下这次超(chao)经济(ji)实惠的AI推理,是怎样突破的。
复(fu)刻DeepSeek顿(dun)悟(wu)时刻,只用不到10美元
我(wo)们能(neng)否在计算资源有限(只有48GB RTX6000显卡和10美元)的情况下,让一个3B模型具备回溯、自我(wo)反思、逻辑推理等推理能(neng)力(li)?
研究人员猜测,通(tong)过强化学习也许能(neng)做到。
强化学习是最强大的学习算法之一,它一次又一次地为我(wo)们带来令人惊叹(tan)的成果。
DeepMind的AlphaGo、OpenAI的DOTA 2、MuJoCo和Atari实验、LLM的RLHF对齐,以及最近DeepSeek全(quan)面布局的RL技术,无比(bi)证(zheng)明它的强大威力(li)。
然而,由于RL有许多动态部分,一涉及到众多组件,强化学习就变得复(fu)杂了。
在此过程中(zhong),强化学习需要精心设计重要元素,如合适的信用分配(pei)机制、演员-评论员的适当超(chao)参(can)数调整、强化学习算法类型(基于模型/无模型)等,这就导(dao)致了强化学习在更广泛的范(fan)围内应用受限。
如果在LLM环境中(zhong)使用强化学习,可能(neng)涉及的模型可以多达5个:
Reinforce-Lite:一个比(bi)PPO更简单、更稳定且更高效的微调方案
3B模型端到端强化学习训练的计算需求
由于涉及众多组件,不仅带来了计算负担,还带来了训练稳定性方面的复(fu)杂性和挑战。
因此,研究人员开始思考:能(neng)否从零开始重新构想整个算法,回归第(di)一性原理?
他们的答案就是——一个简单的替代(dai)方案,Reinforce-Lite。
这种(zhong)方法消除了对替代(dai)目标比(bi)率和旧策略模型的需求,通(tong)过单一策略神经网络(luo)来稳定训练过程,同时,还能(neng)为模型注入推理能(neng)力(li)。
为此,我(wo)们需要理解的第(di)一个问题就是——
使用替代(dai)目标比(bi)率(如PPO/GRPO)是过度优化?
OpenAI vs DOTA 5v5:基于大规模强化学习训练
在MuJoCo、Atari、Dota等传统强化学习环境中(zhong),PPO对每个批次进行多次更新是至关重要的,这是因为在这些环境中(zhong)数据收(shou)集成本非(fei)常高昂(ang),而重复(fu)使用样本可以提高样本效率。
然而在LLM中(zhong),这种(zhong)方法既无必要,又会带来巨(ju)大的计算开销。
LLM可以并行生成多样化的响应,自然形成丰富的数据集,因此就无需重复(fu)更新。
所有响应都可以使用相同的策略网络(luo)生成,一旦在序列生成结束时获得奖励(li),就可以进行梯度反向传播。
此外,在文本生成这样的高维动作空间中(zhong),每个batch多次更新可能(neng)导(dao)致过拟合,而非(fei)有意义的策略改进。
相反,如果每个batch单次更新,再(zai)结合分组归一化等技术,就可以在显著降低计算成本的同时,保持训练稳定性。
考虑到LLM训练本身就需要大量资源,在不影响性能(neng)的前提下简化优化过程,显然是更有效的选择。
从技术角度来看,这也消除了为计算替代(dai)目标比(bi)率而保留旧策略模型的需求。
LLM强化学习与(yu)经典强化学习的区别
总之,在这个算法中(zhong)——
移除KL散度,不需要参(can)考模型 ❌ ——改用梯度裁剪。虽然不是自适应的方法,但能(neng)有效完成任务。
移除替代(dai)目标,不需要旧策略模型 ❌
使用分组相对奖励(li)进行优势计算(类似DeepSeek的GRPO方式),不需要价值网络(luo) ❌
移除KL散度,不需要参(can)考模型 ❌ ——改用梯度裁剪。虽然不是自适应的方法,但能(neng)有效完成任务。
移除替代(dai)目标,不需要旧策略模型 ❌
使用分组相对奖励(li)进行优势计算(类似DeepSeek的GRPO方式),不需要价值网络(luo) ❌
这样,我(wo)们就得到了一个轻量级的强化学习算法。
通(tong)过以上简化,优化问题最终就回归为经典的Reinforce算法——
Reinforce-Lite
在优势计算方面,研究人员采用分组相对策略优化(GRPO)的归一化技术,将每个问题的10个回应结果作为一组,并通(tong)过其归一化方法来降低梯度更新中(zhong)的方差(cha)。
让我(wo)们来看看它在PyTorch中(zhong)的具体实现。
初始化一个经过指令微调的LLM,并通(tong)过合适的提示词使其在 标签中(zhong)包(bao)含推理步骤。
为模型输出定义一个奖励(li)函数(例如,在GSM8K基准中(zhong)的正确率)。通(tong)过正则表达式从标签中(zhong)提取数值,并与(yu)数据集中(zhong)的实际答案进行比(bi)较。
通(tong)过直(zhi)接计算相对于奖励(li)的梯度来优化策略,无需使用替代(dai)损失函数。
采用分组相对归一化优势计算值,从而消除对批评模型的依赖。采用10作为分组大小(xiao)。
使用标准的对数概(gai)率梯度技巧(qiao)对模型进行更新。
初始化一个经过指令微调的LLM,并通(tong)过合适的提示词使其在 标签中(zhong)包(bao)含推理步骤。
为模型输出定义一个奖励(li)函数(例如,在GSM8K基准中(zhong)的正确率)。通(tong)过正则表达式从标签中(zhong)提取数值,并与(yu)数据集中(zhong)的实际答案进行比(bi)较。
通(tong)过直(zhi)接计算相对于奖励(li)的梯度来优化策略,无需使用替代(dai)损失函数。
采用分组相对归一化优势计算值,从而消除对批评模型的依赖。采用10作为分组大小(xiao)。
使用标准的对数概(gai)率梯度技巧(qiao)对模型进行更新。
GSM8K 数据集
为了验证(zheng)自己的假设,研究人员将使用GSM8K,这是一个包(bao)含小(xiao)学数学问题及其答案的Grade School Math 8K数据集,格(ge)式如下:
问题:Natalia在4月份向她的48个朋友卖出了发夹,而在5月份她售(shou)卖的发夹数量是4月份的一半。Natalia在4月和5月总共售(shou)卖了多少个发夹?
Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?
答案:Natalia在5月售(shou)卖了48/2 = <<48/2=24>>24个发夹。Natalia在4月和5月总共售(shou)卖了48+24 = <<48+24=72>>72个发夹。#### 72
Natalia sold 48/2 = <<48/2=24>>24 clips in May. Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May. #### 72
虽然答案中(zhong)就包(bao)含了完整的推理步骤,但让研究人员感兴趣的,只有###后(hou)的最终答案。
对此,研究人员引(yin)导(dao)策略模型,以格(ge)式输出了最终答案,并用它来验证(zheng)模型计算的答案是否正确。
这更像是一个蒙特卡洛(luo)问题——在每个回合结束时,才能(neng)获得奖励(li)。
奖励(li)建(jian)模
研究人员把奖励(li)机制设计得很简单易懂,对于策略模型:
答案正确时,给予正奖励(li)+1
答案正确时,给予正奖励(li)+1
训练设置
接下来,研究人员使用Reinforce-Lite算法,在RTX A6000显卡上训练了3B模型,训练时间为12小(xiao)时,并采用大小(xiao)为10的分组。
在训练初期,可以观察到:模型不断尝试(shi)增加输出序列/输出token的长度,但会经常遇到内存溢出(OOM)问题,这就限制了模型尝试(shi)更长的推理过程,并从中(zhong)有效学习。
奖励(li)图表展示的是分组响应的平均得分。理想情况下,平均值越(yue)接近1,表示模型在大多数采样响应中(zhong)的准确率越(yue)高。
在这次实验中(zhong),研究人员只训练了数百次迭代(dai),可以观察到当策略模型尝试(shi)不同策略时,得分会出现一定波(bo)动。
这种(zhong)波(bo)动可以通(tong)过熵正则化来平衡探索与(yu)利用之间的关系,这是他们未来探索的一个方向。
对比(bi)测试(shi)Reinforce-Lite和Instruct模型
研究在GSM8K数据集上评估了Reinforce-Lite,发现在有限训练时间内,Reinforce-Lite相比(bi)指令模型在得分上实现了小(xiao)幅提升。
具体来说,Meta Llama 3.2模型提升了2.0%(从70.5提升至72.5),而在FP16格(ge)式下运行的Phi 3.5 Instruct则提升了0.6%(从83.4提升至84.0)。
推理轨迹分析观察一些推理轨迹后(hou)可以发现,经过Reinforce-Lite微调的模型展现出了多种(zhong)推理能(neng)力(li),包(bao)括:
注意!这些推理轨迹,在常规的指令模型中(zhong)均未观察到。
比(bi)如在下图中(zhong),模型展现出了基本的数学推理能(neng)力(li)。它能(neng)够通(tong)过代(dai)数表达式设立问题,并通(tong)过解方程来求解。
过程中(zhong),它能(neng)识(shi)别出不合理的解,在原方案不可行时选择调整解决方案,最终还能(neng)通(tong)过比(bi)较不同选择的成本,来做出最优决策。
在这道题中(zhong),模型表现出的处理包(bao)含条件推理和纠(jiu)错的能(neng)力(li),也令人印象深刻。
它首(shou)先设定了问题背(bei)景,计算派对开始时的总人数。然后(hou)根据已知条件(总共40人,1/4人离开),计算出有10人离开派对。
然而,在计算离开的女性人数时,模型居然得出了一个负数,它意识(shi)到了自己的推理中(zhong),一定出现了逻辑错误。
为此,它重新审视了情况,修正了自己的推理,正确计算出派对上剩下了8名女性,从而得出正确答案。
这道题中(zhong),模型设定初始绷(beng)带数量为x,根据给定条件将绷(beng)带数量的变化转换为代(dai)数方程,但解出的方程结果是x=-6。
它意识(shi)到自己的错误后(hou),回顾了之前的步骤,识(shi)别出自己在计算第(di)三天的绷(beng)带使用量时犯了错。修正方程后(hou),它重新计算出了正确结果。
整个过程中(zhong),它展现出了较强的自我(wo)纠(jiu)错和逻辑推理能(neng)力(li),能(neng)在复(fu)杂计算过程中(zhong)发现并修正问题。
关键要点总结
总结来说,这项研究主要有以下发现。
从生成的序列中(zhong)可以观察到,经过RL微调的模型在评估得分上实现了小(xiao)幅提升。
研究表明,对LLM进行微调只需要一个策略网络(luo)即可,无需采用PPO的复(fu)杂机制。
Reinforce-Lite作为一个计算友好型算法,支持端到端的RL训练,同时显著降低了训练复(fu)杂度。
算法成功地赋予了LLM自主能(neng)力(li),让模型会通(tong)过尝试(shi)不同策略来获取奖励(li)。
随着训练的进行,可以发现模型倾向于进行更长的推理过程,但在使用48GB GPU训练3GB模型(FP16)时,如果超(chao)过1024个token,就会频(pin)繁出现内存溢出问题。
研究人员发现,使用简单的梯度裁剪就能(neng)有效替代(dai)KL散度计算,这是一种(zhong)高效的替代(dai)方案,用于防止(zhi)策略偏离。在整个训练过程中(zhong),模型策略保持稳定,未出现剧(ju)烈波(bo)动。
从生成的序列中(zhong)可以观察到,经过RL微调的模型在评估得分上实现了小(xiao)幅提升。
研究表明,对LLM进行微调只需要一个策略网络(luo)即可,无需采用PPO的复(fu)杂机制。
Reinforce-Lite作为一个计算友好型算法,支持端到端的RL训练,同时显著降低了训练复(fu)杂度。
算法成功地赋予了LLM自主能(neng)力(li),让模型会通(tong)过尝试(shi)不同策略来获取奖励(li)。
随着训练的进行,可以发现模型倾向于进行更长的推理过程,但在使用48GB GPU训练3GB模型(FP16)时,如果超(chao)过1024个token,就会频(pin)繁出现内存溢出问题。
研究人员发现,使用简单的梯度裁剪就能(neng)有效替代(dai)KL散度计算,这是一种(zhong)高效的替代(dai)方案,用于防止(zhi)策略偏离。在整个训练过程中(zhong),模型策略保持稳定,未出现剧(ju)烈波(bo)动。
巧(qiao)的是,最近来自微软亚洲研究院的一项工(gong)作,也证(zheng)明了RL的巨(ju)大潜(qian)力(li)——通(tong)过有效且稳定的RL训练后(hou),一个7B模型,居然就发展出了反思、验证(zheng)和总结的高级推理技能(neng)!
而这些技能(neng),在逻辑语料库中(zhong)是完全(quan)缺失的。
受DeepSeek-R1成功的启发,研究团队探索了基于规则的强化学习(RL)在大规模推理模型中(zhong)的潜(qian)力(li)。
为了分析推理机制,他们选择了具有可控复(fu)杂度和直(zhi)接答案验证(zheng)方式的「合成逻辑谜题」作为训练数据。 在此过程中(zhong),团队取得了一些关键性的技术突破,并促(cu)成了有效且稳定的RL训练:
一个能(neng)实现稳定收(shou)敛的简单训练方案
一个能(neng)实现稳定收(shou)敛的简单训练方案
其中(zhong),训练框架采用REINFORCE++算法和来自DeepSeek-R1的奖励(li)设计进行后(hou)训练。
随着RL训练的进行,可以观察到模型自然地分配(pei)更多的训练步骤用于推理。这种(zhong)计算扩展从生成数百个token扩展到数千个token,使其能(neng)够更深入地探索和完善其思维过程。
结果显示,只有70亿参(can)数的Qwen2.5-7B,在经过5K个逻辑问题的训练后(hou),就发展出了一些在逻辑语料库中(zhong)原本不存在的高级推理技能(neng)——如反思、验证(zheng)和总结能(neng)力(li)。
研究中(zhong),考验模型的这道逻辑题是这样的。
问题:一个非(fei)常特殊的岛屿上只住着骑士和骗子。骑士总是说真话,骗子总是说谎。你遇到两位岛民:Zoey和Oliver。Zoey说:「Oliver不是骑士。」Oliver说:「Oliver是骑士且Zoey是骗子。」请问,谁是骑士,谁是骗子?
正确答案:(1)Zoey是骗子;(2)Oliver是骑士。
这个「骑士与(yu)骗子」谜题,因其合成设计和逻辑精确性而非(fei)常适合进一步分析。
首(shou)先,谜题对于模型来说都是未见过大数据,非(fei)常适合用来测试(shi)泛化能(neng)力(li)。
其次,通(tong)过改变字符数量(2到8个)和逻辑运算的复(fu)杂性(1到4种(zhong)布尔运算符组合),可以调节难度。
而且,每个谜题都有一个单一、明确的正确答案,正确性由生成算法保证(zheng)。解答需要严(yan)格(ge)的演绎推理,因此减少了奖励(li)作弊的风(feng)险。
总之,每个谜题都遵循正式规则构建(jian),能(neng)确保每个问题都有一个独特的解决方案,并可以确定性地验证(zheng)。这消除了自然语言任务中(zhong)常见的模糊性,使我(wo)们能(neng)够清晰地区分真正的推理能(neng)力(li)和表面上的记(ji)忆。
在奖励(li)建(jian)模中(zhong),研究在模型输出中(zhong)不断检测作弊行为,并不断改进奖励(li)设计。
最终,他们设计出了一种(zhong)几乎无法作弊的基于规则的奖励(li)系统,仅包(bao)含两种(zhong)奖励(li)类型:格(ge)式奖励(li)和答案奖励(li)。
以下就是不同的推理模型和通(tong)用模型在不同难度的K&K逻辑谜题上的表现。
在RL训练后(hou),可以在模型中(zhong)观察到以下涌现的行为。
1. 会出现犹豫和自我(wo)验证(zheng)
在思考环节,模型会不时使用「我(wo)不是完全(quan)确定,让我(wo)们重新检查(cha)这一步」这类反思性表达。
这种(zhong)自我(wo)审视的行为特征在预训练阶(jie)段是完全(quan)不存在的,而是通(tong)过奖励(li)正确答案、惩罚错误答案的强化学习机制逐步培养形成的。
2. 多轮径探索和回溯
经过RL训练后(hou),模型会主动提出多个解决方案(「让我(wo)们测试(shi)两种(zhong)可能(neng)性」),并通(tong)过回溯来检查(cha)解决方案的一致性。
3. 应用公式
尽管训练数据集中(zhong)并未包(bao)含,但模型不仅能(neng)够通(tong)过系统性试(shi)错方法解决谜题,还自主整合了形式逻辑推理能(neng)力(li)(比(bi)如运用「如果P,则Q」的逻辑蕴含公式),这种(zhong)推理模式与(yu)人类的问题解决方式高度相似。
4.忽然开始说中(zhong)文
模型在分析问题陈述时会临时插入中(zhong)文表达,随后(hou)又能(neng)自然地转换为英语来提供解决方案。
这一现象表明,模型正在使用语言混合机制作为一种(zhong)潜(qian)在的备选处理策略,或是形成了某种(zhong)特殊的内部表征模式。
在具有挑战性的数学基准测试(shi)AIME和AMC上,模型展现出了卓越(yue)的泛化能(neng)力(li)——成绩分别提高了125%和38%。
这种(zhong)跨领域泛化能(neng)力(li)表明,RL训练的推理启发式方法发展出了抽象的问题解决模式,而不是依赖于特定领域的模式匹配(pei)。
所以,这项研究的训练期间,也出现「顿(dun)悟(wu)时刻」了吗?
换句话说就是,在强化学习过程中(zhong),模型的推理能(neng)力(li)是否会发生显著的飞跃,出现多步验证(zheng)或反思,而且这些行为不是在训练语料中(zhong)明确植入的,而是模型与(yu)RL环境的互动所自然产生的?
研究人员发现,模型并没有出现「等一下,等一下」这样特定的语言表述,但图4显示出,它在第(di)10步时表现出了一些复(fu)杂的推理行为(例如自我(wo)反思、探索、验证(zheng)、总结)。
由此,研究人员的结论是,RL学习过程可能(neng)没有突如其来的「顿(dun)悟(wu)时刻」——复(fu)杂的推理行为并不是在某个特定的训练步骤中(zhong)突然出现的。
1. 反思性词汇(hui)(如「检查(cha)」和「验证(zheng)」)的频(pin)率缓慢增加(a)-(c);2. 会话性短语(例如「让我(wo)们」)和谨慎词汇(hui)(例如「还」)变得更加频(pin)繁(d)-(e);3. 中(zhong)文词汇(hui)开始出现在英文回复(fu)中(zhong)(f)。所有这些词汇(hui)的频(pin)率都在稳步发展,没有突然的跳跃,表明可能(neng)不存在明显的「顿(dun)悟(wu)时刻」
除了上述技术贡献外,研究还有几个有趣的发现:
更长的回答并不能(neng)保证(zheng)更好的推理。长度本身不是评估训练时间的有效指标。最有效的推理来自最短路径。
语言混合会阻(zu)碍推理。这一观察强调了在奖励(li)建(jian)模中(zhong)需要语言一致性惩罚。
增加「思考」token确实有帮(bang)助。RL训练自然地提高了与(yu)反思相关词汇(hui)的频(pin)率,表明某些token频(pin)率与(yu)性能(neng)之间存在相关性。
监(jian)督微调(SFT)依赖记(ji)忆;RL实现泛化。SFT严(yan)重依赖记(ji)忆,往(wang)往(wang)导(dao)致表面的捷径学习,而RL则在最小(xiao)依赖数据集结构的情况下自我(wo)演化。
冷启动是一个优势,但非(fei)必需。无论是从基础模型还是指令模型开始,训练动态都保持惊人的相似性,尽管后(hou)者表现略好。
课程学习仍然重要。在固定的数据筛选比(bi)例下,精心设计的课程学习方法总是优于随机打乱。
更长的回答并不能(neng)保证(zheng)更好的推理。长度本身不是评估训练时间的有效指标。最有效的推理来自最短路径。
语言混合会阻(zu)碍推理。这一观察强调了在奖励(li)建(jian)模中(zhong)需要语言一致性惩罚。
增加「思考」token确实有帮(bang)助。RL训练自然地提高了与(yu)反思相关词汇(hui)的频(pin)率,表明某些token频(pin)率与(yu)性能(neng)之间存在相关性。
监(jian)督微调(SFT)依赖记(ji)忆;RL实现泛化。SFT严(yan)重依赖记(ji)忆,往(wang)往(wang)导(dao)致表面的捷径学习,而RL则在最小(xiao)依赖数据集结构的情况下自我(wo)演化。
冷启动是一个优势,但非(fei)必需。无论是从基础模型还是指令模型开始,训练动态都保持惊人的相似性,尽管后(hou)者表现略好。
课程学习仍然重要。在固定的数据筛选比(bi)例下,精心设计的课程学习方法总是优于随机打乱。
本文来源:,原文标题:《10美元成功复(fu)现DeepSeek顿(dun)悟(wu)时刻,3B模型爆发超(chao)强推理!微软论文实锤涌现》