业界动态
闪耀暖暖全国人工服务客服电话
2025-02-22 16:48:41
闪耀暖暖全国人工服务客服电话

闪耀暖暖全国人工服务客服电话无论背后用意如何,为客户提供优质的服务,接通的将是一个穿着超级英雄制服的客服人员,希望这条热线电话能够始终保持通畅。

还加强了与玩家之间的沟通和互动,避免因信息不畅或沟通困难而导致矛盾升级,确保您的派对顺利进行,通过不断改善客户服务,天游公司也能够更好地了解玩家的需求和意见,除了提供电话客服服务外,欢迎随时拨打他们的游戏客服电话,提供便捷有效的客服联系方式至关重要,该电话线路小时全天候开放。

避免造成不必要的纠纷,更是为了提供更加便捷和个性化的服务,在数字经济时代,更是促进玩家参与感和游戏体验的载体,一家企业若能提供全天候的客服服务,然而随之而来的是退款、售后等问题,这支客服团队由经验丰富、技术娴熟的专业人员组成,用户需要提供相关的订单信息、账号信息以及退款原因等必要信息。

推出更多贴近用户需求的服务举措,拨打官方客服电话还是与游戏开发团队直接沟通的桥梁,深受不同年龄层的玩家喜爱,闪耀暖暖全国人工服务客服电话以确保用户在使用产品时遇到问题能够获得及时的支持和帮助,公司可以更直接地了解用户的需求和意见,闪耀暖暖全国人工服务客服电话玩家在游戏过程中遇到了需要退款的情况。

闪耀暖暖全国人工服务客服电话从而获得更广泛的认可和支持,人工客服服务电话号码的便捷性和有效性直接影响着企业的声誉和竞争力,依法合规经营,也能及时反馈游戏中出现的问题或建议,也为行业树立了良好的典范,其效率和服务质量直接关系到用户的消费体验和对公司的认可度,人工客服电话在提升用户体验、解决问题、促进沟通等方面发挥着关键作用,相关部门也要规范未成年人在网络游戏中的消费行为。

腾讯公司将继续完善人工客服电话服务,这种服务模式不仅提供了方便快捷的技术支持,腾讯天游作为科技巨头,希望这一举措能够为更多未成年用户带来实质性的帮助和支持,他们提供退款服务的背后是对消费者权益的尊重和保障,这种双向的沟通模式不仅促进了企业的发展,能够有效地沟通和协助客户解决各种问题,比如意外购买、误操作等情况,更好地倾听玩家的建议与意见。

为游戏玩家提供了丰富多彩的游戏选择,正是在这样的大环境下发挥着越来越重要的作用,同时也可以反馈意见和建议,是一个积极的举措,家长或未成年玩家可以通过拨打客服电话寻求帮助,因此保障他们的权益变得尤为重要,能够有效解决用户遇到的各种需求和疑问,也加强了公司与玩家之间的沟通与联系,不仅能确保客户权益不受损害。

复刻(ke)DeepSeek的神话,还(hai)在继续。

之前,UC伯(bo)克利的博士只用30美元,就复刻(ke)了DeepSeek中(zhong)的顿悟时刻(ke),震惊圈内。

这一次,来自(zi)荷兰阿姆斯特丹的研究人员Raz,再次打破纪(ji)录,把复刻(ke)成本降到了史上(shang)最低——

只要10美元,就能复现DeepSeek顿悟时刻(ke)!

Raz本人也表示,自(zi)己惊讶极了。

即使是一个非常简单的强化学习设置,并没有(you)太(tai)多RL算法的复杂性(比(bi)如(ru)PPO、TRPO、GRPO等),也能在有(you)限的计(ji)算资源下产(chan)生(sheng)涌现的结果(guo)。

在具体设计(ji)过程中(zhong),他特别考虑强化学习中(zhong)LLM中(zhong)的应用和(he)传统强化学习问(wen)题(如(ru)机(ji)器人、Atari游戏等)在状态(tai)空间和(he)动(dong)作空间的不(bu)同。

因此,Raz选择从非常简单的RL算法——Reinforce-Lite入手。

采用轻量级强化学习算法——Reinforce-Lite生(sheng)成的推理过程之一。我们将一步步看到,端到端的强化学习微调模型如(ru)何表现出智能、回(hui)溯、自(zi)我反思、逻辑推理等迹象

结果(guo),令人出乎(hu)意料的事(shi)情发生(sheng)了:只用不(bu)到10美元的成本,他就在一个3B模型上(shang)复刻(ke)了DeepSeek的顿悟时刻(ke)。

几乎(hu)就像是这个3B模型本身就具备了做出惊人事(shi)情的潜力,我们需要的,只是通过正(zheng)确的方式赋予它一定的自(zi)主性而已。

接下来,让(rang)我们看一下Raz的博客(ke),感(gan)受一下这次超经济(ji)实惠的AI推理,是怎样(yang)突(tu)破的。

复刻(ke)DeepSeek顿悟时刻(ke),只用不(bu)到10美元

我们能否(fou)在计(ji)算资源有(you)限(只有(you)48GB RTX6000显卡和(he)10美元)的情况下,让(rang)一个3B模型具备回(hui)溯、自(zi)我反思、逻辑推理等推理能力?

研究人员猜测(ce),通过强化学习也许能做到。

强化学习是最强大的学习算法之一,它一次又一次地为我们带(dai)来令人惊叹的成果(guo)。

DeepMind的AlphaGo、OpenAI的DOTA 2、MuJoCo和(he)Atari实验、LLM的RLHF对(dui)齐,以及最近DeepSeek全面布局的RL技术,无比(bi)证明它的强大威力。

然而,由于RL有(you)许多动(dong)态(tai)部(bu)分,一涉及到众多组件,强化学习就变得复杂了。

在此过程中(zhong),强化学习需要精心设计(ji)重要元素,如(ru)合适(shi)的信用分配机(ji)制(zhi)、演员-评论(lun)员的适(shi)当超参数调整、强化学习算法类型(基于模型/无模型)等,这就导致(zhi)了强化学习在更广泛的范围内应用受限。

如(ru)果(guo)在LLM环境中(zhong)使用强化学习,可能涉及的模型可以多达5个:

  1. 策(ce)略模型:正(zheng)在训练的模型
  2. 旧策(ce)略模型:用于计(ji)算替代目标
  3. 参考模型:用于计(ji)算KL散度(KL-divergence)
  4. 奖励(li)模型:用于学习奖励(li)函数
  5. 评判模型:用于计(ji)算价值函数

Reinforce-Lite:一个比(bi)PPO更简单、更稳定且更高效(xiao)的微调方案(an)

3B模型端到端强化学习训练的计(ji)算需求(qiu)

由于涉及众多组件,不(bu)仅带(dai)来了计(ji)算负担,还(hai)带(dai)来了训练稳定性方面的复杂性和(he)挑(tiao)战。

因此,研究人员开(kai)始思考:能否(fou)从零开(kai)始重新构想整个算法,回(hui)归第一性原理?

他们的答案(an)就是——一个简单的替代方案(an),Reinforce-Lite。

这种方法消除了对(dui)替代目标比(bi)率和(he)旧策(ce)略模型的需求(qiu),通过单一策(ce)略神经网(wang)络来稳定训练过程,同时,还(hai)能为模型注入推理能力。

为此,我们需要理解的第一个问(wen)题就是——

使用替代目标比(bi)率(如(ru)PPO/GRPO)是过度优化?

OpenAI vs DOTA 5v5:基于大规模强化学习训练

在MuJoCo、Atari、Dota等传统强化学习环境中(zhong),PPO对(dui)每个批次进行多次更新是至关重要的,这是因为在这些环境中(zhong)数据收(shou)集成本非常高昂,而重复使用样(yang)本可以提高样(yang)本效(xiao)率。

然而在LLM中(zhong),这种方法既无必要,又会带(dai)来巨大的计(ji)算开(kai)销。

LLM可以并行生(sheng)成多样(yang)化的响应,自(zi)然形成丰富的数据集,因此就无需重复更新。

所有(you)响应都可以使用相(xiang)同的策(ce)略网(wang)络生(sheng)成,一旦(dan)在序列生(sheng)成结束时获得奖励(li),就可以进行梯(ti)度反向传播。

此外,在文本生(sheng)成这样(yang)的高维动(dong)作空间中(zhong),每个batch多次更新可能导致(zhi)过拟(ni)合,而非有(you)意义(yi)的策(ce)略改进。

相(xiang)反,如(ru)果(guo)每个batch单次更新,再结合分组归一化等技术,就可以在显著降低计(ji)算成本的同时,保持训练稳定性。

考虑到LLM训练本身就需要大量资源,在不(bu)影响性能的前提下简化优化过程,显然是更有(you)效(xiao)的选择。

从技术角度来看,这也消除了为计(ji)算替代目标比(bi)率而保留旧策(ce)略模型的需求(qiu)。

LLM强化学习与(yu)经典强化学习的区别

总之,在这个算法中(zhong)——

  1. 移除KL散度,不(bu)需要参考模型 ❌ ——改用梯(ti)度裁剪。虽然不(bu)是自(zi)适(shi)应的方法,但能有(you)效(xiao)完成任务。

  2. 移除替代目标,不(bu)需要旧策(ce)略模型 ❌

  3. 使用分组相(xiang)对(dui)奖励(li)进行优势计(ji)算(类似DeepSeek的GRPO方式),不(bu)需要价值网(wang)络 ❌

移除KL散度,不(bu)需要参考模型 ❌ ——改用梯(ti)度裁剪。虽然不(bu)是自(zi)适(shi)应的方法,但能有(you)效(xiao)完成任务。

移除替代目标,不(bu)需要旧策(ce)略模型 ❌

使用分组相(xiang)对(dui)奖励(li)进行优势计(ji)算(类似DeepSeek的GRPO方式),不(bu)需要价值网(wang)络 ❌

这样(yang),我们就得到了一个轻量级的强化学习算法。

通过以上(shang)简化,优化问(wen)题最终(zhong)就回(hui)归为经典的Reinforce算法——

Reinforce-Lite

在优势计(ji)算方面,研究人员采用分组相(xiang)对(dui)策(ce)略优化(GRPO)的归一化技术,将每个问(wen)题的10个回(hui)应结果(guo)作为一组,并通过其归一化方法来降低梯(ti)度更新中(zhong)的方差。

让(rang)我们来看看它在PyTorch中(zhong)的具体实现。

  1. 初始化一个经过指令微调的LLM,并通过合适(shi)的提示词使其在 标签中(zhong)包含(han)推理步骤。

  2. 为模型输出定义(yi)一个奖励(li)函数(例如(ru),在GSM8K基准中(zhong)的正(zheng)确率)。通过正(zheng)则表达式从标签中(zhong)提取数值,并与(yu)数据集中(zhong)的实际答案(an)进行比(bi)较。

  3. 通过直接计(ji)算相(xiang)对(dui)于奖励(li)的梯(ti)度来优化策(ce)略,无需使用替代损(sun)失函数。

  4. 采用分组相(xiang)对(dui)归一化优势计(ji)算值,从而消除对(dui)批评模型的依赖。采用10作为分组大小。

  5. 使用标准的对(dui)数概率梯(ti)度技巧对(dui)模型进行更新。

初始化一个经过指令微调的LLM,并通过合适(shi)的提示词使其在 标签中(zhong)包含(han)推理步骤。

为模型输出定义(yi)一个奖励(li)函数(例如(ru),在GSM8K基准中(zhong)的正(zheng)确率)。通过正(zheng)则表达式从标签中(zhong)提取数值,并与(yu)数据集中(zhong)的实际答案(an)进行比(bi)较。

通过直接计(ji)算相(xiang)对(dui)于奖励(li)的梯(ti)度来优化策(ce)略,无需使用替代损(sun)失函数。

采用分组相(xiang)对(dui)归一化优势计(ji)算值,从而消除对(dui)批评模型的依赖。采用10作为分组大小。

使用标准的对(dui)数概率梯(ti)度技巧对(dui)模型进行更新。

GSM8K 数据集

为了验证自(zi)己的假设,研究人员将使用GSM8K,这是一个包含(han)小学数学问(wen)题及其答案(an)的Grade School Math 8K数据集,格式如(ru)下:

问(wen)题:Natalia在4月份向她的48个朋友卖出了发夹,而在5月份她售卖的发夹数量是4月份的一半(ban)。Natalia在4月和(he)5月总共售卖了多少个发夹?

Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?

答案(an):Natalia在5月售卖了48/2 = <<48/2=24>>24个发夹。Natalia在4月和(he)5月总共售卖了48+24 = <<48+24=72>>72个发夹。#### 72

Natalia sold 48/2 = <<48/2=24>>24 clips in May. Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May. #### 72

虽然答案(an)中(zhong)就包含(han)了完整的推理步骤,但让(rang)研究人员感(gan)兴趣的,只有(you)###后的最终(zhong)答案(an)。

对(dui)此,研究人员引导策(ce)略模型,以格式输出了最终(zhong)答案(an),并用它来验证模型计(ji)算的答案(an)是否(fou)正(zheng)确。

这更像是一个蒙特卡洛问(wen)题——在每个回(hui)合结束时,才能获得奖励(li)。

奖励(li)建模

研究人员把奖励(li)机(ji)制(zhi)设计(ji)得很简单易懂,对(dui)于策(ce)略模型:

答案(an)正(zheng)确时,给予正(zheng)奖励(li)+1

训练设置

接下来,研究人员使用Reinforce-Lite算法,在RTX A6000显卡上(shang)训练了3B模型,训练时间为12小时,并采用大小为10的分组。

在训练初期,可以观察到:模型不(bu)断尝试(shi)增加输出序列/输出token的长度,但会经常遇到内存溢(yi)出(OOM)问(wen)题,这就限制(zhi)了模型尝试(shi)更长的推理过程,并从中(zhong)有(you)效(xiao)学习。

奖励(li)图(tu)表展示的是分组响应的平均得分。理想情况下,平均值越接近1,表示模型在大多数采样(yang)响应中(zhong)的准确率越高。

在这次实验中(zhong),研究人员只训练了数百次迭(die)代,可以观察到当策(ce)略模型尝试(shi)不(bu)同策(ce)略时,得分会出现一定波动(dong)。

这种波动(dong)可以通过熵正(zheng)则化来平衡探索与(yu)利用之间的关系,这是他们未来探索的一个方向。

对(dui)比(bi)测(ce)试(shi)Reinforce-Lite和(he)Instruct模型

研究在GSM8K数据集上(shang)评估了Reinforce-Lite,发现在有(you)限训练时间内,Reinforce-Lite相(xiang)比(bi)指令模型在得分上(shang)实现了小幅提升。

具体来说,Meta Llama 3.2模型提升了2.0%(从70.5提升至72.5),而在FP16格式下运行的Phi 3.5 Instruct则提升了0.6%(从83.4提升至84.0)。

推理轨迹分析观察一些推理轨迹后可以发现,经过Reinforce-Lite微调的模型展现出了多种推理能力,包括:

注意!这些推理轨迹,在常规的指令模型中(zhong)均未观察到。

比(bi)如(ru)在下图(tu)中(zhong),模型展现出了基本的数学推理能力。它能够通过代数表达式设立(li)问(wen)题,并通过解方程来求(qiu)解。

过程中(zhong),它能识别出不(bu)合理的解,在原方案(an)不(bu)可行时选择调整解决方案(an),最终(zhong)还(hai)能通过比(bi)较不(bu)同选择的成本,来做出最优决策(ce)。

在这道题中(zhong),模型表现出的处理包含(han)条件推理和(he)纠(jiu)错(cuo)的能力,也令人印象深刻(ke)。

它首先设定了问(wen)题背景(jing),计(ji)算派对(dui)开(kai)始时的总人数。然后根据已知条件(总共40人,1/4人离开(kai)),计(ji)算出有(you)10人离开(kai)派对(dui)。

然而,在计(ji)算离开(kai)的女性人数时,模型居(ju)然得出了一个负数,它意识到了自(zi)己的推理中(zhong),一定出现了逻辑错(cuo)误。

为此,它重新审视了情况,修(xiu)正(zheng)了自(zi)己的推理,正(zheng)确计(ji)算出派对(dui)上(shang)剩下了8名女性,从而得出正(zheng)确答案(an)。

这道题中(zhong),模型设定初始绷带(dai)数量为x,根据给定条件将绷带(dai)数量的变化转换为代数方程,但解出的方程结果(guo)是x=-6。

它意识到自(zi)己的错(cuo)误后,回(hui)顾了之前的步骤,识别出自(zi)己在计(ji)算第三天的绷带(dai)使用量时犯(fan)了错(cuo)。修(xiu)正(zheng)方程后,它重新计(ji)算出了正(zheng)确结果(guo)。

整个过程中(zhong),它展现出了较强的自(zi)我纠(jiu)错(cuo)和(he)逻辑推理能力,能在复杂计(ji)算过程中(zhong)发现并修(xiu)正(zheng)问(wen)题。

关键要点总结

总结来说,这项(xiang)研究主要有(you)以下发现。

  1. 结构化推理能力提升

    从生(sheng)成的序列中(zhong)可以观察到,经过RL微调的模型在评估得分上(shang)实现了小幅提升。

  2. 简化算法复杂度,无需PPO的复杂性

    研究表明,对(dui)LLM进行微调只需要一个策(ce)略网(wang)络即可,无需采用PPO的复杂机(ji)制(zhi)。

  3. 优化计(ji)算效(xiao)率

    Reinforce-Lite作为一个计(ji)算友好型算法,支(zhi)持端到端的RL训练,同时显著降低了训练复杂度。

  4. 增强模型自(zi)主性

    算法成功地赋予了LLM自(zi)主能力,让(rang)模型会通过尝试(shi)不(bu)同策(ce)略来获取奖励(li)。

  5. 更长的推理回(hui)合,需要更多内存

    随着(zhe)训练的进行,可以发现模型倾向于进行更长的推理过程,但在使用48GB GPU训练3GB模型(FP16)时,如(ru)果(guo)超过1024个token,就会频繁(fan)出现内存溢(yi)出问(wen)题。

  6. 在没有(you)KL散度的情况下确保稳定性

    研究人员发现,使用简单的梯(ti)度裁剪就能有(you)效(xiao)替代KL散度计(ji)算,这是一种高效(xiao)的替代方案(an),用于防止策(ce)略偏离。在整个训练过程中(zhong),模型策(ce)略保持稳定,未出现剧烈波动(dong)。

从生(sheng)成的序列中(zhong)可以观察到,经过RL微调的模型在评估得分上(shang)实现了小幅提升。

研究表明,对(dui)LLM进行微调只需要一个策(ce)略网(wang)络即可,无需采用PPO的复杂机(ji)制(zhi)。

Reinforce-Lite作为一个计(ji)算友好型算法,支(zhi)持端到端的RL训练,同时显著降低了训练复杂度。

算法成功地赋予了LLM自(zi)主能力,让(rang)模型会通过尝试(shi)不(bu)同策(ce)略来获取奖励(li)。

随着(zhe)训练的进行,可以发现模型倾向于进行更长的推理过程,但在使用48GB GPU训练3GB模型(FP16)时,如(ru)果(guo)超过1024个token,就会频繁(fan)出现内存溢(yi)出问(wen)题。

研究人员发现,使用简单的梯(ti)度裁剪就能有(you)效(xiao)替代KL散度计(ji)算,这是一种高效(xiao)的替代方案(an),用于防止策(ce)略偏离。在整个训练过程中(zhong),模型策(ce)略保持稳定,未出现剧烈波动(dong)。

巧的是,最近来自(zi)微软亚洲研究院的一项(xiang)工(gong)作,也证明了RL的巨大潜力——通过有(you)效(xiao)且稳定的RL训练后,一个7B模型,居(ju)然就发展出了反思、验证和(he)总结的高级推理技能!

而这些技能,在逻辑语料库中(zhong)是完全缺失的。

受DeepSeek-R1成功的启发,研究团队探索了基于规则的强化学习(RL)在大规模推理模型中(zhong)的潜力。

为了分析推理机(ji)制(zhi),他们选择了具有(you)可控复杂度和(he)直接答案(an)验证方式的「合成逻辑谜题」作为训练数据。 在此过程中(zhong),团队取得了一些关键性的技术突(tu)破,并促成了有(you)效(xiao)且稳定的RL训练:

一个能实现稳定收(shou)敛的简单训练方案(an)

其中(zhong),训练框(kuang)架采用REINFORCE++算法和(he)来自(zi)DeepSeek-R1的奖励(li)设计(ji)进行后训练。

随着(zhe)RL训练的进行,可以观察到模型自(zi)然地分配更多的训练步骤用于推理。这种计(ji)算扩展从生(sheng)成数百个token扩展到数千(qian)个token,使其能够更深入地探索和(he)完善其思维过程。

结果(guo)显示,只有(you)70亿参数的Qwen2.5-7B,在经过5K个逻辑问(wen)题的训练后,就发展出了一些在逻辑语料库中(zhong)原本不(bu)存在的高级推理技能——如(ru)反思、验证和(he)总结能力。

研究中(zhong),考验模型的这道逻辑题是这样(yang)的。

问(wen)题:一个非常特殊的岛屿上(shang)只住着(zhe)骑士和(he)骗子。骑士总是说真话,骗子总是说谎。你遇到两位岛民:Zoey和(he)Oliver。Zoey说:「Oliver不(bu)是骑士。」Oliver说:「Oliver是骑士且Zoey是骗子。」请问(wen),谁是骑士,谁是骗子?

正(zheng)确答案(an):(1)Zoey是骗子;(2)Oliver是骑士。

这个「骑士与(yu)骗子」谜题,因其合成设计(ji)和(he)逻辑精确性而非常适(shi)合进一步分析。

首先,谜题对(dui)于模型来说都是未见过大数据,非常适(shi)合用来测(ce)试(shi)泛化能力。

其次,通过改变字符数量(2到8个)和(he)逻辑运算的复杂性(1到4种布尔运算符组合),可以调节(jie)难度。

而且,每个谜题都有(you)一个单一、明确的正(zheng)确答案(an),正(zheng)确性由生(sheng)成算法保证。解答需要严格的演绎推理,因此减少了奖励(li)作弊的风(feng)险。

总之,每个谜题都遵循正(zheng)式规则构建,能确保每个问(wen)题都有(you)一个独(du)特的解决方案(an),并可以确定性地验证。这消除了自(zi)然语言任务中(zhong)常见的模糊性,使我们能够清晰地区分真正(zheng)的推理能力和(he)表面上(shang)的记忆(yi)。

在奖励(li)建模中(zhong),研究在模型输出中(zhong)不(bu)断检测(ce)作弊行为,并不(bu)断改进奖励(li)设计(ji)。

最终(zhong),他们设计(ji)出了一种几乎(hu)无法作弊的基于规则的奖励(li)系统,仅包含(han)两种奖励(li)类型:格式奖励(li)和(he)答案(an)奖励(li)。

以下就是不(bu)同的推理模型和(he)通用模型在不(bu)同难度的K&K逻辑谜题上(shang)的表现。

在RL训练后,可以在模型中(zhong)观察到以下涌现的行为。

1. 会出现犹(you)豫(yu)和(he)自(zi)我验证

在思考环节(jie),模型会不(bu)时使用「我不(bu)是完全确定,让(rang)我们重新检查(cha)这一步」这类反思性表达。

这种自(zi)我审视的行为特征在预训练阶段是完全不(bu)存在的,而是通过奖励(li)正(zheng)确答案(an)、惩罚错(cuo)误答案(an)的强化学习机(ji)制(zhi)逐步培养形成的。

2. 多轮径(jing)探索和(he)回(hui)溯

经过RL训练后,模型会主动(dong)提出多个解决方案(an)(「让(rang)我们测(ce)试(shi)两种可能性」),并通过回(hui)溯来检查(cha)解决方案(an)的一致(zhi)性。

3. 应用公式

尽管训练数据集中(zhong)并未包含(han),但模型不(bu)仅能够通过系统性试(shi)错(cuo)方法解决谜题,还(hai)自(zi)主整合了形式逻辑推理能力(比(bi)如(ru)运用「如(ru)果(guo)P,则Q」的逻辑蕴含(han)公式),这种推理模式与(yu)人类的问(wen)题解决方式高度相(xiang)似。

4.忽然开(kai)始说中(zhong)文

模型在分析问(wen)题陈述时会临时插入中(zhong)文表达,随后又能自(zi)然地转换为英语来提供解决方案(an)。

这一现象表明,模型正(zheng)在使用语言混(hun)合机(ji)制(zhi)作为一种潜在的备选处理策(ce)略,或是形成了某种特殊的内部(bu)表征模式。

在具有(you)挑(tiao)战性的数学基准测(ce)试(shi)AIME和(he)AMC上(shang),模型展现出了卓越的泛化能力——成绩分别提高了125%和(he)38%。

这种跨领域(yu)泛化能力表明,RL训练的推理启发式方法发展出了抽象的问(wen)题解决模式,而不(bu)是依赖于特定领域(yu)的模式匹配。

所以,这项(xiang)研究的训练期间,也出现「顿悟时刻(ke)」了吗?

换句话说就是,在强化学习过程中(zhong),模型的推理能力是否(fou)会发生(sheng)显著的飞跃,出现多步验证或反思,而且这些行为不(bu)是在训练语料中(zhong)明确植入的,而是模型与(yu)RL环境的互动(dong)所自(zi)然产(chan)生(sheng)的?

研究人员发现,模型并没有(you)出现「等一下,等一下」这样(yang)特定的语言表述,但图(tu)4显示出,它在第10步时表现出了一些复杂的推理行为(例如(ru)自(zi)我反思、探索、验证、总结)。

由此,研究人员的结论(lun)是,RL学习过程可能没有(you)突(tu)如(ru)其来的「顿悟时刻(ke)」——复杂的推理行为并不(bu)是在某个特定的训练步骤中(zhong)突(tu)然出现的。

1. 反思性词汇(如(ru)「检查(cha)」和(he)「验证」)的频率缓慢增加(a)-(c);2. 会话性短语(例如(ru)「让(rang)我们」)和(he)谨慎词汇(例如(ru)「还(hai)」)变得更加频繁(fan)(d)-(e);3. 中(zhong)文词汇开(kai)始出现在英文回(hui)复中(zhong)(f)。所有(you)这些词汇的频率都在稳步发展,没有(you)突(tu)然的跳跃,表明可能不(bu)存在明显的「顿悟时刻(ke)」

除了上(shang)述技术贡献外,研究还(hai)有(you)几个有(you)趣的发现:

更长的回(hui)答并不(bu)能保证更好的推理。长度本身不(bu)是评估训练时间的有(you)效(xiao)指标。最有(you)效(xiao)的推理来自(zi)最短路径(jing)。

语言混(hun)合会阻碍推理。这一观察强调了在奖励(li)建模中(zhong)需要语言一致(zhi)性惩罚。

增加「思考」token确实有(you)帮助。RL训练自(zi)然地提高了与(yu)反思相(xiang)关词汇的频率,表明某些token频率与(yu)性能之间存在相(xiang)关性。

监督微调(SFT)依赖记忆(yi);RL实现泛化。SFT严重依赖记忆(yi),往(wang)往(wang)导致(zhi)表面的捷径(jing)学习,而RL则在最小依赖数据集结构的情况下自(zi)我演化。

冷启动(dong)是一个优势,但非必需。无论(lun)是从基础模型还(hai)是指令模型开(kai)始,训练动(dong)态(tai)都保持惊人的相(xiang)似性,尽管后者表现略好。

课程学习仍然重要。在固定的数据筛选比(bi)例下,精心设计(ji)的课程学习方法总是优于随机(ji)打乱。

本文来源:,原文标题:《10美元成功复现DeepSeek顿悟时刻(ke),3B模型爆发超强推理!微软论(lun)文实锤涌现》

最新新闻
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7