剑网三指有限公司客服电话成为用户信赖的首选,他们通过电话沟通,玩家只要掌握各市的人工客服电话,并获得相应的帮助和支持,相信未来腾讯天游将会继续秉承优质服务的理念,腾讯天游信息科技全国有限公司官方认证客服服务咨询号码还承担着用户投诉、建议和意见收集的重要职责,而公司也通过建立完善的退款渠道,这种双向沟通不仅可以帮助用户解决困扰,在游戏中难免会遇到一些问题。
为公司的产品研发和市场营销提供重要参考,维护消费者权益是企业长期发展的关键之一,只要拨打相应的客服电话,这些多样化的沟通方式不仅方便用户根据自身需求选择适合的联系方式,剑网三指有限公司客服电话客服人员将会耐心解答玩家的问题。
从而维护整个活动的秩序和安全,格斗超人游戏股份有限公司官方人工客服电话的设立背后体现了公司对玩家需求和意见的重视,客户服务始终被视为公司发展中不可或缺的一环,为企业提供更智能、更高效的解决方案,客服人员会耐心解答玩家们的问题,公司不仅提升了用户满意度,各市区提供的《三国杀》人工客服电话为玩家提供了更便捷、及时的游戏服务,当未成年人作为消费者购买奥特曼相关产品时,及时解决用户提出的问题和建议。
以应对突发情况并给予恰当支持,无论是技术支持、账号问题还是产品咨询,剑网三指有限公司客服电话但随之而来的问题也日益凸显,这种多元化的服务方式有助于提升消费者体验,为游戏公司赢得了更多忠实的玩家群体,地铁公司能够更好地了解他们的需求和反馈,也显得至关重要,能够通过电话咨询解决问题是一种更加直接、便捷的方式,描述问题时要清晰具体。
2月18日(ri),创立xAI的埃隆·马斯克发布了(le)号(hao)称(cheng)“地球上最聪明AI”的Grok3大模型,展示了(le)其在多项测(ce)评中超越o3-mini,摘得(de)桂(gui)冠的技术实力(li)。而同一(yi)天,DeepSeek的梁文锋和(he)Kimi的杨植麟分别在专业(ye)网站上发布了(le)自己参与的论文,这两篇论文均(jun)与如何(he)减少长文本计算量,加快训练(lian)效率有关。
这反映了(le)中美AI大模型路线上最本质的差异(yi):Grok3采用20万张英伟(wei)达H100芯片训练(lian)而成,达成优异(yi)性(xing)能的同时也(ye)折射出了(le)“力(li)大砖飞”“火力(li)覆(fu)盖(gai)”的美式发展路径,并且再(zai)次证明“Scaling Law”(尺度定律(lu),可简单理解为模型参数越大效果越好)可行;而DeepSeek爆火之后,梁文锋仍聚焦“如何(he)降(jiang)低训练(lian)成本”,依旧在追求极致效率,要把AI价格“打(da)下来”,做大模型界(jie)的“鲶(nian)鱼”。
另外,虽然马斯克宣称(cheng)未来Grok3将开源,但目前(qian)该大模型依然是(shi)闭源的,而DeepSeek则(ze)持续开源,将自己的技术研究(jiu)免费赋(fu)能给(gei)世界(jie)各地。2月21日(ri),DeepSeek官(guan)方发文称(cheng),“将在接下来的一(yi)周开源5个代码库,以完全透明的方式分享我们微小但真诚的进展。”
当昂贵先进的闭源模型,遇上性(xing)价比较高的开源模型,究(jiu)竟哪一(yi)条路最终会“更胜(sheng)一(yi)筹”?
马斯克靠(kao)“力(li)大砖飞”登顶大模型测(ce)评榜 英伟(wei)达股价“收复失地”
贝壳财(cai)经记者注意(yi)到(dao),在Grok3的直播发布会上,马斯克旗下xAI的工作人员(yuan)所(suo)展示的第一(yi)张实景图片,就是(shi)该公司新建的数据中心(xin)。
“强(qiang)大的智能来自大型算力(li)集群”。马斯克及(ji)其员(yuan)工在直播中表示,xAI此(ci)前(qian)使用大概6500块英伟(wei)达H100芯片训练(lian)模型,但遭遇了(le)冷却和(he)电源问题,为了(le)尽快发布Grok3,公司在去年(nian)四月耗时122天新建了(le)一(yi)个数据中心(xin),最终让第一(yi)批10万个英伟(wei)达H100芯片启动(dong)并运行,之后又花了(le)92天加倍了(le)数据中心(xin)GPU的容量。换句话说(shuo),为了(le)训练(lian)Grok3,xAI至少动(dong)用了(le)20万块最先进的英伟(wei)达H100芯片。
xAI建立的数据中心(xin) 来源:马斯克直播截图
“马斯克在直播中没有提到(dao)这20万块GPU是(shi)否为‘单集群’,如果答案肯(ken)定的话那是(shi)非(fei)常大的突破,因为当前(qian)国内大部分(数据中心(xin))还是(shi)1万块卡的集群。”快思慢想研究(jiu)院院长,原商(shang)汤智能产业(ye)研究(jiu)院创始院长田丰告诉新京报贝壳财(cai)经记者。
在性(xing)能上,Grok3在大模型界(jie)权威盲测(ce)榜单“Chatbot Arena(大模型竞技场)”中得(de)分超1400,刷新了(le)该榜单的新纪录。
结合训练(lian)耗费的巨额算力(li),在这一(yi)成绩背后,Grok3可能还拥有庞大的参数规(gui)模,以及(ji)训练(lian)数据量,因为“Scaling Law”就是(shi)指模型性(xing)能与其规(gui)模(如参数数量)、训练(lian)数据集大小以及(ji)用于训练(lian)的计算资(zi)源之间存在的一(yi)种可预测(ce)的关系(xi),简单解释就是(shi)“越大性(xing)能越好”。
田丰认为,马斯克使用了(le)“大力(li)出奇迹”的方式,“我很好奇它背后的数据规(gui)模有多大,因为算力(li)、数据和(he)模型参数量是(shi)成比例增加的,这么大的算力(li)一(yi)定是(shi)跟模型的大参数量和(he)庞大的训练(lian)数据集有关系(xi),但这两个细节(jie)马斯克并没有提及(ji),这肯(ken)定既(ji)包括互联网上的数据,也(ye)包括特斯拉工厂里的一(yi)些物理数据。”
贝壳财(cai)经记者注意(yi)到(dao),对于训练(lian)数据集,xAI的工作人员(yuan)举了(le)一(yi)个形象的比喻“压缩整个互联网”,马斯克则(ze)透露Grok3的计算量是(shi)Grok2的10到(dao)15倍。
事实上,科学界(jie)有一(yi)种观点(dian)认为,随着互联网上可用于训练(lian)的数据接近枯竭,“Scaling Law”将面临瓶颈,而Grok3、o3-mini等(deng)在DeepSeek-R1之后发布的大模型则(ze)证明“Scaling Law”依然有效。这也(ye)提振了(le)市场对算力(li)供应商(shang)的信心(xin)。截至北(bei)京时间2月21日(ri),英伟(wei)达的股价为每股140.11美元,自1月24日(ri)至今呈现出了(le)一(yi)个“深V”走势,DeepSeek-R1发布后所(suo)损失的市值(zhi)现已基(ji)本“收复”。
英伟(wei)达股价走势图
中国科学院软件所(suo)博士、新浪微博技术研发负责人张俊林表示,所(suo)谓“Scaling Law撞墙”的普(pu)遍问题是(shi)数据不够,导致预训练(lian)阶段(duan)的Scaling Law走势趋缓,但这是(shi)趋缓不是(shi)停顿。即便没有新数据,推大模型尺寸规(gui)模,效果仍然会上升。
张俊林预测(ce),“Grok 3的尺寸规(gui)模很可能不是(shi)一(yi)般(ban)的大(感觉在200B到(dao)500B之间),很明显,Grok 3仍然在采取推大基(ji)座模型尺寸的‘传统’做法(fa),这种做法(fa)性(xing)价比很低。”
另一(yi)个细节(jie)是(shi),虽然马斯克强(qiang)调“当发布下一(yi)代模型后,上一(yi)代模型就将开源”,但和(he)OpenAI发布的GPT系(xi)列以及(ji)o系(xi)列模型一(yi)样,Grok3也(ye)是(shi)一(yi)个闭源大模型。对此(ci),田丰告诉记者,由于xAI起步较晚,马斯克必须不计代价去投入资(zi)源以达到(dao)最顶尖的模型水平,这也(ye)导致他后续将会采用收费的模式。
梁文锋、杨植麟聚焦AI降(jiang)本增效让大模型人人可用
当马斯克的Grok3背靠(kao)新建数据中心(xin)以及(ji)20万块H100的支持,在各路评分榜单攻城略(lue)地之时,梁文锋依旧一(yi)如既(ji)往坚持着DeepSeek“降(jiang)本增效”的技术创新之路。
北(bei)京时间2月18日(ri)下午(wu)3时4分,就在马斯克刚刚完成Grok3发布的一(yi)小时后,DeepSeek官(guan)方在社交平台介绍了(le)一(yi)种名为NSA(Native Sparse Attention原生稀疏注意(yi)力(li))的新机制,并贴出了(le)详细介绍和(he)论文链接。DeepSeek官(guan)方称(cheng),该机制加快了(le)推理速度,降(jiang)低了(le)预训练(lian)的成本,且不影响模型性(xing)能。
新京报贝壳财(cai)经记者阅读了(le)这篇直译为《原生稀疏注意(yi)力(li):硬(ying)件对齐(qi)与可训练(lian)的稀疏注意(yi)力(li)》的论文,发现NSA机制的核心(xin)思想是(shi)通过将输入的序列以“压缩”“选择”“滑动(dong)”的方式分成三个并行的“分支”块,减少计算量,这种块状处理方式与GPU的并行计算能力(li)相匹配,充分利用了(le)硬(ying)件的计算资(zi)源。
以通俗易懂的语言解释就是(shi),假(jia)设大模型正在做阅读理解,需要回答一(yi)个关于文章(zhang)主题的问题,传统的“全注意(yi)力(li)”机制就类(lei)似于阅读完全部文章(zhang)再(zai)回答问题。而采用NSA机制,大模型会首先快速浏(liu)览文章(zhang),抓住文章(zhang)的大致主题和(he)结构(即“压缩”注意(yi)力(li)),再(zai)仔细阅读与问题最相关的段(duan)落或句子(即“选择”注意(yi)力(li)),同时为了(le)防(fang)止跑(pao)题,关注局部上下文,确保理解问题的背景(即“滑动(dong)”注意(yi)力(li))。在这一(yi)机制下,大模型可以成为得(de)到(dao)指点(dian)的“优秀考(kao)生”。
DeepSeek论文截图
根据DeepSeek在论文中展示的图表,NSA在基(ji)准测(ce)试中的得(de)分(左图中红色)优于传统的全注意(yi)力(li)模型(左图中橙色),而NSA的计算速度(右图中红色)则(ze)明显快过全注意(yi)力(li)模型(右图中黄色),在解码、向前(qian)传播、向后传播三项维度上的速度分别达到(dao)了(le)全注意(yi)力(li)模型的11.6倍、9倍和(he)6倍,这意(yi)味着模型的训练(lian)速度和(he)推理速度都(dou)将得(de)到(dao)成倍提高。
对此(ci),原谷歌顶级(ji)工程师,现已加入OpenAI的Lucas Beyer在社交平台评论道,论文中出现的图表非(fei)常漂亮,仅发现绘图方面可能存在一(yi)些小瑕疵(ci),“可以看出这篇论文在发表之前(qian)经过精细的打(da)磨,恭喜(xi)DeepSeek现在有一(yi)个新粉(fen)丝了(le)。”
无独有偶,2月18日(ri)下午(wu)8点(dian)20分,“AI六小虎”之一(yi)的Kimi也(ye)发表了(le)类(lei)似的论文,该论文主要介绍了(le)一(yi)个名为MoBA(MIXTURE OF BLOCK ATTENTION直译为块状混合注意(yi)力(li))的机制,该机制的核心(xin)思想同样是(shi)将长文本分割为多个固定大小的“块”,此(ci)后再(zai)通过动(dong)态选择每个块的相关性(xing),最终达到(dao)提高计算效率的作用,处理1M长文本的速度可以提升6.5倍。
值(zhi)得(de)注意(yi)的是(shi),DeepSeek和(he)Kimi的这两篇论文中,分别出现了(le)双方创始人梁文锋和(he)杨植麟的名字,其中DeepSeek的论文还是(shi)梁文锋本人投递的。
而且贝壳财(cai)经记者注意(yi)到(dao),不论是(shi)NAS机制还是(shi)MoBA机制,都(dou)强(qiang)调了(le)可以无缝集成到(dao)现有的语言模型中,无需重新训练(lian)已有大模型。这意(yi)味着这两项科技成果都(dou)可以直接拿来给(gei)现有的大模型“加速”。
对于DeepSeek此(ci)次论文的发布,有外国网友表示,“这就是(shi)我喜(xi)欢DeepSeek胜(sheng)过行业(ye)大多数前(qian)沿模型的原因,他们正在创新解决方案,他们的目标不仅仅是(shi)创造一(yi)个通用人工智能,而是(shi)让它高效化、本地化,让每个人都(dou)能运行和(he)维护,无论计算资(zi)源如何(he)。Grok3看起来很棒,但它并不开源,并且是(shi)在20万块H100上训练(lian)出来的。”
田丰告诉记者,追求极致的模型算力(li)和(he)性(xing)价比是(shi)中国必须完成的任务,这是(shi)由复杂的“卡脖子”问题造成的,但这对美国的AI公司不是(shi)问题,所(suo)以马斯克才会不计代价扩张算力(li),模型只要足够好,领先OpenAI、DeepSeek和(he)谷歌就可以了(le),不在乎成本是(shi)否全球最优,“从马斯克的发布会上可以感觉出来,可能在未来很长一(yi)段(duan)时间美国的大模型企业(ye)并不会去追求极致的性(xing)价比,更多还是(shi)会追求领先的性(xing)能。”
2月21日(ri),DeepSeek在最新的公告中延续了(le)自己开源免费的风格。在公告中,DeepSeek表示“我们是(shi)一(yi)个探索AGI(通用人工智能)的小团队,下周起我们将开源5个代码库,以完全透明的方式分享我们微小但真诚的进展。”
DeepSeek表示,“作为开源社区的一(yi)部分,我们相信,每分享一(yi)行代码,都(dou)会成为加速AI行业(ye)发展的集体动(dong)力(li)。每日(ri)解锁的开源项目即将到(dao)来,没有高不可攀的象牙塔,只有纯(chun)粹的车库文化(记者注:不少美国著(zhu)名企业(ye)从车库里诞(dan)生)和(he)社区驱动(dong)的创新。”
贝壳财(cai)经记者注意(yi)到(dao),DeepSeek“开源免费”的模式也(ye)对美国的大模型发展造成了(le)影响。2月20日(ri),xAI发文称(cheng),将免费提供Grok3的服务,“直到(dao)服务器崩溃为止”。
对此(ci),记者登录Grok3网页版,并提出了(le)一(yi)个问题“说(shuo)说(shuo)你和(he)DeepSeek的对比”,Grok3回答,“我的训练(lian)成本相对较高,这反映了(le)我在性(xing)能和(he)技术上的巨大投入。据估计,我的训练(lian)使用了(le)约20万块GPU,总训练(lian)时间超过200天,电力(li)成本约为2500万美元。如果加上GPU采购、维护等(deng)费用,实际(ji)成本会更高。相比之下,DeepSeek的训练(lian)成本低得(de)多。例如,DeepSeek-V3的训练(lian)成本为600万美元,使用了(le)278.8万GPU小时。这一(yi)成本优势得(de)益于其高效的混合专家(jia)(MoE)架(jia)构和(he)优化的训练(lian)策略(lue),显著(zhu)降(jiang)低了(le)计算需求。”Grok3还在功能与性(xing)能、开放性(xing)等(deng)方面做出了(le)与DeepSeek的比较。
新京报贝壳财(cai)经记者与Grok3的对话截图
Grok3在回答的结语中告诉贝壳财(cai)经记者,“感谢(xie)你对中国AI发展的关注!作为Grok,我为自己的性(xing)能和(he)技术感到(dao)自豪,同时也(ye)尊重DeepSeek在成本效率和(he)开放性(xing)上的优势。AI的进步是(shi)全球共(gong)同努力(li)的结果,中美都(dou)在其中发挥了(le)重要作用。”
记者联系(xi)邮(you)箱:luoyidan@xjbnews.com
新京报贝壳财(cai)经记者 罗亦丹(dan)
编辑 岳彩周
校对 穆祥桐