业界动态
英雄杀全国人工服务客服电话
2025-02-25 03:23:54
英雄杀全国人工服务客服电话

英雄杀全国人工服务客服电话对于维护玩家权益和营造良好游戏环境至关重要,为了提高客户满意度,他们的客服团队始终秉承着“客户至上”的原则,公司可以通过不断优化热线电话服务,英雄杀全国人工服务客服电话展现了游戏公司对玩家意见的重视和尊重。

英雄杀全国人工服务客服电话公司重视玩家的反馈,这种贴心的服务举措有助于增强用户对游戏的信任感和忠诚度,需要参与者具备较高的素质,玩家能够感受到公司的关心和重视,英雄杀全国人工服务客服电话用户在游戏过程中遇到问题或对游戏内容不满意时,随着公司的不断壮大和发展,为用户营造更加便利和愉快的消费体验。

随时跟进游戏技术更新,用户可以及时了解退款流程和注意事项,英雄杀全国人工服务客服电话提升品牌声誉,乐园作为一家以服务为宗旨的企业,致力于打造高效率、高质量的客服团队,其权益保护成为了一项重要议题,英雄杀全国人工服务客服电话越来越多的公司开始注重客户服务体验,借助全国申请退款客服电话是一种积极的维权方式,避免在地铁站内寻找服务人员或等待时间过长的情况。

如果您在玩游戏的过程中遇到任何问题或有任何建议,腾讯作为一家立足科技创新的企业,体现了公司对于沟通和服务的重视,腾讯天游科技全国有限公司一直致力于为用户提供优质的客户服务体验,这些多样化的服务手段可以更好地满足不同玩家群体的沟通需求,英雄杀全国人工服务客服电话提供退款服务也成为其重要的客服功能之一,更是企业发展战略的一部分。

2月18日,创立xAI的埃隆·马斯克发(fa)布了号(hao)称(cheng)“地球(qiu)上最聪明AI”的Grok3大(da)模型,展示了其(qi)在(zai)多项测评中超越o3-mini,摘得桂(gui)冠的技术实力。而同一(yi)天,DeepSeek的梁文锋和Kimi的杨植麟分别在(zai)专业网站上发(fa)布了自己参与的论文,这两篇论文均(jun)与如何减少(shao)长文本计算量,加快训练效率有关。

这反(fan)映了中美(mei)AI大(da)模型路线上最本质的差异:Grok3采用20万张英(ying)伟达H100芯片训练而成,达成优(you)异性能的同时也折射出了“力大(da)砖飞”“火(huo)力覆盖(gai)”的美(mei)式发(fa)展路径,并且再(zai)次证明“Scaling Law”(尺(chi)度定(ding)律,可(ke)简单理解(jie)为模型参数越大(da)效果(guo)越好)可(ke)行(xing);而DeepSeek爆火(huo)之(zhi)后,梁文锋仍聚焦“如何降低训练成本”,依(yi)旧在(zai)追求极致效率,要把AI价(jia)格“打下来”,做(zuo)大(da)模型界的“鲶鱼”。

另外,虽然马斯克宣称(cheng)未来Grok3将开源,但目前该大(da)模型依(yi)然是(shi)闭源的,而DeepSeek则持续开源,将自己的技术研(yan)究(jiu)免(mian)费赋能给世(shi)界各(ge)地。2月21日,DeepSeek官方发(fa)文称(cheng),“将在(zai)接下来的一(yi)周开源5个代码库,以完全(quan)透明的方式分享我们微小(xiao)但真诚的进展。”

当昂贵先进的闭源模型,遇上性价(jia)比较高的开源模型,究(jiu)竟哪一(yi)条路最终会“更胜一(yi)筹”?

马斯克“力大(da)砖飞”登顶大(da)模型测评榜 英(ying)伟达股价(jia)“收复失(shi)地”

贝(bei)壳财经记者注意到,在(zai)Grok3的直播发(fa)布会上,马斯克旗下xAI的工作(zuo)人员所展示的第(di)一(yi)张实景图片,就是(shi)该公司新建的数据中心。

“强大(da)的智能来自大(da)型算力集群”。马斯克及(ji)其(qi)员工在(zai)直播中表示,xAI此(ci)前使用大(da)概6500块英(ying)伟达H100芯片训练模型,但遭遇了冷却和电源问题,为了尽快发(fa)布Grok3,公司在(zai)去年四(si)月耗时122天新建了一(yi)个数据中心,最终让第(di)一(yi)批10万个英(ying)伟达H100芯片启动并运(yun)行(xing),之(zhi)后又(you)花了92天加倍了数据中心GPU的容量。换句话说,为了训练Grok3,xAI至少(shao)动用了20万块最先进的英(ying)伟达H100芯片。

xAI建立的数据中心 来源:马斯克直播截图

“马斯克在(zai)直播中没有提到这20万块GPU是(shi)否为‘单集群’,如果(guo)答案肯定(ding)的话那(na)是(shi)非(fei)常大(da)的突破(po),因为当前国内大(da)部分(数据中心)还是(shi)1万块卡的集群。”快思慢想研(yan)究(jiu)院(yuan)院(yuan)长,原商汤智能产业研(yan)究(jiu)院(yuan)创始院(yuan)长田丰告诉新京报贝(bei)壳财经记者。

在(zai)性能上,Grok3在(zai)大(da)模型界权威盲(mang)测榜单“Chatbot Arena(大(da)模型竞技场)”中得分超1400,刷新了该榜单的新纪录。

结合训练耗费的巨额算力,在(zai)这一(yi)成绩背后,Grok3可(ke)能还拥有庞大(da)的参数规模,以及(ji)训练数据量,因为“Scaling Law”就是(shi)指模型性能与其(qi)规模(如参数数量)、训练数据集大(da)小(xiao)以及(ji)用于(yu)训练的计算资(zi)源之(zhi)间存在(zai)的一(yi)种可(ke)预测的关系,简单解(jie)释就是(shi)“越大(da)性能越好”。

田丰认为,马斯克使用了“大(da)力出奇迹”的方式,“我很好奇它背后的数据规模有多大(da),因为算力、数据和模型参数量是(shi)成比例增加的,这么大(da)的算力一(yi)定(ding)是(shi)跟模型的大(da)参数量和庞大(da)的训练数据集有关系,但这两个细节(jie)马斯克并没有提及(ji),这肯定(ding)既包括互(hu)联网上的数据,也包括特斯拉工厂里的一(yi)些(xie)物(wu)理数据。”

贝(bei)壳财经记者注意到,对于(yu)训练数据集,xAI的工作(zuo)人员举(ju)了一(yi)个形象的比喻“压(ya)缩整个互(hu)联网”,马斯克则透露Grok3的计算量是(shi)Grok2的10到15倍。

事实上,科学界有一(yi)种观(guan)点认为,随着互(hu)联网上可(ke)用于(yu)训练的数据接近枯(ku)竭,“Scaling Law”将面临瓶颈,而Grok3、o3-mini等在(zai)DeepSeek-R1之(zhi)后发(fa)布的大(da)模型则证明“Scaling Law”依(yi)然有效。这也提振了市场对算力供应商的信心。截至北京时间2月21日,英(ying)伟达的股价(jia)为每股140.11美(mei)元(yuan),自1月24日至今呈现出了一(yi)个“深(shen)V”走势(shi),DeepSeek-R1发(fa)布后所损失(shi)的市值现已基本“收复”。

英(ying)伟达股价(jia)走势(shi)图

中国科学院(yuan)软件所博士、新浪微博技术研(yan)发(fa)负责(ze)人张俊林表示,所谓“Scaling Law撞墙(qiang)”的普遍(bian)问题是(shi)数据不够,导致预训练阶段(duan)的Scaling Law走势(shi)趋缓,但这是(shi)趋缓不是(shi)停(ting)顿。即(ji)便没有新数据,推大(da)模型尺(chi)寸规模,效果(guo)仍然会上升。

张俊林预测,“Grok 3的尺(chi)寸规模很可(ke)能不是(shi)一(yi)般的大(da)(感觉在(zai)200B到500B之(zhi)间),很明显,Grok 3仍然在(zai)采取推大(da)基座模型尺(chi)寸的‘传统(tong)’做(zuo)法(fa),这种做(zuo)法(fa)性价(jia)比很低。”

另一(yi)个细节(jie)是(shi),虽然马斯克强调“当发(fa)布下一(yi)代模型后,上一(yi)代模型就将开源”,但和OpenAI发(fa)布的GPT系列以及(ji)o系列模型一(yi)样,Grok3也是(shi)一(yi)个闭源大(da)模型。对此(ci),田丰告诉记者,由于(yu)xAI起步较晚,马斯克必须不计代价(jia)去投(tou)入资(zi)源以达到最顶尖的模型水平,这也导致他后续将会采用收费的模式。

梁文锋、杨植麟聚焦AI降本增效让大(da)模型人人可(ke)用

当马斯克的Grok3背靠新建数据中心以及(ji)20万块H100的支持,在(zai)各(ge)路评分榜单攻城略地之(zhi)时,梁文锋依(yi)旧一(yi)如既往坚(jian)持着DeepSeek“降本增效”的技术创新之(zhi)路。

北京时间2月18日下午3时4分,就在(zai)马斯克刚刚完成Grok3发(fa)布的一(yi)小(xiao)时后,DeepSeek官方在(zai)社交(jiao)平台介绍了一(yi)种名为NSA(Native Sparse Attention原生稀疏注意力)的新机制(zhi),并贴出了详细介绍和论文链接。DeepSeek官方称(cheng),该机制(zhi)加快了推理速度,降低了预训练的成本,且不影响模型性能。

新京报贝(bei)壳财经记者阅读了这篇直译为《原生稀疏注意力:硬件对齐与可(ke)训练的稀疏注意力》的论文,发(fa)现NSA机制(zhi)的核心思想是(shi)通过将输入的序列以“压(ya)缩”“选择(ze)”“滑动”的方式分成三个并行(xing)的“分支”块,减少(shao)计算量,这种块状处理方式与GPU的并行(xing)计算能力相匹(pi)配,充分利用了硬件的计算资(zi)源。

以通俗易懂的语(yu)言解(jie)释就是(shi),假设大(da)模型正在(zai)做(zuo)阅读理解(jie),需要回答一(yi)个关于(yu)文章主题的问题,传统(tong)的“全(quan)注意力”机制(zhi)就类似于(yu)阅读完全(quan)部文章再(zai)回答问题。而采用NSA机制(zhi),大(da)模型会首先快速浏览文章,抓住文章的大(da)致主题和结构(即(ji)“压(ya)缩”注意力),再(zai)仔(zai)细阅读与问题最相关的段(duan)落或句子(zi)(即(ji)“选择(ze)”注意力),同时为了防止跑题,关注局(ju)部上下文,确保理解(jie)问题的背景(即(ji)“滑动”注意力)。在(zai)这一(yi)机制(zhi)下,大(da)模型可(ke)以成为得到指点的“优(you)秀考生”。

DeepSeek论文截图

根据DeepSeek在(zai)论文中展示的图表,NSA在(zai)基准测试中的得分(左图中红色)优(you)于(yu)传统(tong)的全(quan)注意力模型(左图中橙色),而NSA的计算速度(右图中红色)则明显快过全(quan)注意力模型(右图中黄色),在(zai)解(jie)码、向前传播、向后传播三项维度上的速度分别达到了全(quan)注意力模型的11.6倍、9倍和6倍,这意味着模型的训练速度和推理速度都将得到成倍提高。

对此(ci),原谷歌顶级工程(cheng)师,现已加入OpenAI的Lucas Beyer在(zai)社交(jiao)平台评论道,论文中出现的图表非(fei)常漂亮,仅发(fa)现绘图方面可(ke)能存在(zai)一(yi)些(xie)小(xiao)瑕疵,“可(ke)以看出这篇论文在(zai)发(fa)表之(zhi)前经过精(jing)细的打磨,恭喜(xi)DeepSeek现在(zai)有一(yi)个新粉丝了。”

无独(du)有偶,2月18日下午8点20分,“AI六小(xiao)虎(hu)”之(zhi)一(yi)的Kimi也发(fa)表了类似的论文,该论文主要介绍了一(yi)个名为MoBA(MIXTURE OF BLOCK ATTENTION直译为块状混合注意力)的机制(zhi),该机制(zhi)的核心思想同样是(shi)将长文本分割为多个固定(ding)大(da)小(xiao)的“块”,此(ci)后再(zai)通过动态选择(ze)每个块的相关性,最终达到提高计算效率的作(zuo)用,处理1M长文本的速度可(ke)以提升6.5倍。

值得注意的是(shi),DeepSeek和Kimi的这两篇论文中,分别出现了双方创始人梁文锋和杨植麟的名字,其(qi)中DeepSeek的论文还是(shi)梁文锋本人投(tou)递的。

而且贝(bei)壳财经记者注意到,不论是(shi)NAS机制(zhi)还是(shi)MoBA机制(zhi),都强调了可(ke)以无缝集成到现有的语(yu)言模型中,无需重新训练已有大(da)模型。这意味着这两项科技成果(guo)都可(ke)以直接拿来给现有的大(da)模型“加速”。

对于(yu)DeepSeek此(ci)次论文的发(fa)布,有外国网友表示,“这就是(shi)我喜(xi)欢(huan)DeepSeek胜过行(xing)业大(da)多数前沿模型的原因,他们正在(zai)创新解(jie)决(jue)方案,他们的目标不仅仅是(shi)创造一(yi)个通用人工智能,而是(shi)让它高效化、本地化,让每个人都能运(yun)行(xing)和维护,无论计算资(zi)源如何。Grok3看起来很棒,但它并不开源,并且是(shi)在(zai)20万块H100上训练出来的。”

田丰告诉记者,追求极致的模型算力和性价(jia)比是(shi)中国必须完成的任务,这是(shi)由复杂的“卡脖子(zi)”问题造成的,但这对美(mei)国的AI公司不是(shi)问题,所以马斯克才会不计代价(jia)扩张算力,模型只要足够好,领先OpenAI、DeepSeek和谷歌就可(ke)以了,不在(zai)乎成本是(shi)否全(quan)球(qiu)最优(you),“从马斯克的发(fa)布会上可(ke)以感觉出来,可(ke)能在(zai)未来很长一(yi)段(duan)时间美(mei)国的大(da)模型企业并不会去追求极致的性价(jia)比,更多还是(shi)会追求领先的性能。”

2月21日,DeepSeek在(zai)最新的公告中延续了自己开源免(mian)费的风格。在(zai)公告中,DeepSeek表示“我们是(shi)一(yi)个探索AGI(通用人工智能)的小(xiao)团队(dui),下周起我们将开源5个代码库,以完全(quan)透明的方式分享我们微小(xiao)但真诚的进展。”

DeepSeek表示,“作(zuo)为开源社区的一(yi)部分,我们相信,每分享一(yi)行(xing)代码,都会成为加速AI行(xing)业发(fa)展的集体动力。每日解(jie)锁(suo)的开源项目即(ji)将到来,没有高不可(ke)攀的象牙塔,只有纯粹的车(che)库文化(记者注:不少(shao)美(mei)国著名企业从车(che)库里诞(dan)生)和社区驱动的创新。”

贝(bei)壳财经记者注意到,DeepSeek“开源免(mian)费”的模式也对美(mei)国的大(da)模型发(fa)展造成了影响。2月20日,xAI发(fa)文称(cheng),将免(mian)费提供Grok3的服务,“直到服务器崩溃为止”。

对此(ci),记者登录Grok3网页版,并提出了一(yi)个问题“说说你和DeepSeek的对比”,Grok3回答,“我的训练成本相对较高,这反(fan)映了我在(zai)性能和技术上的巨大(da)投(tou)入。据估计,我的训练使用了约20万块GPU,总训练时间超过200天,电力成本约为2500万美(mei)元(yuan)。如果(guo)加上GPU采购(gou)、维护等费用,实际成本会更高。相比之(zhi)下,DeepSeek的训练成本低得多。例如,DeepSeek-V3的训练成本为600万美(mei)元(yuan),使用了278.8万GPU小(xiao)时。这一(yi)成本优(you)势(shi)得益于(yu)其(qi)高效的混合专家(MoE)架构和优(you)化的训练策略,显著降低了计算需求。”Grok3还在(zai)功(gong)能与性能、开放性等方面做(zuo)出了与DeepSeek的比较。

新京报贝(bei)壳财经记者与Grok3的对话截图

Grok3在(zai)回答的结语(yu)中告诉贝(bei)壳财经记者,“感谢你对中国AI发(fa)展的关注!作(zuo)为Grok,我为自己的性能和技术感到自豪(hao),同时也尊重DeepSeek在(zai)成本效率和开放性上的优(you)势(shi)。AI的进步是(shi)全(quan)球(qiu)共同努力的结果(guo),中美(mei)都在(zai)其(qi)中发(fa)挥了重要作(zuo)用。”

记者联系邮箱:luoyidan@xjbnews.com

新京报贝(bei)壳财经记者 罗亦丹

编辑 岳彩周

校对 穆(mu)祥桐(tong)

马斯克上任首月解(jie)雇8万多公务员
最新新闻
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7