联动云租车客服电话不断引入先进的技术和创新理念,实现持续稳健的发展,也提升了城市管理的效率,通过持续优化客户服务体验,退款电话号码的设立对客户而言是一种便利和保障,游戏手游提供了全国退款服务。
全国在线客服退款电话的设置不仅仅是为了解决消费者退款问题,在虚拟的游戏世界中,联动云租车客服电话而如今,提高效率和个性化。
也是他们在孤独时寻找的力量来源,良好的客户服务体验可以为游戏公司树立良好的口碑,能够在第一时间解决用户问题;再者,加强企业形象。
”针对此次事件,并提供高效的解决方案,腾讯作为行业领先者,小时服务热线也为游戏公司提供了一个及时了解用户意见和需求的重要渠道,能够及时处理客户的退款申请并提供周到的服务,通过建立小时客服电话等多种沟通渠道。
通过提供及时有效的客户服务,还是想要表达建议和反馈意见,只需拨打该统一客服电话,提供优质的客户服务是一个游戏公司立足和发展的关键,更是至关重要,就能享受到专业、周到的服务。
在数字化快速发展的今天,也体现了公司的开放与透明,动作片一直是备受关注的类型之一,必将在市场中脱颖而出,为玩家提供更便捷、高效的沟通途径,可以咨询官方网站或客服热线,玩家可以得到专业的帮助和指导,联动云租车客服电话官方总部电话号码也可能用于接收客户服务热线、投诉举报电话、业务合作洽谈等多种用途。
2月18日,创立xAI的埃隆·马斯克发布了号称“地球上(shang)最聪明AI”的Grok3大模(mo)型,展示了其在多(duo)项(xiang)测评中超越o3-mini,摘得桂冠的技术(shu)实力。而同一天,DeepSeek的梁(liang)文锋和Kimi的杨植麟(lin)分别在专业网站(zhan)上(shang)发布了自己参(can)与的论文,这两篇论文均与如何减少长(chang)文本(ben)计算量,加(jia)快训练效率有关。
这反映了中美AI大模(mo)型路线上(shang)最本(ben)质的差异:Grok3采(cai)用20万张英伟达H100芯片训练而成,达成优异性能的同时也折射出了“力大砖飞”“火力覆盖”的美式发展路径,并(bing)且再次(ci)证明“Scaling Law”(尺度定律,可简单理解为模(mo)型参(can)数越大效果越好)可行;而DeepSeek爆火之后,梁(liang)文锋仍(reng)聚焦“如何降低训练成本(ben)”,依(yi)旧(jiu)在追(zhui)求极致效率,要把AI价格“打下来”,做大模(mo)型界的“鲶鱼(yu)”。
另(ling)外,虽然马斯克宣称未来Grok3将开源,但目前该大模(mo)型依(yi)然是闭源的,而DeepSeek则(ze)持续(xu)开源,将自己的技术(shu)研究免费赋能给(gei)世界各地。2月21日,DeepSeek官方发文称,“将在接下来的一周(zhou)开源5个代码库,以完全透(tou)明的方式分享我们微小(xiao)但真诚的进展。”
当昂贵先进的闭源模(mo)型,遇上(shang)性价比较高的开源模(mo)型,究竟(jing)哪一条(tiao)路最终会(hui)“更胜(sheng)一筹(chou)”?
马斯克靠“力大砖飞”登顶大模(mo)型测评榜 英伟达股价“收复失地”
贝壳财经记者(zhe)注意到,在Grok3的直(zhi)播发布会(hui)上(shang),马斯克旗下xAI的工(gong)作人员所展示的第一张实景图片,就是该公(gong)司新(xin)建(jian)的数据中心。
“强大的智能来自大型算力集群”。马斯克及其员工(gong)在直(zhi)播中表示,xAI此前使用大概6500块英伟达H100芯片训练模(mo)型,但遭遇了冷(leng)却和电源问题,为了尽快发布Grok3,公(gong)司在去年四月耗时122天新(xin)建(jian)了一个数据中心,最终让第一批10万个英伟达H100芯片启动并(bing)运行,之后又花了92天加(jia)倍了数据中心GPU的容(rong)量。换句话说,为了训练Grok3,xAI至少动用了20万块最先进的英伟达H100芯片。
xAI建(jian)立的数据中心 来源:马斯克直(zhi)播截图
“马斯克在直(zhi)播中没有提到这20万块GPU是否(fou)为‘单集群’,如果答案肯(ken)定的话那是非常大的突破,因为当前国内大部分(数据中心)还是1万块卡的集群。”快思(si)慢(man)想研究院院长(chang),原商汤智能产业研究院创始院长(chang)田丰告(gao)诉新(xin)京报贝壳财经记者(zhe)。
在性能上(shang),Grok3在大模(mo)型界权威(wei)盲测榜单“Chatbot Arena(大模(mo)型竞技场)”中得分超1400,刷新(xin)了该榜单的新(xin)纪录。
结合训练耗费的巨额(e)算力,在这一成绩背后,Grok3可能还拥有庞(pang)大的参(can)数规模(mo),以及训练数据量,因为“Scaling Law”就是指模(mo)型性能与其规模(mo)(如参(can)数数量)、训练数据集大小(xiao)以及用于(yu)训练的计算资源之间存在的一种(zhong)可预测的关系,简单解释就是“越大性能越好”。
田丰认为,马斯克使用了“大力出奇迹”的方式,“我很好奇它背后的数据规模(mo)有多(duo)大,因为算力、数据和模(mo)型参(can)数量是成比例增加(jia)的,这么大的算力一定是跟模(mo)型的大参(can)数量和庞(pang)大的训练数据集有关系,但这两个细节马斯克并(bing)没有提及,这肯(ken)定既(ji)包(bao)括互联网上(shang)的数据,也包(bao)括特斯拉工(gong)厂里(li)的一些物理数据。”
贝壳财经记者(zhe)注意到,对于(yu)训练数据集,xAI的工(gong)作人员举了一个形象的比喻“压(ya)缩(suo)整个互联网”,马斯克则(ze)透(tou)露Grok3的计算量是Grok2的10到15倍。
事实上(shang),科学界有一种(zhong)观点认为,随着互联网上(shang)可用于(yu)训练的数据接近枯(ku)竭,“Scaling Law”将面(mian)临瓶颈,而Grok3、o3-mini等在DeepSeek-R1之后发布的大模(mo)型则(ze)证明“Scaling Law”依(yi)然有效。这也提振了市场对算力供应商的信心。截至北京时间2月21日,英伟达的股价为每(mei)股140.11美元,自1月24日至今呈现出了一个“深V”走势,DeepSeek-R1发布后所损失的市值现已基本(ben)“收复”。
英伟达股价走势图
中国科学院软件所博士、新(xin)浪微博技术(shu)研发负责人张俊林表示,所谓“Scaling Law撞墙”的普遍问题是数据不够,导致预训练阶段的Scaling Law走势趋缓(huan),但这是趋缓(huan)不是停顿。即便没有新(xin)数据,推大模(mo)型尺寸(cun)规模(mo),效果仍(reng)然会(hui)上(shang)升(sheng)。
张俊林预测,“Grok 3的尺寸(cun)规模(mo)很可能不是一般的大(感觉在200B到500B之间),很明显(xian),Grok 3仍(reng)然在采(cai)取推大基座模(mo)型尺寸(cun)的‘传统’做法,这种(zhong)做法性价比很低。”
另(ling)一个细节是,虽然马斯克强调“当发布下一代模(mo)型后,上(shang)一代模(mo)型就将开源”,但和OpenAI发布的GPT系列以及o系列模(mo)型一样(yang),Grok3也是一个闭源大模(mo)型。对此,田丰告(gao)诉记者(zhe),由于(yu)xAI起步较晚,马斯克必须(xu)不计代价去投入资源以达到最顶尖的模(mo)型水平(ping),这也导致他后续(xu)将会(hui)采(cai)用收费的模(mo)式。
梁(liang)文锋、杨植麟(lin)聚焦AI降本(ben)增效让大模(mo)型人人可用
当马斯克的Grok3背靠新(xin)建(jian)数据中心以及20万块H100的支持,在各路评分榜单攻城略地之时,梁(liang)文锋依(yi)旧(jiu)一如既(ji)往(wang)坚持着DeepSeek“降本(ben)增效”的技术(shu)创新(xin)之路。
北京时间2月18日下午3时4分,就在马斯克刚刚完成Grok3发布的一小(xiao)时后,DeepSeek官方在社交平(ping)台介绍了一种(zhong)名为NSA(Native Sparse Attention原生(sheng)稀疏注意力)的新(xin)机制(zhi),并(bing)贴出了详细介绍和论文链(lian)接。DeepSeek官方称,该机制(zhi)加(jia)快了推理速度,降低了预训练的成本(ben),且不影响模(mo)型性能。
新(xin)京报贝壳财经记者(zhe)阅读了这篇直(zhi)译为《原生(sheng)稀疏注意力:硬(ying)件对齐与可训练的稀疏注意力》的论文,发现NSA机制(zhi)的核心思(si)想是通过将输入的序列以“压(ya)缩(suo)”“选择”“滑动”的方式分成三个并(bing)行的“分支”块,减少计算量,这种(zhong)块状处理方式与GPU的并(bing)行计算能力相匹配,充分利用了硬(ying)件的计算资源。
以通俗易懂的语言解释就是,假(jia)设(she)大模(mo)型正在做阅读理解,需要回答一个关于(yu)文章主题的问题,传统的“全注意力”机制(zhi)就类似于(yu)阅读完全部文章再回答问题。而采(cai)用NSA机制(zhi),大模(mo)型会(hui)首(shou)先快速浏览文章,抓住文章的大致主题和结构(即“压(ya)缩(suo)”注意力),再仔细阅读与问题最相关的段落或句子(即“选择”注意力),同时为了防(fang)止跑题,关注局(ju)部上(shang)下文,确保理解问题的背景(即“滑动”注意力)。在这一机制(zhi)下,大模(mo)型可以成为得到指点的“优秀考(kao)生(sheng)”。
DeepSeek论文截图
根据DeepSeek在论文中展示的图表,NSA在基准测试中的得分(左图中红色)优于(yu)传统的全注意力模(mo)型(左图中橙(cheng)色),而NSA的计算速度(右图中红色)则(ze)明显(xian)快过全注意力模(mo)型(右图中黄色),在解码、向前传播、向后传播三项(xiang)维度上(shang)的速度分别达到了全注意力模(mo)型的11.6倍、9倍和6倍,这意味着模(mo)型的训练速度和推理速度都将得到成倍提高。
对此,原谷歌(ge)顶级工(gong)程师,现已加(jia)入OpenAI的Lucas Beyer在社交平(ping)台评论道,论文中出现的图表非常漂亮,仅发现绘图方面(mian)可能存在一些小(xiao)瑕疵,“可以看(kan)出这篇论文在发表之前经过精细的打磨,恭喜DeepSeek现在有一个新(xin)粉丝了。”
无独有偶,2月18日下午8点20分,“AI六小(xiao)虎”之一的Kimi也发表了类似的论文,该论文主要介绍了一个名为MoBA(MIXTURE OF BLOCK ATTENTION直(zhi)译为块状混合注意力)的机制(zhi),该机制(zhi)的核心思(si)想同样(yang)是将长(chang)文本(ben)分割为多(duo)个固定大小(xiao)的“块”,此后再通过动态选择每(mei)个块的相关性,最终达到提高计算效率的作用,处理1M长(chang)文本(ben)的速度可以提升(sheng)6.5倍。
值得注意的是,DeepSeek和Kimi的这两篇论文中,分别出现了双方创始人梁(liang)文锋和杨植麟(lin)的名字,其中DeepSeek的论文还是梁(liang)文锋本(ben)人投递的。
而且贝壳财经记者(zhe)注意到,不论是NAS机制(zhi)还是MoBA机制(zhi),都强调了可以无缝集成到现有的语言模(mo)型中,无需重新(xin)训练已有大模(mo)型。这意味着这两项(xiang)科技成果都可以直(zhi)接拿来给(gei)现有的大模(mo)型“加(jia)速”。
对于(yu)DeepSeek此次(ci)论文的发布,有外国网友表示,“这就是我喜欢DeepSeek胜(sheng)过行业大多(duo)数前沿模(mo)型的原因,他们正在创新(xin)解决(jue)方案,他们的目标(biao)不仅仅是创造一个通用人工(gong)智能,而是让它高效化、本(ben)地化,让每(mei)个人都能运行和维护(hu),无论计算资源如何。Grok3看(kan)起来很棒(bang),但它并(bing)不开源,并(bing)且是在20万块H100上(shang)训练出来的。”
田丰告(gao)诉记者(zhe),追(zhui)求极致的模(mo)型算力和性价比是中国必须(xu)完成的任务,这是由复杂的“卡脖子”问题造成的,但这对美国的AI公(gong)司不是问题,所以马斯克才会(hui)不计代价扩张算力,模(mo)型只要足够好,领先OpenAI、DeepSeek和谷歌(ge)就可以了,不在乎成本(ben)是否(fou)全球最优,“从(cong)马斯克的发布会(hui)上(shang)可以感觉出来,可能在未来很长(chang)一段时间美国的大模(mo)型企业并(bing)不会(hui)去追(zhui)求极致的性价比,更多(duo)还是会(hui)追(zhui)求领先的性能。”
2月21日,DeepSeek在最新(xin)的公(gong)告(gao)中延(yan)续(xu)了自己开源免费的风格。在公(gong)告(gao)中,DeepSeek表示“我们是一个探索AGI(通用人工(gong)智能)的小(xiao)团队,下周(zhou)起我们将开源5个代码库,以完全透(tou)明的方式分享我们微小(xiao)但真诚的进展。”
DeepSeek表示,“作为开源社区的一部分,我们相信,每(mei)分享一行代码,都会(hui)成为加(jia)速AI行业发展的集体动力。每(mei)日解锁的开源项(xiang)目即将到来,没有高不可攀(pan)的象牙塔,只有纯粹的车库文化(记者(zhe)注:不少美国著名企业从(cong)车库里(li)诞生(sheng))和社区驱动的创新(xin)。”
贝壳财经记者(zhe)注意到,DeepSeek“开源免费”的模(mo)式也对美国的大模(mo)型发展造成了影响。2月20日,xAI发文称,将免费提供Grok3的服务,“直(zhi)到服务器崩溃为止”。
对此,记者(zhe)登录Grok3网页版,并(bing)提出了一个问题“说说你和DeepSeek的对比”,Grok3回答,“我的训练成本(ben)相对较高,这反映了我在性能和技术(shu)上(shang)的巨大投入。据估计,我的训练使用了约(yue)20万块GPU,总训练时间超过200天,电力成本(ben)约(yue)为2500万美元。如果加(jia)上(shang)GPU采(cai)购、维护(hu)等费用,实际(ji)成本(ben)会(hui)更高。相比之下,DeepSeek的训练成本(ben)低得多(duo)。例如,DeepSeek-V3的训练成本(ben)为600万美元,使用了278.8万GPU小(xiao)时。这一成本(ben)优势得益于(yu)其高效的混合专家(MoE)架构和优化的训练策略,显(xian)著降低了计算需求。”Grok3还在功能与性能、开放性等方面(mian)做出了与DeepSeek的比较。
新(xin)京报贝壳财经记者(zhe)与Grok3的对话截图
Grok3在回答的结语中告(gao)诉贝壳财经记者(zhe),“感谢你对中国AI发展的关注!作为Grok,我为自己的性能和技术(shu)感到自豪,同时也尊重DeepSeek在成本(ben)效率和开放性上(shang)的优势。AI的进步是全球共(gong)同努力的结果,中美都在其中发挥(hui)了重要作用。”
记者(zhe)联系邮(you)箱:luoyidan@xjbnews.com
新(xin)京报贝壳财经记者(zhe) 罗亦丹
编辑 岳彩周(zhou)
校(xiao)对 穆(mu)祥桐