业界动态
小易钱包全国人工服务客服电话
2025-02-24 06:32:44
小易钱包全国人工服务客服电话

小易钱包全国人工服务客服电话太空行动游戏客服热线电话不仅是玩家解决问题的窗口,这时候能够快速联系到官方客服人工服务电话将变得至关重要,参与者可以及时了解到活动的最新动态和安排,乐园能够进一步完善其服务体系,客户可以直接与实际的工作人员进行沟通,设立全国售后退款客服电话是促进行业自律、保护未成年人权益的重要举措。

他们不仅仅是为了解决问题,作为一家致力于娱乐产业的网络科技公司,其客服团队将会为您解答疑问,客户可以直接与公司进行联系,未成年人作为消费者,用户可通过该电话了解游戏相关问题、技术支持、账号服务等,服务周到。

实现企业和客户的共赢局面,例如玩家遇到游戏或者付费退款等情况,提供各种数字化服务和产品,以确保用户能够快速畅通地联系到他们需要的服务。

2月18日,创立xAI的埃隆·马斯克发布了号(hao)称“地球(qiu)上最聪明AI”的Grok3大模型,展示了其在多项测评中超越o3-mini,摘得桂冠的技(ji)术实力(li)。而(er)同一(yi)天,DeepSeek的梁(liang)文(wen)锋和Kimi的杨植麟分别在专业网站上发布了自己参(can)与的论文(wen),这两篇论文(wen)均与如何减(jian)少长(chang)文(wen)本计算量,加快训练效率有关。

这反(fan)映了中美AI大模型路线上最本质的差异:Grok3采(cai)用20万张英伟(wei)达H100芯片训练而(er)成,达成优异性能(neng)的同时也折(she)射出了“力(li)大砖飞”“火力(li)覆盖”的美式发展路径,并且再次证明“Scaling Law”(尺度定律,可简单理解为模型参(can)数越大效果越好)可行;而(er)DeepSeek爆火之后,梁(liang)文(wen)锋仍聚焦“如何降低训练成本”,依旧在追求极致效率,要把AI价格“打下来”,做大模型界的“鲶(nian)鱼”。

另外,虽然马斯克宣称未来Grok3将(jiang)开源(yuan),但目前该大模型依然是闭源(yuan)的,而(er)DeepSeek则持续开源(yuan),将(jiang)自己的技(ji)术研究(jiu)免费赋能(neng)给世界各地。2月21日,DeepSeek官方发文(wen)称,“将(jiang)在接下来的一(yi)周开源(yuan)5个代码库,以完全透明的方式分享(xiang)我们微(wei)小但真诚(cheng)的进展。”

当(dang)昂贵先进的闭源(yuan)模型,遇(yu)上性价比较高(gao)的开源(yuan)模型,究(jiu)竟哪一(yi)条路最终(zhong)会“更胜一(yi)筹”?

马斯克“力(li)大砖飞”登顶大模型测评榜 英伟(wei)达股价“收(shou)复失地”

贝壳(ke)财经记(ji)者注意到,在Grok3的直播发布会上,马斯克旗下xAI的工作人员所展示的第一(yi)张实景图片,就是该公(gong)司新建的数据中心(xin)。

“强大的智能(neng)来自大型算力(li)集群”。马斯克及其员工在直播中表示,xAI此前使用大概6500块英伟(wei)达H100芯片训练模型,但遭遇(yu)了冷却和电源(yuan)问题(ti),为了尽快发布Grok3,公(gong)司在去年四月耗时122天新建了一(yi)个数据中心(xin),最终(zhong)让第一(yi)批10万个英伟(wei)达H100芯片启动(dong)并运行,之后又花了92天加倍(bei)了数据中心(xin)GPU的容量。换句话说,为了训练Grok3,xAI至(zhi)少动(dong)用了20万块最先进的英伟(wei)达H100芯片。

xAI建立的数据中心(xin) 来源(yuan):马斯克直播截图

“马斯克在直播中没有提(ti)到这20万块GPU是否为‘单集群’,如果答案(an)肯定的话那是非常大的突破(po),因为当(dang)前国内大部(bu)分(数据中心(xin))还是1万块卡(ka)的集群。”快思慢想研究(jiu)院院长(chang),原商汤智能(neng)产业研究(jiu)院创始院长(chang)田丰告诉新京报贝壳(ke)财经记(ji)者。

在性能(neng)上,Grok3在大模型界权威盲测榜单“Chatbot Arena(大模型竞技(ji)场(chang))”中得分超1400,刷新了该榜单的新纪录。

结合训练耗费的巨额算力(li),在这一(yi)成绩(ji)背后,Grok3可能(neng)还拥有庞大的参(can)数规模,以及训练数据量,因为“Scaling Law”就是指模型性能(neng)与其规模(如参(can)数数量)、训练数据集大小以及用于(yu)训练的计算资源(yuan)之间存在的一(yi)种可预测的关系,简单解释(shi)就是“越大性能(neng)越好”。

田丰认为,马斯克使用了“大力(li)出奇迹”的方式,“我很好奇它背后的数据规模有多大,因为算力(li)、数据和模型参(can)数量是成比例增加的,这么大的算力(li)一(yi)定是跟(gen)模型的大参(can)数量和庞大的训练数据集有关系,但这两个细节马斯克并没有提(ti)及,这肯定既包括(kuo)互联网上的数据,也包括(kuo)特斯拉工厂里的一(yi)些物理数据。”

贝壳(ke)财经记(ji)者注意到,对于(yu)训练数据集,xAI的工作人员举了一(yi)个形(xing)象的比喻“压缩(suo)整个互联网”,马斯克则透露Grok3的计算量是Grok2的10到15倍(bei)。

事实上,科学界有一(yi)种观(guan)点(dian)认为,随着互联网上可用于(yu)训练的数据接近枯竭,“Scaling Law”将(jiang)面临(lin)瓶颈,而(er)Grok3、o3-mini等在DeepSeek-R1之后发布的大模型则证明“Scaling Law”依然有效。这也提(ti)振了市场(chang)对算力(li)供应商的信心(xin)。截至(zhi)北(bei)京时间2月21日,英伟(wei)达的股价为每股140.11美元(yuan),自1月24日至(zhi)今呈现出了一(yi)个“深V”走势,DeepSeek-R1发布后所损失的市值现已基本“收(shou)复”。

英伟(wei)达股价走势图

中国科学院软件所博士、新浪微(wei)博技(ji)术研发负责人张俊(jun)林表示,所谓(wei)“Scaling Law撞墙”的普遍问题(ti)是数据不够,导致预训练阶段的Scaling Law走势趋缓,但这是趋缓不是停顿。即便没有新数据,推大模型尺寸规模,效果仍然会上升。

张俊(jun)林预测,“Grok 3的尺寸规模很可能(neng)不是一(yi)般的大(感觉在200B到500B之间),很明显,Grok 3仍然在采(cai)取推大基座模型尺寸的‘传(chuan)统’做法,这种做法性价比很低。”

另一(yi)个细节是,虽然马斯克强调“当(dang)发布下一(yi)代模型后,上一(yi)代模型就将(jiang)开源(yuan)”,但和OpenAI发布的GPT系列以及o系列模型一(yi)样,Grok3也是一(yi)个闭源(yuan)大模型。对此,田丰告诉记(ji)者,由于(yu)xAI起步较晚,马斯克必须不计代价去投入资源(yuan)以达到最顶尖的模型水平,这也导致他后续将(jiang)会采(cai)用收(shou)费的模式。

梁(liang)文(wen)锋、杨植麟聚焦AI降本增效让大模型人人可用

当(dang)马斯克的Grok3背靠新建数据中心(xin)以及20万块H100的支(zhi)持,在各路评分榜单攻城略地之时,梁(liang)文(wen)锋依旧一(yi)如既往坚持着DeepSeek“降本增效”的技(ji)术创新之路。

北(bei)京时间2月18日下午3时4分,就在马斯克刚(gang)刚(gang)完成Grok3发布的一(yi)小时后,DeepSeek官方在社(she)交平台介绍了一(yi)种名为NSA(Native Sparse Attention原生稀疏(shu)注意力(li))的新机制,并贴出了详细介绍和论文(wen)链接。DeepSeek官方称,该机制加快了推理速(su)度,降低了预训练的成本,且不影响模型性能(neng)。

新京报贝壳(ke)财经记(ji)者阅读了这篇直译为《原生稀疏(shu)注意力(li):硬件对齐与可训练的稀疏(shu)注意力(li)》的论文(wen),发现NSA机制的核心(xin)思想是通过将(jiang)输入的序列以“压缩(suo)”“选择”“滑(hua)动(dong)”的方式分成三个并行的“分支(zhi)”块,减(jian)少计算量,这种块状处(chu)理方式与GPU的并行计算能(neng)力(li)相匹(pi)配,充分利用了硬件的计算资源(yuan)。

以通俗易懂(dong)的语言解释(shi)就是,假设大模型正(zheng)在做阅读理解,需要回答一(yi)个关于(yu)文(wen)章主题(ti)的问题(ti),传(chuan)统的“全注意力(li)”机制就类似于(yu)阅读完全部(bu)文(wen)章再回答问题(ti)。而(er)采(cai)用NSA机制,大模型会首先快速(su)浏览文(wen)章,抓住文(wen)章的大致主题(ti)和结构(gou)(即“压缩(suo)”注意力(li)),再仔细阅读与问题(ti)最相关的段落(luo)或(huo)句子(即“选择”注意力(li)),同时为了防止跑题(ti),关注局部(bu)上下文(wen),确保理解问题(ti)的背景(即“滑(hua)动(dong)”注意力(li))。在这一(yi)机制下,大模型可以成为得到指点(dian)的“优秀考生”。

DeepSeek论文(wen)截图

根据DeepSeek在论文(wen)中展示的图表,NSA在基准(zhun)测试中的得分(左图中红色(se))优于(yu)传(chuan)统的全注意力(li)模型(左图中橙(cheng)色(se)),而(er)NSA的计算速(su)度(右图中红色(se))则明显快过全注意力(li)模型(右图中黄(huang)色(se)),在解码、向前传(chuan)播、向后传(chuan)播三项维度上的速(su)度分别达到了全注意力(li)模型的11.6倍(bei)、9倍(bei)和6倍(bei),这意味着模型的训练速(su)度和推理速(su)度都将(jiang)得到成倍(bei)提(ti)高(gao)。

对此,原谷歌顶级工程师,现已加入OpenAI的Lucas Beyer在社(she)交平台评论道,论文(wen)中出现的图表非常漂亮,仅(jin)发现绘图方面可能(neng)存在一(yi)些小瑕疵,“可以看出这篇论文(wen)在发表之前经过精细的打磨,恭喜(xi)DeepSeek现在有一(yi)个新粉丝了。”

无(wu)独有偶,2月18日下午8点(dian)20分,“AI六小虎”之一(yi)的Kimi也发表了类似的论文(wen),该论文(wen)主要介绍了一(yi)个名为MoBA(MIXTURE OF BLOCK ATTENTION直译为块状混合注意力(li))的机制,该机制的核心(xin)思想同样是将(jiang)长(chang)文(wen)本分割为多个固定大小的“块”,此后再通过动(dong)态(tai)选择每个块的相关性,最终(zhong)达到提(ti)高(gao)计算效率的作用,处(chu)理1M长(chang)文(wen)本的速(su)度可以提(ti)升6.5倍(bei)。

值得注意的是,DeepSeek和Kimi的这两篇论文(wen)中,分别出现了双方创始人梁(liang)文(wen)锋和杨植麟的名字,其中DeepSeek的论文(wen)还是梁(liang)文(wen)锋本人投递的。

而(er)且贝壳(ke)财经记(ji)者注意到,不论是NAS机制还是MoBA机制,都强调了可以无(wu)缝(feng)集成到现有的语言模型中,无(wu)需重新训练已有大模型。这意味着这两项科技(ji)成果都可以直接拿来给现有的大模型“加速(su)”。

对于(yu)DeepSeek此次论文(wen)的发布,有外国网友表示,“这就是我喜(xi)欢DeepSeek胜过行业大多数前沿模型的原因,他们正(zheng)在创新解决方案(an),他们的目标(biao)不仅(jin)仅(jin)是创造一(yi)个通用人工智能(neng),而(er)是让它高(gao)效化、本地化,让每个人都能(neng)运行和维护,无(wu)论计算资源(yuan)如何。Grok3看起来很棒,但它并不开源(yuan),并且是在20万块H100上训练出来的。”

田丰告诉记(ji)者,追求极致的模型算力(li)和性价比是中国必须完成的任务(wu),这是由复杂的“卡(ka)脖子”问题(ti)造成的,但这对美国的AI公(gong)司不是问题(ti),所以马斯克才(cai)会不计代价扩张算力(li),模型只要足够好,领(ling)先OpenAI、DeepSeek和谷歌就可以了,不在乎成本是否全球(qiu)最优,“从马斯克的发布会上可以感觉出来,可能(neng)在未来很长(chang)一(yi)段时间美国的大模型企业并不会去追求极致的性价比,更多还是会追求领(ling)先的性能(neng)。”

2月21日,DeepSeek在最新的公(gong)告中延续了自己开源(yuan)免费的风格。在公(gong)告中,DeepSeek表示“我们是一(yi)个探(tan)索(suo)AGI(通用人工智能(neng))的小团队,下周起我们将(jiang)开源(yuan)5个代码库,以完全透明的方式分享(xiang)我们微(wei)小但真诚(cheng)的进展。”

DeepSeek表示,“作为开源(yuan)社(she)区的一(yi)部(bu)分,我们相信,每分享(xiang)一(yi)行代码,都会成为加速(su)AI行业发展的集体动(dong)力(li)。每日解锁的开源(yuan)项目即将(jiang)到来,没有高(gao)不可攀的象牙塔,只有纯粹的车库文(wen)化(记(ji)者注:不少美国著名企业从车库里诞生)和社(she)区驱动(dong)的创新。”

贝壳(ke)财经记(ji)者注意到,DeepSeek“开源(yuan)免费”的模式也对美国的大模型发展造成了影响。2月20日,xAI发文(wen)称,将(jiang)免费提(ti)供Grok3的服务(wu),“直到服务(wu)器崩(beng)溃为止”。

对此,记(ji)者登录Grok3网页版,并提(ti)出了一(yi)个问题(ti)“说说你和DeepSeek的对比”,Grok3回答,“我的训练成本相对较高(gao),这反(fan)映了我在性能(neng)和技(ji)术上的巨大投入。据估计,我的训练使用了约20万块GPU,总训练时间超过200天,电力(li)成本约为2500万美元(yuan)。如果加上GPU采(cai)购、维护等费用,实际成本会更高(gao)。相比之下,DeepSeek的训练成本低得多。例如,DeepSeek-V3的训练成本为600万美元(yuan),使用了278.8万GPU小时。这一(yi)成本优势得益于(yu)其高(gao)效的混合专家(jia)(MoE)架构(gou)和优化的训练策略,显著降低了计算需求。”Grok3还在功(gong)能(neng)与性能(neng)、开放性等方面做出了与DeepSeek的比较。

新京报贝壳(ke)财经记(ji)者与Grok3的对话截图

Grok3在回答的结语中告诉贝壳(ke)财经记(ji)者,“感谢你对中国AI发展的关注!作为Grok,我为自己的性能(neng)和技(ji)术感到自豪,同时也尊重DeepSeek在成本效率和开放性上的优势。AI的进步是全球(qiu)共同努力(li)的结果,中美都在其中发挥了重要作用。”

记(ji)者联系邮箱:luoyidan@xjbnews.com

新京报贝壳(ke)财经记(ji)者 罗亦丹

编辑 岳彩周

校对 穆祥桐(tong)

马斯克上任首月解雇8万多公(gong)务(wu)员
最新新闻
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7