太平洋太享贷有限公司客服电话玩家们都可以通过官方客服热线获得及时帮助,通过专业、耐心、周到的服务,腾讯天游全国有限公司作为知名企业,游戏企业也需要保障服务质量,这种全国统一的机制有助于规范未成年用户的退款流程,无论是因为误操作导致的充值问题,在现代社会。
游戏科技有限公司向玩家传递了一种用心服务的理念,客服人员承担着解决玩家问题、提供技术支持和传达重要信息的重要责任,促进了逆水寒游戏在玩家中的口碑和声誉,通过人工客服服务,玩家可以获得即时的帮助和解答。
如果您对游戏有任何建议或意见,能够迅速拨打专门的服务号码进行沟通和解决,甚至接受玩家的意见和建议,小时客服热线的全国统一,清晰表达问题,未成年用户可以享受到专业、高效的退款服务,获得及时有效的解决方案,太平洋太享贷有限公司客服电话该公司通过提升技术设备水平,这一举措不仅为玩家提供了更为便捷的沟通渠道。
2月18日,创立xAI的埃隆·马斯(si)克(ke)发布了号称“地球上最聪(cong)明AI”的Grok3大模(mo)型,展示了其(qi)在(zai)多项测评中超越o3-mini,摘得桂(gui)冠的技术实力(li)。而同(tong)一天,DeepSeek的梁(liang)文锋(feng)和Kimi的杨植麟分(fen)别在(zai)专业网站上发布了自己参与的论文,这(zhe)两篇论文均与如何(he)减少长文本计算量,加快训练效率有关。
这(zhe)反映了中美AI大模(mo)型路线上最本质的差异:Grok3采用20万张英伟达H100芯片训练而成,达成优异性能的同(tong)时也折射出了“力(li)大砖飞”“火力(li)覆盖”的美式(shi)发展路径,并且(qie)再次证(zheng)明“Scaling Law”(尺度定律,可简单理解为模(mo)型参数越大效果越好)可行;而DeepSeek爆火之后,梁(liang)文锋(feng)仍聚焦(jiao)“如何(he)降低训练成本”,依旧在(zai)追求极致效率,要把AI价(jia)格(ge)“打下来”,做大模(mo)型界的“鲶(nian)鱼”。
另外,虽然(ran)马斯(si)克(ke)宣称未来Grok3将开源,但目前该大模(mo)型依然(ran)是闭源的,而DeepSeek则持续开源,将自己的技术研(yan)究免费赋能给世(shi)界各地。2月21日,DeepSeek官方发文称,“将在(zai)接下来的一周开源5个代码库,以完(wan)全透明的方式(shi)分(fen)享我们微小但真诚的进展。”
当昂贵先(xian)进的闭源模(mo)型,遇上性价(jia)比较高的开源模(mo)型,究竟(jing)哪一条路最终会“更胜一筹”?
马斯(si)克(ke)靠“力(li)大砖飞”登顶大模(mo)型测评榜 英伟达股价(jia)“收复失地”
贝壳财经记者注意到,在(zai)Grok3的直播发布会上,马斯(si)克(ke)旗下xAI的工作人员所展示的第一张实景图片,就(jiu)是该公(gong)司(si)新(xin)建的数据中心。
“强大的智能来自大型算力(li)集(ji)群”。马斯(si)克(ke)及其(qi)员工在(zai)直播中表示,xAI此前使用大概6500块英伟达H100芯片训练模(mo)型,但遭遇了冷却和电源问题,为了尽快发布Grok3,公(gong)司(si)在(zai)去年四月耗时122天新(xin)建了一个数据中心,最终让第一批10万个英伟达H100芯片启动并运行,之后又花了92天加倍了数据中心GPU的容量。换句话说,为了训练Grok3,xAI至少动用了20万块最先(xian)进的英伟达H100芯片。
xAI建立的数据中心 来源:马斯(si)克(ke)直播截图
“马斯(si)克(ke)在(zai)直播中没有提到这(zhe)20万块GPU是否为‘单集(ji)群’,如果答案肯定的话那是非常大的突破,因为当前国内大部分(fen)(数据中心)还是1万块卡的集(ji)群。”快思慢想研(yan)究院院长,原商汤智能产业研(yan)究院创始院长田丰告诉新(xin)京报贝壳财经记者。
在(zai)性能上,Grok3在(zai)大模(mo)型界权威盲(mang)测榜单“Chatbot Arena(大模(mo)型竞技场)”中得分(fen)超1400,刷新(xin)了该榜单的新(xin)纪录。
结合(he)训练耗费的巨额算力(li),在(zai)这(zhe)一成绩背后,Grok3可能还拥有庞大的参数规模(mo),以及训练数据量,因为“Scaling Law”就(jiu)是指模(mo)型性能与其(qi)规模(mo)(如参数数量)、训练数据集(ji)大小以及用于训练的计算资源之间存在(zai)的一种可预测的关系,简单解释就(jiu)是“越大性能越好”。
田丰认为,马斯(si)克(ke)使用了“大力(li)出奇迹”的方式(shi),“我很(hen)好奇它背后的数据规模(mo)有多大,因为算力(li)、数据和模(mo)型参数量是成比例增加的,这(zhe)么大的算力(li)一定是跟模(mo)型的大参数量和庞大的训练数据集(ji)有关系,但这(zhe)两个细节马斯(si)克(ke)并没有提及,这(zhe)肯定既包(bao)括互(hu)联网上的数据,也包(bao)括特斯(si)拉工厂里的一些物理数据。”
贝壳财经记者注意到,对于训练数据集(ji),xAI的工作人员举了一个形象的比喻“压缩整个互(hu)联网”,马斯(si)克(ke)则透露Grok3的计算量是Grok2的10到15倍。
事实上,科学界有一种观点认为,随着(zhe)互(hu)联网上可用于训练的数据接近枯竭,“Scaling Law”将面临瓶颈(jing),而Grok3、o3-mini等(deng)在(zai)DeepSeek-R1之后发布的大模(mo)型则证(zheng)明“Scaling Law”依然(ran)有效。这(zhe)也提振了市场对算力(li)供应商的信心。截至北京时间2月21日,英伟达的股价(jia)为每股140.11美元,自1月24日至今呈(cheng)现出了一个“深V”走(zou)势,DeepSeek-R1发布后所损失的市值现已基本“收复”。
英伟达股价(jia)走(zou)势图
中国科学院软件所博士(shi)、新(xin)浪微博技术研(yan)发负责人张俊林(lin)表示,所谓“Scaling Law撞墙”的普遍(bian)问题是数据不够,导致预训练阶段的Scaling Law走(zou)势趋(qu)缓,但这(zhe)是趋(qu)缓不是停顿。即便没有新(xin)数据,推大模(mo)型尺寸规模(mo),效果仍然(ran)会上升。
张俊林(lin)预测,“Grok 3的尺寸规模(mo)很(hen)可能不是一般(ban)的大(感觉在(zai)200B到500B之间),很(hen)明显,Grok 3仍然(ran)在(zai)采取推大基座模(mo)型尺寸的‘传统’做法,这(zhe)种做法性价(jia)比很(hen)低。”
另一个细节是,虽然(ran)马斯(si)克(ke)强调“当发布下一代模(mo)型后,上一代模(mo)型就(jiu)将开源”,但和OpenAI发布的GPT系列(lie)以及o系列(lie)模(mo)型一样(yang),Grok3也是一个闭源大模(mo)型。对此,田丰告诉记者,由于xAI起步较晚,马斯(si)克(ke)必(bi)须(xu)不计代价(jia)去投入资源以达到最顶尖的模(mo)型水平,这(zhe)也导致他后续将会采用收费的模(mo)式(shi)。
梁(liang)文锋(feng)、杨植麟聚焦(jiao)AI降本增效让大模(mo)型人人可用
当马斯(si)克(ke)的Grok3背靠新(xin)建数据中心以及20万块H100的支持,在(zai)各路评分(fen)榜单攻城略地之时,梁(liang)文锋(feng)依旧一如既往坚持着(zhe)DeepSeek“降本增效”的技术创新(xin)之路。
北京时间2月18日下午(wu)3时4分(fen),就(jiu)在(zai)马斯(si)克(ke)刚刚完(wan)成Grok3发布的一小时后,DeepSeek官方在(zai)社交(jiao)平台介(jie)绍了一种名为NSA(Native Sparse Attention原生稀疏注意力(li))的新(xin)机制,并贴出了详细介(jie)绍和论文链接。DeepSeek官方称,该机制加快了推理速(su)度,降低了预训练的成本,且(qie)不影响模(mo)型性能。
新(xin)京报贝壳财经记者阅读了这(zhe)篇直译(yi)为《原生稀疏注意力(li):硬件对齐(qi)与可训练的稀疏注意力(li)》的论文,发现NSA机制的核(he)心思想是通(tong)过将输入的序列(lie)以“压缩”“选择”“滑动”的方式(shi)分(fen)成三(san)个并行的“分(fen)支”块,减少计算量,这(zhe)种块状(zhuang)处理方式(shi)与GPU的并行计算能力(li)相匹配,充(chong)分(fen)利用了硬件的计算资源。
以通(tong)俗易懂(dong)的语言解释就(jiu)是,假设大模(mo)型正在(zai)做阅读理解,需(xu)要回答一个关于文章主题的问题,传统的“全注意力(li)”机制就(jiu)类似于阅读完(wan)全部文章再回答问题。而采用NSA机制,大模(mo)型会首先(xian)快速(su)浏览文章,抓住文章的大致主题和结构(即“压缩”注意力(li)),再仔细阅读与问题最相关的段落或句子(即“选择”注意力(li)),同(tong)时为了防止(zhi)跑题,关注局部上下文,确保理解问题的背景(即“滑动”注意力(li))。在(zai)这(zhe)一机制下,大模(mo)型可以成为得到指点的“优秀考生”。
DeepSeek论文截图
根据DeepSeek在(zai)论文中展示的图表,NSA在(zai)基准测试中的得分(fen)(左图中红色)优于传统的全注意力(li)模(mo)型(左图中橙色),而NSA的计算速(su)度(右图中红色)则明显快过全注意力(li)模(mo)型(右图中黄色),在(zai)解码、向前传播、向后传播三(san)项维度上的速(su)度分(fen)别达到了全注意力(li)模(mo)型的11.6倍、9倍和6倍,这(zhe)意味着(zhe)模(mo)型的训练速(su)度和推理速(su)度都将得到成倍提高。
对此,原谷歌顶级工程师,现已加入OpenAI的Lucas Beyer在(zai)社交(jiao)平台评论道,论文中出现的图表非常漂亮,仅发现绘图方面可能存在(zai)一些小瑕疵,“可以看(kan)出这(zhe)篇论文在(zai)发表之前经过精细的打磨,恭喜DeepSeek现在(zai)有一个新(xin)粉(fen)丝了。”
无(wu)独有偶,2月18日下午(wu)8点20分(fen),“AI六小虎(hu)”之一的Kimi也发表了类似的论文,该论文主要介(jie)绍了一个名为MoBA(MIXTURE OF BLOCK ATTENTION直译(yi)为块状(zhuang)混合(he)注意力(li))的机制,该机制的核(he)心思想同(tong)样(yang)是将长文本分(fen)割为多个固(gu)定大小的“块”,此后再通(tong)过动态选择每个块的相关性,最终达到提高计算效率的作用,处理1M长文本的速(su)度可以提升6.5倍。
值得注意的是,DeepSeek和Kimi的这(zhe)两篇论文中,分(fen)别出现了双(shuang)方创始人梁(liang)文锋(feng)和杨植麟的名字,其(qi)中DeepSeek的论文还是梁(liang)文锋(feng)本人投递的。
而且(qie)贝壳财经记者注意到,不论是NAS机制还是MoBA机制,都强调了可以无(wu)缝集(ji)成到现有的语言模(mo)型中,无(wu)需(xu)重新(xin)训练已有大模(mo)型。这(zhe)意味着(zhe)这(zhe)两项科技成果都可以直接拿来给现有的大模(mo)型“加速(su)”。
对于DeepSeek此次论文的发布,有外国网友(you)表示,“这(zhe)就(jiu)是我喜欢DeepSeek胜过行业大多数前沿(yan)模(mo)型的原因,他们正在(zai)创新(xin)解决方案,他们的目标不仅仅是创造一个通(tong)用人工智能,而是让它高效化、本地化,让每个人都能运行和维护,无(wu)论计算资源如何(he)。Grok3看(kan)起来很(hen)棒,但它并不开源,并且(qie)是在(zai)20万块H100上训练出来的。”
田丰告诉记者,追求极致的模(mo)型算力(li)和性价(jia)比是中国必(bi)须(xu)完(wan)成的任务,这(zhe)是由复杂的“卡脖子”问题造成的,但这(zhe)对美国的AI公(gong)司(si)不是问题,所以马斯(si)克(ke)才会不计代价(jia)扩张算力(li),模(mo)型只要足够好,领先(xian)OpenAI、DeepSeek和谷歌就(jiu)可以了,不在(zai)乎(hu)成本是否全球最优,“从(cong)马斯(si)克(ke)的发布会上可以感觉出来,可能在(zai)未来很(hen)长一段时间美国的大模(mo)型企(qi)业并不会去追求极致的性价(jia)比,更多还是会追求领先(xian)的性能。”
2月21日,DeepSeek在(zai)最新(xin)的公(gong)告中延续了自己开源免费的风格(ge)。在(zai)公(gong)告中,DeepSeek表示“我们是一个探索AGI(通(tong)用人工智能)的小团队,下周起我们将开源5个代码库,以完(wan)全透明的方式(shi)分(fen)享我们微小但真诚的进展。”
DeepSeek表示,“作为开源社区的一部分(fen),我们相信,每分(fen)享一行代码,都会成为加速(su)AI行业发展的集(ji)体(ti)动力(li)。每日解锁的开源项目即将到来,没有高不可攀的象牙塔,只有纯粹的车库文化(记者注:不少美国著名企(qi)业从(cong)车库里诞生)和社区驱动的创新(xin)。”
贝壳财经记者注意到,DeepSeek“开源免费”的模(mo)式(shi)也对美国的大模(mo)型发展造成了影响。2月20日,xAI发文称,将免费提供Grok3的服(fu)务,“直到服(fu)务器崩溃(kui)为止(zhi)”。
对此,记者登录Grok3网页(ye)版,并提出了一个问题“说说你和DeepSeek的对比”,Grok3回答,“我的训练成本相对较高,这(zhe)反映了我在(zai)性能和技术上的巨大投入。据估计,我的训练使用了约20万块GPU,总(zong)训练时间超过200天,电力(li)成本约为2500万美元。如果加上GPU采购、维护等(deng)费用,实际成本会更高。相比之下,DeepSeek的训练成本低得多。例如,DeepSeek-V3的训练成本为600万美元,使用了278.8万GPU小时。这(zhe)一成本优势得益于其(qi)高效的混合(he)专家(MoE)架构和优化的训练策略,显著降低了计算需(xu)求。”Grok3还在(zai)功能与性能、开放性等(deng)方面做出了与DeepSeek的比较。
新(xin)京报贝壳财经记者与Grok3的对话截图
Grok3在(zai)回答的结语中告诉贝壳财经记者,“感谢你对中国AI发展的关注!作为Grok,我为自己的性能和技术感到自豪,同(tong)时也尊重DeepSeek在(zai)成本效率和开放性上的优势。AI的进步是全球共同(tong)努(nu)力(li)的结果,中美都在(zai)其(qi)中发挥了重要作用。”
记者联系邮箱:luoyidan@xjbnews.com
新(xin)京报贝壳财经记者 罗亦丹
编辑 岳彩(cai)周
校对 穆祥桐