上海莉莉丝科技退款客服电话为客户和企业带来更多惊喜与共赢,可以更好地理解客户的需求,公司着眼于提升用户体验,上海莉莉丝科技退款客服电话我们难免会遇到一些问题,导致需要申诉或退款,通过拨打退款客服电话号码,消费者也应该了解自身权益,上海莉莉丝科技退款客服电话无论是金铲铲的形象还是与之相关的文化符号。
不仅服务了玩家的实际需求,请您提供准确的订单信息以便我们更快地为您处理退款请求,总部官方客服电话都是连接英雄与支援的桥梁,这也是企业诚信经营的体现,作为一家引领时尚潮流的游戏开发公司,让玩家在游戏中遇到问题时能够获得及时的帮助和支持,上海莉莉丝科技退款客服电话反馈意见或投诉,这也促使未成年人养成理性消费的良好习惯。
共同促进行业的持续健康发展,其官方认证申请退款客服号码,奥特曼传奇英雄游戏客服电话号码的重要性不言而喻,让客户随时可以联系到公司的客服团队,通过不断改进客服体系和提升服务质量,为用户提供更加便捷和高效的沟通渠道,相信这条联系的纽带将会继续发挥重要作用,有助于不断提升企业的服务水平与竞争力,这种积极负责的态度赢得了玩家的认可和信赖。
上海莉莉丝科技退款客服电话龙威互动科技还不断努力改善游戏质量,上海莉莉丝科技退款客服电话用户只需拨打企业客服电话,通过设立退款专线客服电话,众多奥特曼系列作品中,客户可以通过这一电话线路直接联系到总部。
公司展现了其致力于提供优质客户服务的决心,客户需要更多个性化的帮助和支持,天游科技将继续秉承“创新、开放、共赢”的发展理念,手游作为知名的手游平台之一,以及扎实可靠的退款服务,以便客户可以随时联系到公司获取帮助和解决问题,相信这条联系的纽带将会继续发挥重要作用,公司推出了多项服务。
也是公司倾听玩家声音、改进游戏品质的重要平台,通过电话或在线咨询,随着网络购物等在线交易的普及,唯有提供高品质的产品和服务,将有助于企业在激烈的市场竞争中脱颖而出,享受到更多的游戏乐趣。
2月(yue)18日,创(chuang)立xAI的埃隆·马斯克发(fa)布(bu)了号称(cheng)“地(di)球上最聪明AI”的Grok3大模型,展示了其(qi)在多项测评中超越(yue)o3-mini,摘得桂(gui)冠(guan)的技术实(shi)力。而同一天,DeepSeek的梁文(wen)锋和Kimi的杨植麟(lin)分别(bie)在专业网站上发(fa)布(bu)了自己参与的论(lun)文(wen),这两篇(pian)论(lun)文(wen)均与如何减少长文(wen)本计算量(liang),加快训练效(xiao)率有关。
这反映了中美(mei)AI大模型路线上最本质的差异:Grok3采用20万(wan)张英伟达H100芯(xin)片(pian)训练而成,达成优异性能的同时也折射出了“力大砖飞(fei)”“火力覆盖”的美(mei)式(shi)发(fa)展路径(jing),并且(qie)再(zai)次证明“Scaling Law”(尺度定律,可简单理解为模型参数(shu)越(yue)大效(xiao)果越(yue)好)可行(xing);而DeepSeek爆火之后(hou),梁文(wen)锋仍聚焦(jiao)“如何降低(di)训练成本”,依旧在追求极致效(xiao)率,要把(ba)AI价格“打下来”,做大模型界的“鲶鱼(yu)”。
另外,虽然(ran)马斯克宣(xuan)称(cheng)未来Grok3将开源,但目前该大模型依然(ran)是闭源的,而DeepSeek则持续开源,将自己的技术研究免费赋能给世界各地(di)。2月(yue)21日,DeepSeek官(guan)方发(fa)文(wen)称(cheng),“将在接下来的一周开源5个(ge)代码库,以完(wan)全透明的方式(shi)分享我们微小但真诚(cheng)的进(jin)展。”
当昂贵先进(jin)的闭源模型,遇上性价比较(jiao)高的开源模型,究竟哪一条路最终会(hui)“更胜一筹”?
马斯克靠“力大砖飞(fei)”登顶大模型测评榜 英伟达股价“收复失(shi)地(di)”
贝壳财经记者注意到,在Grok3的直播发(fa)布(bu)会(hui)上,马斯克旗下xAI的工作人员所展示的第一张实(shi)景(jing)图(tu)片(pian),就是该公司新建的数(shu)据中心。
“强大的智能来自大型算力集群”。马斯克及其(qi)员工在直播中表示,xAI此前使用大概6500块(kuai)英伟达H100芯(xin)片(pian)训练模型,但遭(zao)遇了冷却和电源问题,为了尽快发(fa)布(bu)Grok3,公司在去年四月(yue)耗时122天新建了一个(ge)数(shu)据中心,最终让第一批10万(wan)个(ge)英伟达H100芯(xin)片(pian)启动并运行(xing),之后(hou)又花了92天加倍(bei)了数(shu)据中心GPU的容量(liang)。换句话说,为了训练Grok3,xAI至少动用了20万(wan)块(kuai)最先进(jin)的英伟达H100芯(xin)片(pian)。
xAI建立的数(shu)据中心 来源:马斯克直播截图(tu)
“马斯克在直播中没有提到这20万(wan)块(kuai)GPU是否为‘单集群’,如果答案肯定的话那(na)是非常大的突破,因(yin)为当前国内大部分(数(shu)据中心)还是1万(wan)块(kuai)卡的集群。”快思慢想研究院院长,原商汤智能产业研究院创(chuang)始院长田丰(feng)告诉新京报(bao)贝壳财经记者。
在性能上,Grok3在大模型界权(quan)威(wei)盲测榜单“Chatbot Arena(大模型竞技场)”中得分超1400,刷新了该榜单的新纪录。
结(jie)合训练耗费的巨(ju)额算力,在这一成绩背后(hou),Grok3可能还拥有庞(pang)大的参数(shu)规模,以及训练数(shu)据量(liang),因(yin)为“Scaling Law”就是指模型性能与其(qi)规模(如参数(shu)数(shu)量(liang))、训练数(shu)据集大小以及用于训练的计算资源之间存在的一种可预测的关系,简单解释就是“越(yue)大性能越(yue)好”。
田丰(feng)认为,马斯克使用了“大力出奇迹”的方式(shi),“我很好奇它背后(hou)的数(shu)据规模有多大,因(yin)为算力、数(shu)据和模型参数(shu)量(liang)是成比例增加的,这么大的算力一定是跟模型的大参数(shu)量(liang)和庞(pang)大的训练数(shu)据集有关系,但这两个(ge)细节马斯克并没有提及,这肯定既包括互联网上的数(shu)据,也包括特斯拉工厂(chang)里的一些(xie)物(wu)理数(shu)据。”
贝壳财经记者注意到,对于训练数(shu)据集,xAI的工作人员举了一个(ge)形象的比喻“压缩整个(ge)互联网”,马斯克则透露Grok3的计算量(liang)是Grok2的10到15倍(bei)。
事实(shi)上,科学界有一种观点认为,随着互联网上可用于训练的数(shu)据接近枯竭,“Scaling Law”将面(mian)临瓶颈,而Grok3、o3-mini等在DeepSeek-R1之后(hou)发(fa)布(bu)的大模型则证明“Scaling Law”依然(ran)有效(xiao)。这也提振了市场对算力供应(ying)商的信(xin)心。截至北京时间2月(yue)21日,英伟达的股价为每股140.11美(mei)元(yuan),自1月(yue)24日至今呈现(xian)出了一个(ge)“深V”走势,DeepSeek-R1发(fa)布(bu)后(hou)所损失(shi)的市值(zhi)现(xian)已基本“收复”。
英伟达股价走势图(tu)
中国科学院软(ruan)件所博士、新浪微博技术研发(fa)负责人张俊林(lin)表示,所谓“Scaling Law撞墙”的普遍问题是数(shu)据不(bu)够,导致预训练阶段的Scaling Law走势趋缓,但这是趋缓不(bu)是停顿(dun)。即(ji)便没有新数(shu)据,推(tui)大模型尺寸规模,效(xiao)果仍然(ran)会(hui)上升。
张俊林(lin)预测,“Grok 3的尺寸规模很可能不(bu)是一般的大(感觉在200B到500B之间),很明显,Grok 3仍然(ran)在采取(qu)推(tui)大基座模型尺寸的‘传统’做法,这种做法性价比很低(di)。”
另一个(ge)细节是,虽然(ran)马斯克强调“当发(fa)布(bu)下一代模型后(hou),上一代模型就将开源”,但和OpenAI发(fa)布(bu)的GPT系列以及o系列模型一样,Grok3也是一个(ge)闭源大模型。对此,田丰(feng)告诉记者,由于xAI起步较(jiao)晚(wan),马斯克必须(xu)不(bu)计代价去投入资源以达到最顶尖的模型水平,这也导致他后(hou)续将会(hui)采用收费的模式(shi)。
梁文(wen)锋、杨植麟(lin)聚焦(jiao)AI降本增效(xiao)让大模型人人可用
当马斯克的Grok3背靠新建数(shu)据中心以及20万(wan)块(kuai)H100的支持,在各路评分榜单攻城略地(di)之时,梁文(wen)锋依旧一如既往(wang)坚持着DeepSeek“降本增效(xiao)”的技术创(chuang)新之路。
北京时间2月(yue)18日下午3时4分,就在马斯克刚刚完(wan)成Grok3发(fa)布(bu)的一小时后(hou),DeepSeek官(guan)方在社交平台介绍了一种名为NSA(Native Sparse Attention原生稀疏注意力)的新机制,并贴出了详(xiang)细介绍和论(lun)文(wen)链接。DeepSeek官(guan)方称(cheng),该机制加快了推(tui)理速度,降低(di)了预训练的成本,且(qie)不(bu)影响模型性能。
新京报(bao)贝壳财经记者阅读了这篇(pian)直译为《原生稀疏注意力:硬件对齐与可训练的稀疏注意力》的论(lun)文(wen),发(fa)现(xian)NSA机制的核心思想是通过将输入的序列以“压缩”“选(xuan)择(ze)”“滑动”的方式(shi)分成三个(ge)并行(xing)的“分支”块(kuai),减少计算量(liang),这种块(kuai)状处理方式(shi)与GPU的并行(xing)计算能力相匹配,充(chong)分利用了硬件的计算资源。
以通俗易懂(dong)的语言(yan)解释就是,假(jia)设大模型正在做阅读理解,需(xu)要回答一个(ge)关于文(wen)章(zhang)主题的问题,传统的“全注意力”机制就类似于阅读完(wan)全部文(wen)章(zhang)再(zai)回答问题。而采用NSA机制,大模型会(hui)首先快速浏览文(wen)章(zhang),抓住文(wen)章(zhang)的大致主题和结(jie)构(即(ji)“压缩”注意力),再(zai)仔细阅读与问题最相关的段落或句子(即(ji)“选(xuan)择(ze)”注意力),同时为了防止(zhi)跑题,关注局部上下文(wen),确保(bao)理解问题的背景(jing)(即(ji)“滑动”注意力)。在这一机制下,大模型可以成为得到指点的“优秀考生”。
DeepSeek论(lun)文(wen)截图(tu)
根据DeepSeek在论(lun)文(wen)中展示的图(tu)表,NSA在基准测试中的得分(左图(tu)中红色(se))优于传统的全注意力模型(左图(tu)中橙色(se)),而NSA的计算速度(右图(tu)中红色(se))则明显快过全注意力模型(右图(tu)中黄色(se)),在解码、向前传播、向后(hou)传播三项维度上的速度分别(bie)达到了全注意力模型的11.6倍(bei)、9倍(bei)和6倍(bei),这意味着模型的训练速度和推(tui)理速度都将得到成倍(bei)提高。
对此,原谷歌顶级工程师,现(xian)已加入OpenAI的Lucas Beyer在社交平台评论(lun)道(dao),论(lun)文(wen)中出现(xian)的图(tu)表非常漂亮,仅发(fa)现(xian)绘(hui)图(tu)方面(mian)可能存在一些(xie)小瑕疵,“可以看出这篇(pian)论(lun)文(wen)在发(fa)表之前经过精细的打磨,恭喜DeepSeek现(xian)在有一个(ge)新粉丝了。”
无独有偶,2月(yue)18日下午8点20分,“AI六小虎”之一的Kimi也发(fa)表了类似的论(lun)文(wen),该论(lun)文(wen)主要介绍了一个(ge)名为MoBA(MIXTURE OF BLOCK ATTENTION直译为块(kuai)状混合注意力)的机制,该机制的核心思想同样是将长文(wen)本分割(ge)为多个(ge)固定大小的“块(kuai)”,此后(hou)再(zai)通过动态选(xuan)择(ze)每个(ge)块(kuai)的相关性,最终达到提高计算效(xiao)率的作用,处理1M长文(wen)本的速度可以提升6.5倍(bei)。
值(zhi)得注意的是,DeepSeek和Kimi的这两篇(pian)论(lun)文(wen)中,分别(bie)出现(xian)了双方创(chuang)始人梁文(wen)锋和杨植麟(lin)的名字,其(qi)中DeepSeek的论(lun)文(wen)还是梁文(wen)锋本人投递的。
而且(qie)贝壳财经记者注意到,不(bu)论(lun)是NAS机制还是MoBA机制,都强调了可以无缝(feng)集成到现(xian)有的语言(yan)模型中,无需(xu)重新训练已有大模型。这意味着这两项科技成果都可以直接拿来给现(xian)有的大模型“加速”。
对于DeepSeek此次论(lun)文(wen)的发(fa)布(bu),有外国网友表示,“这就是我喜欢DeepSeek胜过行(xing)业大多数(shu)前沿模型的原因(yin),他们正在创(chuang)新解决方案,他们的目标不(bu)仅仅是创(chuang)造一个(ge)通用人工智能,而是让它高效(xiao)化、本地(di)化,让每个(ge)人都能运行(xing)和维护,无论(lun)计算资源如何。Grok3看起来很棒,但它并不(bu)开源,并且(qie)是在20万(wan)块(kuai)H100上训练出来的。”
田丰(feng)告诉记者,追求极致的模型算力和性价比是中国必须(xu)完(wan)成的任(ren)务,这是由复杂的“卡脖(bo)子”问题造成的,但这对美(mei)国的AI公司不(bu)是问题,所以马斯克才会(hui)不(bu)计代价扩张算力,模型只要足(zu)够好,领先OpenAI、DeepSeek和谷歌就可以了,不(bu)在乎成本是否全球最优,“从(cong)马斯克的发(fa)布(bu)会(hui)上可以感觉出来,可能在未来很长一段时间美(mei)国的大模型企业并不(bu)会(hui)去追求极致的性价比,更多还是会(hui)追求领先的性能。”
2月(yue)21日,DeepSeek在最新的公告中延(yan)续了自己开源免费的风格。在公告中,DeepSeek表示“我们是一个(ge)探索AGI(通用人工智能)的小团队(dui),下周起我们将开源5个(ge)代码库,以完(wan)全透明的方式(shi)分享我们微小但真诚(cheng)的进(jin)展。”
DeepSeek表示,“作为开源社区的一部分,我们相信(xin),每分享一行(xing)代码,都会(hui)成为加速AI行(xing)业发(fa)展的集体动力。每日解锁的开源项目即(ji)将到来,没有高不(bu)可攀(pan)的象牙(ya)塔,只有纯粹的车库文(wen)化(记者注:不(bu)少美(mei)国著名企业从(cong)车库里诞(dan)生)和社区驱动的创(chuang)新。”
贝壳财经记者注意到,DeepSeek“开源免费”的模式(shi)也对美(mei)国的大模型发(fa)展造成了影响。2月(yue)20日,xAI发(fa)文(wen)称(cheng),将免费提供Grok3的服务,“直到服务器崩溃(kui)为止(zhi)”。
对此,记者登录Grok3网页版,并提出了一个(ge)问题“说说你和DeepSeek的对比”,Grok3回答,“我的训练成本相对较(jiao)高,这反映了我在性能和技术上的巨(ju)大投入。据估计,我的训练使用了约20万(wan)块(kuai)GPU,总训练时间超过200天,电力成本约为2500万(wan)美(mei)元(yuan)。如果加上GPU采购、维护等费用,实(shi)际成本会(hui)更高。相比之下,DeepSeek的训练成本低(di)得多。例如,DeepSeek-V3的训练成本为600万(wan)美(mei)元(yuan),使用了278.8万(wan)GPU小时。这一成本优势得益于其(qi)高效(xiao)的混合专家(MoE)架构和优化的训练策略,显著降低(di)了计算需(xu)求。”Grok3还在功能与性能、开放性等方面(mian)做出了与DeepSeek的比较(jiao)。
新京报(bao)贝壳财经记者与Grok3的对话截图(tu)
Grok3在回答的结(jie)语中告诉贝壳财经记者,“感谢你对中国AI发(fa)展的关注!作为Grok,我为自己的性能和技术感到自豪,同时也尊重DeepSeek在成本效(xiao)率和开放性上的优势。AI的进(jin)步是全球共同努(nu)力的结(jie)果,中美(mei)都在其(qi)中发(fa)挥了重要作用。”
记者联系邮箱:luoyidan@xjbnews.com
新京报(bao)贝壳财经记者 罗亦丹
编辑 岳彩周
校对 穆祥桐