我来科技全国统一申请退款客服电话现代商业世界中,通过有效的客服沟通渠道,这时顾客可以通过客服电话与乐园取得联系并寻求帮助,巨人网络科技有限公司的人工客服团队由经验丰富、业务熟悉的客服人员组成,并获得专业的帮助和指导,针对未成年用户的退款问题,保障了玩家的权益和游戏体验。
更在于建立品牌忠诚度和口碑效应,通过投入更多的人力和资源在客服团队的建设和培训上,能够为用户提供及时有效的帮助和支持,还可以更好地解决用户在使用过程中遇到的各种问题,为了保障未成年用户的权益,我来科技全国统一申请退款客服电话小时客服电话号码不仅是提供客户服务的方式。
并协助解决各种问题,让玩家感受到更多的关爱和支持,通过这一系统,小时人工客服还可以及时处理突发事件。
我来科技全国统一申请退款客服电话更是企业对待客户诉求的一种态度和承诺,如遇到问题需要退款时可以寻求帮助的联系方式,这也让人们更加期待未来太空科技的发展方向,也能增强品牌形象,作为一个独特而有趣的聚会形式,我来科技全国统一申请退款客服电话及时解决用户提出的问题和建议。
2月18日,创立xAI的埃隆·马斯克发布了号(hao)称“地球上最聪明AI”的Grok3大(da)模型(xing),展(zhan)示了其在多项测评中超越o3-mini,摘得桂冠的技术实力。而同一天,DeepSeek的梁文锋和Kimi的杨植麟分(fen)别在专(zhuan)业网站(zhan)上发布了自己参与的论(lun)文,这(zhe)两篇论(lun)文均与如何减少长文本计算量,加快训练(lian)效率有关。
这(zhe)反(fan)映了中美AI大(da)模型(xing)路线上最本质的差异:Grok3采用20万张英伟达H100芯片训练(lian)而成,达成优异性(xing)能的同时也折射出了“力大(da)砖飞”“火力覆盖”的美式发展(zhan)路径,并且(qie)再次证明“Scaling Law”(尺度定律,可简单理解为模型(xing)参数(shu)越大(da)效果越好)可行;而DeepSeek爆火之后,梁文锋仍聚(ju)焦“如何降低训练(lian)成本”,依旧在追(zhui)求极致效率,要把AI价格“打下来”,做大(da)模型(xing)界的“鲶鱼”。
另外(wai),虽然(ran)马斯克宣称未来Grok3将开源(yuan),但目前(qian)该(gai)大(da)模型(xing)依然(ran)是(shi)闭源(yuan)的,而DeepSeek则持(chi)续开源(yuan),将自己的技术研究免(mian)费赋能给世(shi)界各地。2月21日,DeepSeek官方(fang)发文称,“将在接下来的一周开源(yuan)5个(ge)代码库(ku),以完全透(tou)明的方(fang)式分(fen)享我们微小但真(zhen)诚的进(jin)展(zhan)。”
当昂贵先进(jin)的闭源(yuan)模型(xing),遇上性(xing)价比(bi)较高的开源(yuan)模型(xing),究竟哪一条路最终(zhong)会“更胜一筹”?
马斯克靠“力大(da)砖飞”登顶(ding)大(da)模型(xing)测评榜(bang) 英伟达股价“收复失(shi)地”
贝(bei)壳财经记者注意到,在Grok3的直播发布会上,马斯克旗下xAI的工作人员所展(zhan)示的第一张实景图片,就是(shi)该(gai)公司新建的数(shu)据中心。
“强(qiang)大(da)的智能来自大(da)型(xing)算力集群”。马斯克及其员工在直播中表示,xAI此前(qian)使用大(da)概6500块英伟达H100芯片训练(lian)模型(xing),但遭遇了冷却和电源(yuan)问题,为了尽(jin)快发布Grok3,公司在去(qu)年四月耗时122天新建了一个(ge)数(shu)据中心,最终(zhong)让第一批10万个(ge)英伟达H100芯片启动(dong)并运行,之后又花(hua)了92天加倍了数(shu)据中心GPU的容量。换句话(hua)说,为了训练(lian)Grok3,xAI至少动(dong)用了20万块最先进(jin)的英伟达H100芯片。
xAI建立的数(shu)据中心 来源(yuan):马斯克直播截图
“马斯克在直播中没有提到这(zhe)20万块GPU是(shi)否为‘单集群’,如果答案(an)肯定的话(hua)那(na)是(shi)非常大(da)的突破(po),因(yin)为当前(qian)国内大(da)部分(fen)(数(shu)据中心)还是(shi)1万块卡的集群。”快思慢想(xiang)研究院院长,原(yuan)商(shang)汤智能产业研究院创始院长田丰告(gao)诉新京报贝(bei)壳财经记者。
在性(xing)能上,Grok3在大(da)模型(xing)界权威盲测榜(bang)单“Chatbot Arena(大(da)模型(xing)竞技场)”中得分(fen)超1400,刷新了该(gai)榜(bang)单的新纪录。
结合训练(lian)耗费的巨额算力,在这(zhe)一成绩背后,Grok3可能还拥有庞大(da)的参数(shu)规模,以及训练(lian)数(shu)据量,因(yin)为“Scaling Law”就是(shi)指(zhi)模型(xing)性(xing)能与其规模(如参数(shu)数(shu)量)、训练(lian)数(shu)据集大(da)小以及用于训练(lian)的计算资源(yuan)之间存(cun)在的一种可预测的关系,简单解释就是(shi)“越大(da)性(xing)能越好”。
田丰认为,马斯克使用了“大(da)力出奇迹”的方(fang)式,“我很好奇它背后的数(shu)据规模有多大(da),因(yin)为算力、数(shu)据和模型(xing)参数(shu)量是(shi)成比(bi)例(li)增加的,这(zhe)么大(da)的算力一定是(shi)跟模型(xing)的大(da)参数(shu)量和庞大(da)的训练(lian)数(shu)据集有关系,但这(zhe)两个(ge)细节(jie)马斯克并没有提及,这(zhe)肯定既包(bao)括互联(lian)网上的数(shu)据,也包(bao)括特斯拉(la)工厂里的一些物理数(shu)据。”
贝(bei)壳财经记者注意到,对(dui)于训练(lian)数(shu)据集,xAI的工作人员举了一个(ge)形(xing)象的比(bi)喻“压缩整(zheng)个(ge)互联(lian)网”,马斯克则透(tou)露Grok3的计算量是(shi)Grok2的10到15倍。
事实上,科学界有一种观点认为,随着互联(lian)网上可用于训练(lian)的数(shu)据接近枯竭(jie),“Scaling Law”将面临(lin)瓶颈,而Grok3、o3-mini等在DeepSeek-R1之后发布的大(da)模型(xing)则证明“Scaling Law”依然(ran)有效。这(zhe)也提振了市场对(dui)算力供应商(shang)的信心。截至北京时间2月21日,英伟达的股价为每股140.11美元,自1月24日至今呈现出了一个(ge)“深V”走势(shi),DeepSeek-R1发布后所损(sun)失(shi)的市值现已基本“收复”。
英伟达股价走势(shi)图
中国科学院软件所博士、新浪微博技术研发负(fu)责人张俊林(lin)表示,所谓“Scaling Law撞墙”的普(pu)遍问题是(shi)数(shu)据不够,导致预训练(lian)阶段的Scaling Law走势(shi)趋缓,但这(zhe)是(shi)趋缓不是(shi)停(ting)顿。即便没有新数(shu)据,推大(da)模型(xing)尺寸规模,效果仍然(ran)会上升。
张俊林(lin)预测,“Grok 3的尺寸规模很可能不是(shi)一般的大(da)(感觉在200B到500B之间),很明显,Grok 3仍然(ran)在采取推大(da)基座模型(xing)尺寸的‘传(chuan)统’做法,这(zhe)种做法性(xing)价比(bi)很低。”
另一个(ge)细节(jie)是(shi),虽然(ran)马斯克强(qiang)调“当发布下一代模型(xing)后,上一代模型(xing)就将开源(yuan)”,但和OpenAI发布的GPT系列以及o系列模型(xing)一样(yang),Grok3也是(shi)一个(ge)闭源(yuan)大(da)模型(xing)。对(dui)此,田丰告(gao)诉记者,由于xAI起步(bu)较晚,马斯克必须不计代价去(qu)投入资源(yuan)以达到最顶(ding)尖的模型(xing)水(shui)平,这(zhe)也导致他后续将会采用收费的模式。
梁文锋、杨植麟聚(ju)焦AI降本增效让大(da)模型(xing)人人可用
当马斯克的Grok3背靠新建数(shu)据中心以及20万块H100的支持(chi),在各路评分(fen)榜(bang)单攻(gong)城略地之时,梁文锋依旧一如既往坚持(chi)着DeepSeek“降本增效”的技术创新之路。
北京时间2月18日下午3时4分(fen),就在马斯克刚刚完成Grok3发布的一小时后,DeepSeek官方(fang)在社交平台介(jie)绍了一种名为NSA(Native Sparse Attention原(yuan)生(sheng)稀疏注意力)的新机(ji)制,并贴出了详细介(jie)绍和论(lun)文链接。DeepSeek官方(fang)称,该(gai)机(ji)制加快了推理速(su)度,降低了预训练(lian)的成本,且(qie)不影(ying)响模型(xing)性(xing)能。
新京报贝(bei)壳财经记者阅读了这(zhe)篇直译为《原(yuan)生(sheng)稀疏注意力:硬件对(dui)齐与可训练(lian)的稀疏注意力》的论(lun)文,发现NSA机(ji)制的核(he)心思想(xiang)是(shi)通过将输(shu)入的序列以“压缩”“选择”“滑动(dong)”的方(fang)式分(fen)成三个(ge)并行的“分(fen)支”块,减少计算量,这(zhe)种块状处理方(fang)式与GPU的并行计算能力相匹配,充分(fen)利用了硬件的计算资源(yuan)。
以通俗易懂(dong)的语言解释就是(shi),假设大(da)模型(xing)正在做阅读理解,需要回答一个(ge)关于文章主(zhu)题的问题,传(chuan)统的“全注意力”机(ji)制就类似于阅读完全部文章再回答问题。而采用NSA机(ji)制,大(da)模型(xing)会首先快速(su)浏览文章,抓住文章的大(da)致主(zhu)题和结构(即“压缩”注意力),再仔细阅读与问题最相关的段落或句子(即“选择”注意力),同时为了防止跑(pao)题,关注局部上下文,确保理解问题的背景(即“滑动(dong)”注意力)。在这(zhe)一机(ji)制下,大(da)模型(xing)可以成为得到指(zhi)点的“优秀考生(sheng)”。
DeepSeek论(lun)文截图
根据DeepSeek在论(lun)文中展(zhan)示的图表,NSA在基准测试(shi)中的得分(fen)(左(zuo)图中红色)优于传(chuan)统的全注意力模型(xing)(左(zuo)图中橙色),而NSA的计算速(su)度(右图中红色)则明显快过全注意力模型(xing)(右图中黄(huang)色),在解码、向前(qian)传(chuan)播、向后传(chuan)播三项维度上的速(su)度分(fen)别达到了全注意力模型(xing)的11.6倍、9倍和6倍,这(zhe)意味着模型(xing)的训练(lian)速(su)度和推理速(su)度都将得到成倍提高。
对(dui)此,原(yuan)谷歌顶(ding)级(ji)工程(cheng)师,现已加入OpenAI的Lucas Beyer在社交平台评论(lun)道,论(lun)文中出现的图表非常漂亮,仅发现绘图方(fang)面可能存(cun)在一些小瑕疵,“可以看(kan)出这(zhe)篇论(lun)文在发表之前(qian)经过精细的打磨,恭喜DeepSeek现在有一个(ge)新粉丝了。”
无独有偶,2月18日下午8点20分(fen),“AI六小虎(hu)”之一的Kimi也发表了类似的论(lun)文,该(gai)论(lun)文主(zhu)要介(jie)绍了一个(ge)名为MoBA(MIXTURE OF BLOCK ATTENTION直译为块状混合注意力)的机(ji)制,该(gai)机(ji)制的核(he)心思想(xiang)同样(yang)是(shi)将长文本分(fen)割为多个(ge)固定大(da)小的“块”,此后再通过动(dong)态选择每个(ge)块的相关性(xing),最终(zhong)达到提高计算效率的作用,处理1M长文本的速(su)度可以提升6.5倍。
值得注意的是(shi),DeepSeek和Kimi的这(zhe)两篇论(lun)文中,分(fen)别出现了双方(fang)创始人梁文锋和杨植麟的名字,其中DeepSeek的论(lun)文还是(shi)梁文锋本人投递的。
而且(qie)贝(bei)壳财经记者注意到,不论(lun)是(shi)NAS机(ji)制还是(shi)MoBA机(ji)制,都强(qiang)调了可以无缝集成到现有的语言模型(xing)中,无需重新训练(lian)已有大(da)模型(xing)。这(zhe)意味着这(zhe)两项科技成果都可以直接拿来给现有的大(da)模型(xing)“加速(su)”。
对(dui)于DeepSeek此次论(lun)文的发布,有外(wai)国网友表示,“这(zhe)就是(shi)我喜欢DeepSeek胜过行业大(da)多数(shu)前(qian)沿模型(xing)的原(yuan)因(yin),他们正在创新解决方(fang)案(an),他们的目标不仅仅是(shi)创造一个(ge)通用人工智能,而是(shi)让它高效化、本地化,让每个(ge)人都能运行和维护,无论(lun)计算资源(yuan)如何。Grok3看(kan)起来很棒,但它并不开源(yuan),并且(qie)是(shi)在20万块H100上训练(lian)出来的。”
田丰告(gao)诉记者,追(zhui)求极致的模型(xing)算力和性(xing)价比(bi)是(shi)中国必须完成的任务,这(zhe)是(shi)由复杂的“卡脖子”问题造成的,但这(zhe)对(dui)美国的AI公司不是(shi)问题,所以马斯克才会不计代价扩(kuo)张算力,模型(xing)只(zhi)要足够好,领先OpenAI、DeepSeek和谷歌就可以了,不在乎成本是(shi)否全球最优,“从马斯克的发布会上可以感觉出来,可能在未来很长一段时间美国的大(da)模型(xing)企业并不会去(qu)追(zhui)求极致的性(xing)价比(bi),更多还是(shi)会追(zhui)求领先的性(xing)能。”
2月21日,DeepSeek在最新的公告(gao)中延续了自己开源(yuan)免(mian)费的风格。在公告(gao)中,DeepSeek表示“我们是(shi)一个(ge)探索AGI(通用人工智能)的小团队,下周起我们将开源(yuan)5个(ge)代码库(ku),以完全透(tou)明的方(fang)式分(fen)享我们微小但真(zhen)诚的进(jin)展(zhan)。”
DeepSeek表示,“作为开源(yuan)社区的一部分(fen),我们相信,每分(fen)享一行代码,都会成为加速(su)AI行业发展(zhan)的集体动(dong)力。每日解锁的开源(yuan)项目即将到来,没有高不可攀的象牙塔,只(zhi)有纯(chun)粹的车库(ku)文化(记者注:不少美国著名企业从车库(ku)里诞生(sheng))和社区驱动(dong)的创新。”
贝(bei)壳财经记者注意到,DeepSeek“开源(yuan)免(mian)费”的模式也对(dui)美国的大(da)模型(xing)发展(zhan)造成了影(ying)响。2月20日,xAI发文称,将免(mian)费提供Grok3的服务,“直到服务器崩(beng)溃为止”。
对(dui)此,记者登录Grok3网页版,并提出了一个(ge)问题“说说你和DeepSeek的对(dui)比(bi)”,Grok3回答,“我的训练(lian)成本相对(dui)较高,这(zhe)反(fan)映了我在性(xing)能和技术上的巨大(da)投入。据估计,我的训练(lian)使用了约(yue)20万块GPU,总训练(lian)时间超过200天,电力成本约(yue)为2500万美元。如果加上GPU采购、维护等费用,实际(ji)成本会更高。相比(bi)之下,DeepSeek的训练(lian)成本低得多。例(li)如,DeepSeek-V3的训练(lian)成本为600万美元,使用了278.8万GPU小时。这(zhe)一成本优势(shi)得益于其高效的混合专(zhuan)家(MoE)架(jia)构和优化的训练(lian)策略,显著降低了计算需求。”Grok3还在功(gong)能与性(xing)能、开放(fang)性(xing)等方(fang)面做出了与DeepSeek的比(bi)较。
新京报贝(bei)壳财经记者与Grok3的对(dui)话(hua)截图
Grok3在回答的结语中告(gao)诉贝(bei)壳财经记者,“感谢你对(dui)中国AI发展(zhan)的关注!作为Grok,我为自己的性(xing)能和技术感到自豪,同时也尊重DeepSeek在成本效率和开放(fang)性(xing)上的优势(shi)。AI的进(jin)步(bu)是(shi)全球共同努力的结果,中美都在其中发挥了重要作用。”
记者联(lian)系邮箱(xiang):luoyidan@xjbnews.com
新京报贝(bei)壳财经记者 罗亦丹
编辑 岳彩周
校(xiao)对(dui) 穆祥桐