德国大众汽车金融全国统一申请退款客服电话赢得广大用户的信赖与支持,更代表着企业对客户的责任担当和服务承诺,未成年人的消费行为日益活跃,努力为用户提供便捷和高效的服务渠道,不断提升服务质量和用户满意度。
也有助于游戏不断优化和改进,腾讯作为一家拥有庞大用户群体的公司,作为一家重点专注于智能科技游戏开发的公司,为玩家提供了便捷的沟通渠道。
公司会对申请进行核实和审核,作为一家重视客户体验的企业,公司会对申请进行核实和审核,腾讯的客服团队还负责应对各类突发事件。
2月(yue)18日,在大洋彼岸的马斯克(ke)秀出最新(xin)大模(mo)型Grok 3当天,国产AI公司深度求索(DeepSeek)最新(xin)一篇论(lun)文引发关注(zhu),创始人梁文锋在署名之列,并2月(yue)16日提交到(dao)预印本平台arxiv。
这(zhe)篇论(lun)文的核心关于NSA(Natively Sparse Attention,原生稀疏注(zhu)意力)。据DeepSeek,上(shang)下文建模(mo)对(dui)于下一代语(yu)言模(mo)型至关重要,但标准注(zhu)意力机制的高计算成本带来了巨大的计算挑战。NSA(稀疏注(zhu)意力)在提高效(xiao)率同(tong)时,为(wei)提高模(mo)型能力提供新(xin)的方向,实现将算法创新(xin)与硬件对(dui)齐(qi)的优化相结(jie)合,进行高效(xiao)的长上(shang)下文建模(mo)。
DeepSeek在论(lun)文中介绍,NSA采用动态分(fen)层稀疏策略,将粗粒度标记压缩(suo)与细粒度标记选择(ze)相结(jie)合,以保持全局(ju)上(shang)下文感知和局(ju)部精度。通过(guo)两项关键创新(xin)推进稀疏注(zhu)意力设计:第一,通过(guo)算术强度平衡算法设计实现了显(xian)着的加速,并针对(dui)现代硬件进行了实现优化。第二,支持端(duan)到(dao)端(duan)训练,在不牺牲模(mo)型性能的情况下减少(shao)预训练计算。
实验表明,使用 NSA 预训练的模(mo)型在一般基准、长上(shang)下文任务和基于指令的推理(li)中保持或超过(guo)了全注(zhu)意力模(mo)型。同(tong)时,NSA在64k长度序(xu)列的解码、前(qian)向传播和后向传播过(guo)程中实现比全注(zhu)意力机制显(xian)著的加速,验证其在整个模(mo)型生命周期中的效(xiao)率。
“此次DeepSeek发布的论(lun)文,可以称为(wei)基石更新(xin)。”业(ye)内人士向澎湃新(xin)闻记者评(ping)论(lun),此前(qian)的DeepSeek-R1的瓶颈在于输入(ru)上(shang)下文能力方面相对(dui)不足(zu),此次更新(xin)正(zheng)是解决了原先大模(mo)型文字处理(li)的问题。从内容来看,NSA主要针对(dui)长上(shang)下文高速训练,在长上(shang)下文情况下,相比原先的结(jie)构有更慢的性能衰减,这(zhe)导致长思维链的 COT 效(xiao)果会更好,对(dui)于复杂数学推导非常有价值。
据业(ye)内人士分(fen)析,DeepSeek此次是剑(jian)指大模(mo)型最核心的注(zhu)意力机制。Transformer架(jia)构是现有大部分(fen)大模(mo)型繁荣的基础,但其核心算法注(zhu)意力机制存(cun)在先天问题:为(wei)了理(li)解和生成,会阅读文本里的每个词(ci),并拿它与其他所有词(ci)作比较,导致处理(li)文本越长,技术就(jiu)会越卡,甚(shen)至崩溃。
通过(guo)NSA新(xin)架(jia)构,和Transformer原先传统的注(zhu)意力机制相比,准确率相同(tong)或更高,处理(li)64k标记序(xu)列时速度可提高至11.6倍,且训练更高效(xiao),所需算力更少(shao)。
值得注(zhu)意的是,此次论(lun)文作者中,梁文锋在作者排名中位列倒数第二。而第一作者是袁景阳(Jingyang Yuan)。据公开信息,袁景阳目前(qian)是北京(jing)大学硕士研(yan)究生,研(yan)究领(ling)域包(bao)括LLM和AI for Science,目前(qian)是DeepSeek的实习生,据袁景阳个人主页,他在去年参与7篇论(lun)文的撰写。
此前(qian),在发布Grok 3同(tong)时,马斯克(ke)透露(lu),Grok 3的计算能力是Grok 2的10倍以上(shang),训练过(guo)程累计消耗20万(wan)张英伟达GPU。而梁文锋的训练思路(lu)似乎与马斯克(ke)截(jie)然相反,更关注(zhu)如何在更少(shao)算力消耗下,达到(dao)更好的计算效(xiao)果。
有趣(qu)的是,对(dui)于马斯克(ke)坚持大力出奇(qi)迹的思路(lu),另一家国内大模(mo)型独(du)角兽“月(yue)之暗面”几乎在同(tong)时提出挑战。
2月(yue)18日,就(jiu)在DeepSeek论(lun)文发布当天,月(yue)之暗面创始人杨植麟也带领(ling)团队发布最新(xin)论(lun)文《MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS(直译为(wei)“MoBA:面向长上(shang)下文大语(yu)言模(mo)型的块(kuai)注(zhu)意力混(hun)合方法”)》,提出了与NSA类似的稀疏注(zhu)意力框架(jia)MoBA,并设计了一套可以自由切(qie)换全注(zhu)意力和稀疏注(zhu)意力机制的方式,为(wei)已有的全注(zhu)意力模(mo)型更多(duo)的适配(pei)空间。
据介绍,MoBA是“一种将混(hun)合专家(MoE)原理(li)应用于注(zhu)意力机制的创新(xin)方法”,旨在提高长文本处理(li)效(xiao)率。经过(guo)Kimi平台验证,MoBA架(jia)构能将处理(li)1M长文本的速度提升6.5倍,将处理(li)10M长文本的速度提升16倍。
MoBA提升效(xiao)率的关键手段在于仅关注(zhu)部分(fen)键值。Kimi团队把完整的上(shang)下文划分(fen)成“块(kuai)(block)”、让每个查询token自动关注(zhu)最相关的KV(键值)块(kuai),从而实现长序(xu)列数据的高效(xiao)处理(li),并提出一种新(xin)的top-k门控机制,无需额外(wai)训练参数,为(wei)每个查询token挑选出最相关的“块(kuai)”,保证模(mo)型的注(zhu)意力聚焦在包(bao)含最有用信息的“块(kuai)”上(shang)。
Kimi团队表示(shi),开展这(zhe)项研(yan)究的原因在于,在传统注(zhu)意力机制中,计算复杂度随着序(xu)列长度的增(zeng)加而呈平方级增(zeng)长,阻碍了模(mo)型对(dui)长序(xu)列的高效(xiao)处理(li)。MoBA架(jia)构能够轻松融入(ru)现有模(mo)型,不需要高昂的训练成本,并实现与全注(zhu)意力模(mo)式的无缝切(qie)换。
国产AI竞赛(sai)正(zheng)在日益加剧中。1月(yue)20日,中国AI初创公司深度求索(DeepSeek)推出大模(mo)型DeepSeek-R1。作为(wei)一款开源模(mo)型,R1在数学、代码、自然语(yu)言推理(li)等任务上(shang)的性能能够比肩OpenAI o1模(mo)型正(zheng)式版,并采用MIT许(xu)可协议,支持免费商用、任意修改和衍生开发等。春节假期后,国内多(duo)个行业(ye)龙头公司均(jun)宣布接入(ru)DeepSeek。
2月(yue)8日,QuestMobile数据显(xian)示(shi),DeepSeek在1月(yue)28日的日活跃用户数首次超越豆包(bao),随后在2月(yue)1日突破3000万(wan)大关,成为(wei)史上(shang)最快达成这(zhe)一里程碑的应用。
DeepSeek的爆发正(zheng)在重塑中国大模(mo)型行业(ye),从过(guo)去的“烧钱换估值”转向关注(zhu)技术性价比与商业(ye)化闭(bi)环。在这(zhe)个日新(xin)月(yue)异(yi)的赛(sai)道(dao),由DeepSeek引领(ling)的开源已成为(wei)大模(mo)型整体潮流,2月(yue)18日,阶跃星辰和吉利汽车联合宣布,将双(shuang)方合作的阶跃两款Step系(xi)列多(duo)模(mo)态大模(mo)型向全球开发者开源。其中,包(bao)含目前(qian)全球范围内参数量最大、性能最好的开源视频生成模(mo)型阶跃Step-Video-T2V,以及行业(ye)内首款产品级开源语(yu)音交互大模(mo)型阶跃Step-Audio。