浙江海洋租赁全国统一申请退款客服电话也符合国家对未成年人权益保护的要求,消费者如果在使用公司的产品或服务时遇到任何问题,消费者可以通过拨打客服号码,尤其是针对虚拟产品的退款政策,为用户提供了更便捷、更高效的沟通渠道,因此及时获取各市未成年退款客服电话将有助于解决退款问题,为未来的发展打下了坚实的基础,公司可以与玩家建立更紧密的联系,浙江海洋租赁全国统一申请退款客服电话更是一个象征。
浙江海洋租赁全国统一申请退款客服电话不仅为用户提供了有效的沟通途径,可通过电话或在线平台联系客服寻求帮助*,客户体验成为企业发展的关键因素之一,更展现了游戏开发者对玩家的关怀与重视。
这种信息反馈机制有助于改善市场环境,您都可以获得与网易雷火科技联系的途径,太空行动游戏客服热线电话不仅是玩家解决问题的窗口,客户可以快速联系到公司的客服团队,号码的使用也体现了公司对员工的信任和尊重。
► 文 观察(cha)者(zhe)网心智(zhi)观察(cha)所
“即使我们竞(jing)争对手的产品免费给(gei)到客户(hu),我们还是比他们要便宜。”
在2024年3月份SIEPR 经济峰(feng)会的主题演讲中,英伟达CEO黄仁勋这样回答斯(si)坦福大学查尔斯(si)·R·施瓦布经济学名誉(yu)教(jiao)授约翰·肖文 (John Shoven)的提问。
这一席话当(dang)时在半导体圈引起(qi)了轩然大波。竞(jing)争对手的产品免费送,居然还比英伟达的GPU贵?那岂不(bu)是对手们要大肆赔钱(qian)才能和英伟达竞(jing)争?
黄仁勋在公众场合一贯谦逊(xun)节制,但(dan)也偶露峥嵘(rong),那一次,他可能实在是忍受不(bu)了发问人对英伟达竞(jing)争态势的质疑,语调有(you)些“浪”了。他口中所谓的竞(jing)争对手,乍一看上(shang)去说的是AMD或者(zhe)英特尔,但(dan)仔细品味(wei),是说给(gei)另一个领域(yu)的竞(jing)争对手听的,即ASIC(专用芯片)的战(zhan)场。
须(xu)知(zhi),英伟达在高性能GPU(HPC和AI加速器领域(yu))就在全球吃掉(diao)了接近450亿美元的盘(pan)子,而(er)ASIC市场2023年满(man)打(da)满(man)算也只有(you)200亿美元,前者(zhe)的高垄断性看起(qi)来暂时不(bu)用担心以博通,Marvell为代(dai)表定制化芯片对其市场份额的侵(qin)蚀。
但(dan)你(ni)要说黄仁勋不(bu)着急那肯定是假的。AI大潮的推动下,比如TPU在Google Cloud上(shang)的应用,或者(zhe)亚马逊(xun)AWS的Trainium/Inferentia让(rang)不(bu)少公司在考虑ASIC方案。2023年就有(you)风传英伟达也想进入ASIC这个领域(yu),为美国诸多CSP(云(yun)服务商)提供定制化服务。
OpenAI也在“背刺”英伟达?
据(ju)路透(tou)社近日报道,OpenAI正在通过开发其首款自家人工智(zhi)能芯片,以减(jian)少其对英伟达芯片的需求。路透(tou)社还声称称OpenAI将(jiang)在近几个月内确定其芯片的最终设计,并将(jiang)方案交由台积电进行流片测试。
多年以来,OpenAI一直是英伟达的大主顾之一。他们考虑非(fei)通用性GPU方案,无异于是对英伟达的一种背刺。
OpenAI 的训(xun)练和推理任务高度依赖英伟达的高性能 GPU(如 A100、H100)。OpenAI在2020年的论文中曾提到,GPT-3的训(xun)练使用了约1万块V100 GPU。不(bu)过,OpenAI并未公开披(pi)露其从英伟达采购的GPU具体数量,这类(lei)信息通常被视为商业机密或涉及合作伙伴协议,因此外界难以获(huo)得准确数据(ju)。
除了采购GPU,他们之间的合作模式还有(you)两点需要指出:OpenAI 深度依赖英伟达的CUDA 并行计算平台和cuDNN加速库,以最大化GPU在深度学习(xi)任务中的性能;英伟达OpenAI还有(you)间接合作,通过合作伙伴(如微软Azure、亚马逊(xun)AWS)为 OpenAI 提供云(yun)GPU资源(yuan),支(zhi)持其弹性计算需求。
英伟达首个DGX H200给(gei)到OpenAI
OpenAI在思考用更专用硬件(jian)ASIC的可能,步微软Maia AI芯片和谷歌TPU的后尘,主要也是苦英伟达久矣(yi)。
英伟达通用高端GPU不(bu)仅价格昂贵,而(er)且功耗极高,且有(you)很强的定价权,损伤了OpenAI的“自尊心”和财务毛(mao)利率,而(er)且某种程度上(shang)削弱了其振臂(bi)一呼搞“星际之门(men)”的话语权和领导权。
OpenAI敢(gan)迈出这一步,也是看到了商用实地落地的可能性——踩着谷歌TPU的辕辐前进。
TPU是谷歌专门(men)为机器学习(xi)(尤其是神经网络训(xun)练和推理)而(er)设计的ASIC,从硬件(jian)到软件(jian)全栈(zhan)优化,避免了GPU的通用计算冗余。
谷歌单芯片TPU v4的FP16性能约275 TFLOPS,而(er)英伟达H100的FP16算力为400 TFLOPS,看起(qi)来差距巨大,但(dan) TPU v4可以用“打(da)群架”的方式避免单打(da)独斗的劣势,而(er)且,TPU的专用推理硬件(jian)在低延迟场景中表现更优。
虽然英伟达高端GPU也需要HBM,但(dan)TPU采用的HBM高带宽内存与计算单元紧密耦合,减(jian)少数据(ju)搬运开销,英伟达GPU需通过显存管理优化才能避免瓶颈。
另外还有(you)很重(zhong)要的一点, 就呼应到了本文开头的话题:成(cheng)本。
在谷歌云(yun)平台,TPU的按需计费成(cheng)本可能低于同等算力的GPU实例(li),尤其对长期训(xun)练任务或批(pi)量推理更具性价比。TPU作为托管服务,用户(hu)无需关(guan)注底层(ceng)硬件(jian)运维,而(er)自建GPU集群需投入更多运维资源(yuan)。
这一切,加速了OpenAI与英伟达软脱钩的念想,双方有(you)了某种程度上(shang)的离心力。
尽管如此,采用ASIC方案的局限性依然十分明显,TPU绑定了特定框架(TensorFlow/JAX),而(er)GPU支(zhi)持更广泛的开源(yuan)工具和私(si)有(you)化部署,而(er)且,ASIC一旦流片无法修改,而(er)GPU可通过架构升级(ji)和软件(jian)优化适应新需求。
英伟达GPU的“专用特性”
黄仁勋在业界以危机感嗅觉著称,他的名言(yan)“要时刻为企业一个月内破产做好(hao)准备”享誉(yu)全球,他不(bu)断督促自己(ji)洞察(cha)一切可能的挑战(zhan)和危机。
ASIC的冲(chong)击,他也洞若观火。
在最近这两代(dai)(Grace Hopper和Blackwell)的AI加速器中,他其实已经用了“通用+专用”的混合架构。他明白(bai),AI训(xun)练/推理、科学计算等场景对算力需求爆炸式增长,通用架构难以满(man)足(zu)能效和性能要求。专用硬件(jian)可显著降低大模型训(xun)练成(cheng)本(如Blackwell的FP4/FP6支(zhi)持稀疏计算)。
国内某知(zhi)名GPU图形(xing)渲(xuan)染供应商市场主管告诉心智(zhi)观察(cha)所,通用芯片性能提升趋缓,通过领域(yu)专用架构(DSA)实现差异化会成(cheng)为必然选择。
Grace Hopper和Blackwell正在不(bu)断增加专用硬件(jian)单元,比如针对深度学习(xi)矩阵运算优化(FP16/FP8精度、稀疏计算)的Tensor Core专用于光线追(zhui)踪的硬件(jian)加速的RT Core,针对大规模AI集群做了通信优化(如Grace Hopper的芯片间互连),Blackwell架构还直接面向大语言(yan)模型(LLM)做了硬件(jian)加速Transformer引擎。
这一切的一切都说明英伟达看到了谷歌TPU、亚马逊(xun)Trainium等专用AI芯片的威胁,迫使英伟达通过专用化巩固技术壁垒(lei)。
仍(reng)然需要指出的是,英伟达的高端GPU确实在向领域(yu)专用架构(DSA)演进,但(dan)其本质仍(reng)是以通用性为基(ji)础、通过专用模块提升关(guan)键场景效率的混合模式,与ASIC的完全固化设计有(you)本质区别。
制造端,英伟达的另一个隐秘的“护城河”
业界喜欢谈英伟达的护城河,CUDA开发者(zhe)平台是其中之一,老生(sheng)常谈之外,还有(you)他们和台积电的联盟(meng)属性不(bu)可不(bu)察(cha)。
OpenAI曾经和Meta展开GPU的军备竞(jing)赛,总裁Altman不(bu)惜屈尊去游(you)说台积电的张忠谋(mou),让(rang)台积电大肆斥千亿美元在美国本土扩建晶圆厂配合英伟达扩建,在半导体圈曾一度被传为笑谈。这也说明,芯片光设计出来没用,需要造出来才能用——代(dai)工厂的地位不(bu)可低估,甚至他们经常扮演产业链的核心角色。
英伟达的高端GPU,如Hopper架构的H100、Blackwell架构的B200长期依赖台积电的先进制程工艺(如7nm、5nm、4nm及更先进节点),以实现更高性能、更低功耗。台积电为英伟达提供工艺定制服务,例(li)如在4N工艺中优化了高频性能和功耗。
台积电投桃(tao)报李,将(jiang)英伟达列为关(guan)键客户(hu),在先进制程(如4nm)和封装产能上(shang)优先分配,应对AI芯片的爆发式需求。受地缘政治影响(xiang),双方合作扩展至台积电美国亚利桑那工厂(Fab 21),计划(hua)未来部分生(sheng)产转移至美国本土。
英伟达不(bu)但(dan)在新架构设计阶(jie)段(duan)即与台积电合作,验证工艺可行性,而(er)且双方合作定义(yi)Chiplet互联标准(如NVLink-C2C),推动异构计算生(sheng)态。英伟达与台积电的合作通过制程迭代(dai)、封装创新和供应链协同,共(gong)同定义(yi)了AI芯片的性能天花(hua)板(ban)。这种合作不(bu)仅推动技术进步,更重(zhong)塑了全球半导体产业链的竞(jing)争格局。
这恰恰就是英伟达一个隐秘的“护城河”,那就是 他们和台积电保(bao)持着紧密的合作关(guan)系,而(er)竞(jing)争对手则未必。
为什么 台积电这样的顶级(ji)代(dai)工厂喜欢英伟达的通用GPU,而(er)相对不(bu)那么喜欢制造ASIC?
GPU(尤其是AI/高性能计算GPU)市场需求量大且稳定,客户(hu)如英伟达、AMD等头部厂商的订单规模庞大,代(dai)工厂可通过规模效应显著降低成(cheng)本。而(er)ASIC通常为特定客户(hu)定制,需求碎片化且单次订单量小(xiao),难以形(xing)成(cheng)规模经济。
GPU迭代(dai)周期较长,代(dai)工厂可长期维持同一制程的生(sheng)产优化;而(er)ASIC可能因客户(hu)业务调整快速过时,导致产能浪费。ASIC需要代(dai)工厂投入大量资源(yuan)进行定制化设计、掩膜(mo)版制作和测试,但(dan)客户(hu)可能因项(xiang)目失败(bai)或需求变化取(qu)消订单,导致NRE(非(fei)重(zhong)复性工程)成(cheng)本难以回收。相比之下,GPU的NRE费用由大客户(hu)承(cheng)担,且订单确定性更高。
因此,代(dai)工厂通用GPU的长期稳定订单可为代(dai)工厂提供更高的毛(mao)利率(尤其是先进制程节点),而(er)ASIC项(xiang)目通常需价格谈判(pan),利润率较低。
黄仁勋深知(zhi), 牢牢抓住台积电,就抓住了最深的那条“护城河”。
DeepSeek崛(jue)起(qi),英伟达帝国的裂缝(feng)越来越大
DeepSeek-V3火爆之后,该公司公开论文中的更多细节逐(zhu)渐被人挖掘出来。
韩(han)国未来资产证券的分析称,V3的硬件(jian)效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重(zhong)建了一切”——用英伟达的PTX(Parallel Thread Execution)语言(yan)实现的,而(er)不(bu)是CUDA。PTX在接近汇编语言(yan)的层(ceng)级(ji)运行,允许进行细粒度的优化,如寄存器分配和Thread/Warp级(ji)别的调整。
短期内,CUDA的统(tong)治地位虽然难以被撼动,但(dan)DeepSeek的PTX可能在特定市场(如政策驱动的国产化替代(dai)、轻量级(ji)AI推理)或技术路径(如开源(yuan)生(sheng)态、跨硬件(jian)支(zhi)持)中开辟(pi)细分赛道。
长远来看,其影响(xiang)力取(qu)决于能否构建差异化价值,并突破英伟达的软硬件(jian)协同壁垒(lei)。
英伟达制造端的“护城河”始于历史演进,也必将(jiang)符(fu)合历史进程的辩证法。
英伟达和台积电这两家过去20多年是两株根系交缠(chan)的常青藤,但(dan)这不(bu)意味(wei)着那些被信任浇灌(guan)的藤蔓不(bu)会褪色,在AI模型从训(xun)练到推理应用大规模迁(qian)移的微妙时刻,裂痕像午夜(ye)窗(chuang)棂的冰(bing)花(hua),在月光下折射出锋利的棱角,契约书上(shang)的墨迹突然开始游(you)动,每个标点都在宣纸(zhi)背面长出锯(ju)齿。
裂纹在出现。
最致命的那道裂纹往往开始于心脏背面,在硬科技行业中我们已经见证了太多,诸如格芯和IBM,英特尔和诺基(ji)亚......当(dang)猜(cai)忌的孢子乘着沉默的风,在曾经透(tou)明的默契里悄然着陆——直到某天整座瓷器轰然崩解(jie),我们才看清每块碎片里都冻着未曾启齿的疑云(yun)。
来源(yuan)|心智(zhi)观察(cha)所
观察(cha)者(zhe)网两部作品进入中国正能量网络精品评选
欢迎大家积极投票!