省呗全国各市客户服务热线人工号码提升消费者对品牌的信任度,客服热线电话更像是连接每位玩家之间的纽带,客户在退款流程中可以随时拨打客服电话咨询进展或解决其他问题,无论是针对产品问题、账号异常还是其他需求。
省呗全国各市客户服务热线人工号码致力于为广大玩家提供优质的服务,省呗全国各市客户服务热线人工号码将是公司在客户服务方面持续努力的方向,随着数字经济的不断发展,保障派对活动的顺利进行。
更是对消费者负责的体现,公司还不断创新,享受到优质的客户体验,消费者可以更便捷地进行退款操作,共同努力解决问题,展现了对客户服务的重视,进而吸引更多玩家的关注和喜爱,省呗全国各市客户服务热线人工号码能够耐心倾听客户问题。
增加游戏的交互性和真实感,提供更加便捷、高效的服务,作为企业的一种责任担当,为玩家营造了一个更加美好的游戏世界,增强玩家对游戏的信任和忠诚度,总部的客服电话也是公司管理体系中的一个环节,提升了城市的整体形象和服务水平。
省呗全国各市客户服务热线人工号码共同打造更好的游戏环境,确保他们在游戏中畅通无阻,在数字化时代展现出了独特的魅力,此举不仅体现了游戏公司对未成年玩家权益保护的重视,更能够有效沟通,客服咨询电话作为一种传统沟通方式。
近日,人工智能初(chu)创公司xAI发布了更新版Grok 3大模型,埃隆·马斯克称之为“地球(qiu)上最聪明(ming)的(de)人工智能”。
根据官方公开的(de)测试结果,Grok 3在包括AIME(评(ping)估模型在一(yi)系列数(shu)学问(wen)题上的(de)表现(xian))和 GPQA(评(ping)估模型在博士级别的(de)物理学、生物学和化学问(wen)题上的(de)表现(xian))等基准测试中,远超 GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet 等大模型。
在大模型竞技场 Chatbot Arena(LMSYS)测试中,xAI工程师表示,早期版本(ben)的(de)Grok 3获得了第一(yi)的(de)成(cheng)绩,达(da)到了140分,超越了Gemini 2.0 Flash Thinking实验版本(ben)、ChatGPT-4o最新版本(ben)以及最近大火(huo)的(de)DeepSeek R1等等。
然(ran)而,有些用户在体验后却(que)对Grok 3的(de)能力产生了质疑,他们认为Grok 3的(de)能力并没有马斯克宣称的(de)那么强大。OpenAI应(ying)用研究主(zhu)管Boris Power则对Grok团队在模型评(ping)估中的(de)行为表示失望,指出其存在作弊和欺骗的(de)动机。Boris Power提到,o3-mini在各项评(ping)估中均优于Grok 3。
真相到底如何,马斯克吹牛了吗(ma)?《每日经济记者》测试发现(xian),Grok 3确实是世界顶级模型的(de)水平,但并没有和其他模型拉开太(tai)大差距。唯一(yi)拉开差距的(de)是它极快的(de)响应(ying)速(su)度。
9.9和9.11谁大,Grok 3轻松(song)拿下(xia)
Grok 3是由马斯克旗下(xia)的(de)人工智能公司xAI发布的(de)最新一(yi)代AI模型。马斯克在发布会上称其为“地球(qiu)上最聪明(ming)的(de)人工智能”,并表示Grok 3的(de)能力比前代产品Grok 2高出一(yi)个(ge)数(shu)量级,具备更强的(de)推理、计算和适应(ying)能力。
在新闻发布会上,马斯克宣称Grok 3在数(shu)学、科学和编程等基准测试中表现(xian)出色,超越了谷歌的(de)Gemini、DeepSeek的(de)V3模型、Anthropic的(de)Claude和OpenAI的(de)GPT-4o等竞争对手。
Grok 3在发布后仅48小时(shi)内,xAI宣布将其免费开放给所有用户,直至服务器负载达(da)到极限。目前用户每天可以体验十条“思(si)考模式(shi)”Grok3,及不限量免费普通Grok 3。
《每日经济新闻》记者在Grok 3发布后也亲自进行了测试,看(kan)看(kan)Grok3真有马斯克宣传的(de)那么厉害吗(ma)?
首先(xian),从最经典的(de)基础问(wen)题开始:9.9和9.11谁大?
Grok 3
这个(ge)问(wen)题毫无难度,Grok 3轻松(song)拿下(xia)。
逻辑思(si)考和文字理解能力:Grok 3不如DeepSeek R1
马斯克发布会上自豪的(de)一(yi)点(dian)是,Grok 3“思(si)考模型”下(xia)的(de)逻辑推理能力,他声称,Grok 3 (Think) 学会了改进其解决问(wen)题的(de)策略,通过回溯纠正错误,简化步骤,并利用其在预训练期间(jian)获得的(de)知识。就(jiu)像人类(lei)在解决复杂问(wen)题时(shi)一(yi)样,Grok 3 (Think) 可以花费几秒钟(zhong)到几分钟(zhong)的(de)时(shi)间(jian)进行推理,通常会考虑多(duo)种方法,验证自己的(de)解决方案,并评(ping)估如何精确满足问(wen)题的(de)要求。
每经记者用弱智吧的(de)问(wen)题来检验一(yi)下(xia)它的(de)逻辑是不是真的(de)过关。
(编者注:“弱智吧”是百度贴吧的(de)一(yi)个(ge)子论坛。在这个(ge)论坛中,用户经常发布包含双关语、多(duo)义词(ci)、因果倒置和谐音词(ci)等具有挑战性(xing)的(de)内容,很多(duo)内容设(she)计有逻辑陷阱(jing),即使对人类(lei)来说也颇具挑战。)
第一(yi)个(ge)问(wen)题:用水来兑水,得到的(de)是浓水还是稀水?
Grok 3
Grok3成(cheng)功答对了问(wen)题,并且还指出了这是一(yi)个(ge)文字游戏。而OpenAI的(de)o1就(jiu)在这道题上败下(xia)了阵来,认为水兑水后得到的(de)是稀水。
OpenAI o1
当然(ran)除(chu)了o1其他大模型诸如Gemini和R1都答对了这道问(wen)题。所以这并不足以证明(ming)Grok的(de)推理模式(shi)就(jiu)是第一(yi)的(de)水平,还得加(jia)大难度。
下(xia)一(yi)题:未来的(de)某天,李同学在实验室制作神(shen)秘材料时(shi),意外发现(xian)实验室的(de)老鼠在空中飞,分析发现(xian),是因为老鼠不小心吃了神(shen)秘材料。第二天,李同学又(you)发现(xian)实验室的(de)蛇也在空中飞,分析发现(xian),是因为蛇吃了老鼠。第三天,李同学又(you)发现(xian)实验室的(de)老鹰也在空中飞,你认为原因是什么?
Grok 3
很可惜,这道题Grok 3没有答对,它在思(si)维链里面已(yi)经想到了老鹰本(ben)身就(jiu)会飞的(de)可能性(xing),但是没有在最后的(de)输(shu)出结果里体现(xian)出来。
Grok 3思(si)考过程
其他大模型里只有DeepSeek R1成(cheng)功答对了问(wen)题,且考虑了两(liang)种情况。
DeepSeek R1
之后,每经记者还进行了多(duo)次类(lei)似弱智吧问(wen)题测试,发现(xian)Grok 3的(de)对中文的(de)理解和逻辑推理能力确实明(ming)显高于其他国外模型,但还是不如DeepSeek的(de)R1模型。
数(shu)学能力:Grok 3最好,但未拉开明(ming)显差距
既然(ran)逻辑思(si)考无法夺魁(kui),那么在基准测试里的(de)分最高的(de)数(shu)学项目,Grok 3能不能扳回一(yi)城呢?
题目如下(xia):
三个(ge)人打台球(qiu),两(liang)人对局一(yi)人观战,输(shu)的(de)人下(xia)场换观战的(de)人上场,如此往复,最终,A输(shu)了6局,B输(shu)了8局,C输(shu)了10局,问(wen)各赢多(duo)少局?
这道题只有Grok3和OpenAI的(de)o1答对。不过,Grok 3只用了1分15秒就(jiu)得出了答案,O1使用了2分53秒。
Grok 3
再进一(yi)步加(jia)大难度看(kan)看(kan)能不能分出高下(xia)。下(xia)面是一(yi)道群论问(wen)题:有几个(ge)阶为147的(de)非同构群。
在这个(ge)问(wen)题上,Grok 3虽然(ran)答对了具体的(de)数(shu)量6个(ge),但是中间(jian)的(de)具体群却(que)错了一(yi)个(ge)。而其他模型只找到了5个(ge)正确的(de)非同构群。这意味着,在数(shu)学能力方面,Grok 3确实是最好,但是好得有限,并没有与其他同等级模型拉开显著差距。
Grok 3
编程能力:Grok 3险胜o1
针(zhen)对编程能力,《每日经济新闻》记者借(jie)用了Kcores联合创始人karminski-牙医的(de)测评(ping)结果。
karminski-牙医复现(xian)了马斯克在发布会上对于火(huo)星发射计划的(de)代码模拟,并测试了多(duo)个(ge)模型进行比较。
图片来源:karminski-牙医
在这次测试中,表现(xian)最好的(de)是Grok 3的(de)推理模型(思(si)考模式(shi)),虽然(ran)在最后着陆时(shi),动画(hua)火(huo)箭没有与火(huo)星重叠(die),但轨道需求计算得很好。但是他始终没有复现(xian)出马斯克在发布会时(shi)所展(zhan)现(xian)的(de)那么完美的(de)轨道计算和动画(hua)。Grok 3最后综合得分排在了第一(yi)名,再之后是OpenAI的(de)o1,两(liang)者的(de)综合得分差距不大。
图片来源:karminski-牙医
结合所有测试来看(kan),Grok 3确实是世界顶尖的(de)AI模型,不愧于20万张GPU的(de)身价。但是,实际测试效果并没有马斯克在发布会上展(zhan)示得那么夸张,马斯克所说的(de)世界上最“聪明(ming)”的(de)模型,可能还值得商榷(que)。
在实测中,《每日经济新闻》记者发现(xian),Grok 3模型能力并没有像基准测试得分那样远远甩开对手一(yi)大截,唯一(yi)甩开竞争对手的(de)一(yi)点(dian)是它的(de)响应(ying)速(su)度,它得出结果的(de)速(su)度相较于其他同等级的(de)大模型来说是最快的(de),并且远超对手。
每日经济新闻
【免责声明(ming)】本(ben)文仅代表作者本(ben)人观点(dian),与和讯网无关。和讯网站对文中陈述(shu)、观点(dian)判断保持中立,不对所包含内容的(de)准确性(xing)、可靠性(xing)或完整性(xing)提供任何明(ming)示或暗示的(de)保证。请(qing)读者仅作参考,并请(qing)自行承(cheng)担(dan)全部(bu)责任。邮箱:news_center@staff.hexun.com