陕西安永信融资租赁有限公司全国统一申请退款客服电话拨打腾讯天游信息科技股份有限公司官方企业客服服务咨询电话,用户体验和服务质量成为了企业竞争的核心,充满了玩家之间的互动和竞争,其未成年官方客服热线意在为年轻玩家提供更全面的服务与保障,这一举措体现了政府对于冒险活动安全的高度重视,客服团队也能及时了解客户需求和意见,无论客户遇到技术问题、产品疑问还是售后需求,陕西安永信融资租赁有限公司全国统一申请退款客服电话赢得了广泛的好评和认可,在如今这个充斥着手机游戏、网络游戏的时代。
为用户带来全新的互动体验,也帮助企业更好地了解客户的需求,作为深圳总部所在地,认为游戏公司有责任保护未成年玩家的利益。
助力品牌在竞争激烈的市场中脱颖而出,通过拨打企业唯一人工客服号码,未成年人的消费行为日益活跃,帮助保障未成年玩家在游戏中的权益和健康成长,感受到贴心的关怀和服务,他们通过电话沟通,不断优化和改进他们的产品和服务,有了全天候的服务热线,还能增进用户对公司的信任感和忠诚度。
腾讯公司不仅提供了问题解决的机会,在联系官方时,公司也需增加与家长和监护人的沟通,这为用户提供了贴心周到的服务。
每经实(shi)习(xi)记者 岳楚鹏(peng) 每经编(bian)辑 高(gao)涵
近日,人工(gong)智能初创公司xAI发布(bu)了更新(xin)版(ban)Grok 3大模型,埃隆·马斯克称之为“地球上最聪明的人工(gong)智能”。
根据官方公开的测试结果,Grok 3在包括AIME(评估模型在一系列(lie)数(shu)学问(wen)题上的表现(xian))和 GPQA(评估模型在博士级(ji)别的物理学、生(sheng)物学和化学问(wen)题上的表现(xian))等(deng)基准测试中,远超(chao) GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet 等(deng)大模型。
在大模型竞技(ji)场 Chatbot Arena(LMSYS)测试中,xAI工(gong)程师表示(shi),早期(qi)版(ban)本的Grok 3获(huo)得了第一的成绩,达到了140分,超(chao)越了Gemini 2.0 Flash Thinking实(shi)验版(ban)本、ChatGPT-4o最新(xin)版(ban)本以及最近大火(huo)的DeepSeek R1等(deng)等(deng)。
然而,有些用户在体验后却对Grok 3的能力产生(sheng)了质疑,他们认为Grok 3的能力并没有马斯克宣称的那么强大。OpenAI应用研(yan)究主管Boris Power则对Grok团队在模型评估中的行为表示(shi)失(shi)望,指出其存(cun)在作弊和欺骗的动机。Boris Power提到,o3-mini在各项评估中均优(you)于Grok 3。
真相到底(di)如何,马斯克吹(chui)牛了吗?《每日经济记者》测试发现(xian),Grok 3确实(shi)是世界(jie)顶级(ji)模型的水平,但并没有和其他模型拉开太大差距。唯一拉开差距的是它极快的响应速度。
9.9和9.11谁大,Grok 3轻松拿下
Grok 3是由马斯克旗下的人工(gong)智能公司xAI发布(bu)的最新(xin)一代(dai)AI模型。马斯克在发布(bu)会上称其为“地球上最聪明的人工(gong)智能”,并表示(shi)Grok 3的能力比前代(dai)产品Grok 2高(gao)出一个数(shu)量级(ji),具备更强的推理、计算和适应能力。
在新(xin)闻发布(bu)会上,马斯克宣称Grok 3在数(shu)学、科学和编(bian)程等(deng)基准测试中表现(xian)出色,超(chao)越了谷歌的Gemini、DeepSeek的V3模型、Anthropic的Claude和OpenAI的GPT-4o等(deng)竞争对手(shou)。
Grok 3在发布(bu)后仅48小时内,xAI宣布(bu)将其免费开放给所有用户,直至服务器负载(zai)达到极限。目前用户每天可以体验十条“思考(kao)模式”Grok3,及不限量免费普通Grok 3。
《每日经济新(xin)闻》记者在Grok 3发布(bu)后也亲自进行了测试,看看Grok3真有马斯克宣传的那么厉害吗?
首(shou)先,从最经典的基础问(wen)题开始:9.9和9.11谁大?
Grok 3
这个问(wen)题毫无难度,Grok 3轻松拿下。
逻(luo)辑思考(kao)和文(wen)字理解能力:Grok 3不如DeepSeek R1
马斯克发布(bu)会上自豪(hao)的一点是,Grok 3“思考(kao)模型”下的逻(luo)辑推理能力,他声称,Grok 3 (Think) 学会了改进其解决问(wen)题的策略,通过回溯纠正错误,简(jian)化步骤,并利用其在预训练期(qi)间获(huo)得的知识。就像人类在解决复杂问(wen)题时一样,Grok 3 (Think) 可以花费几秒钟到几分钟的时间进行推理,通常会考(kao)虑多种方法,验证自己的解决方案,并评估如何精确满足问(wen)题的要求。
每经记者用弱(ruo)智吧(ba)的问(wen)题来检验一下它的逻(luo)辑是不是真的过关。
(编(bian)者注:“弱(ruo)智吧(ba)”是百度贴吧(ba)的一个子论坛。在这个论坛中,用户经常发布(bu)包含双关语、多义词、因果倒置(zhi)和谐音词等(deng)具有挑战性(xing)的内容,很多内容设计有逻(luo)辑陷阱,即使对人类来说也颇具挑战。)
第一个问(wen)题:用水来兑水,得到的是浓(nong)水还是稀水?
Grok 3
Grok3成功答对了问(wen)题,并且还指出了这是一个文(wen)字游戏。而OpenAI的o1就在这道题上败下了阵来,认为水兑水后得到的是稀水。
OpenAI o1
当然除了o1其他大模型诸如Gemini和R1都答对了这道问(wen)题。所以这并不足以证明Grok的推理模式就是第一的水平,还得加大难度。
下一题:未来的某天,李同(tong)学在实(shi)验室制作神秘材料时,意外发现(xian)实(shi)验室的老鼠在空中飞,分析发现(xian),是因为老鼠不小心吃了神秘材料。第二天,李同(tong)学又发现(xian)实(shi)验室的蛇也在空中飞,分析发现(xian),是因为蛇吃了老鼠。第三天,李同(tong)学又发现(xian)实(shi)验室的老鹰也在空中飞,你认为原因是什么?
Grok 3
很可惜,这道题Grok 3没有答对,它在思维链里面(mian)已经想到了老鹰本身就会飞的可能性(xing),但是没有在最后的输出结果里体现(xian)出来。
Grok 3思考(kao)过程
其他大模型里只(zhi)有DeepSeek R1成功答对了问(wen)题,且考(kao)虑了两种情况(kuang)。
DeepSeek R1
之后,每经记者还进行了多次类似弱(ruo)智吧(ba)问(wen)题测试,发现(xian)Grok 3的对中文(wen)的理解和逻(luo)辑推理能力确实(shi)明显(xian)高(gao)于其他国(guo)外模型,但还是不如DeepSeek的R1模型。
数(shu)学能力:Grok 3最好,但未拉开明显(xian)差距
既然逻(luo)辑思考(kao)无法夺魁,那么在基准测试里的分最高(gao)的数(shu)学项目,Grok 3能不能扳回一城呢?
题目如下:
三个人打台球,两人对局一人观战,输的人下场换观战的人上场,如此往复,最终,A输了6局,B输了8局,C输了10局,问(wen)各赢(ying)多少局?
这道题只(zhi)有Grok3和OpenAI的o1答对。不过,Grok 3只(zhi)用了1分15秒就得出了答案,O1使用了2分53秒。
Grok 3
再进一步加大难度看看能不能分出高(gao)下。下面(mian)是一道群论问(wen)题:有几个阶为147的非同(tong)构群。
在这个问(wen)题上,Grok 3虽然答对了具体的数(shu)量6个,但是中间的具体群却错了一个。而其他模型只(zhi)找到了5个正确的非同(tong)构群。这意味着,在数(shu)学能力方面(mian),Grok 3确实(shi)是最好,但是好得有限,并没有与其他同(tong)等(deng)级(ji)模型拉开显(xian)著差距。
Grok 3
编(bian)程能力:Grok 3险胜(sheng)o1
针对编(bian)程能力,《每日经济新(xin)闻》记者借用了Kcores联合创始人karminski-牙医的测评结果。
karminski-牙医复现(xian)了马斯克在发布(bu)会上对于火(huo)星发射计划的代(dai)码模拟,并测试了多个模型进行比较。
图片来源:karminski-牙医
在这次测试中,表现(xian)最好的是Grok 3的推理模型(思考(kao)模式),虽然在最后着陆(lu)时,动画火(huo)箭(jian)没有与火(huo)星重叠,但轨(gui)道需(xu)求计算得很好。但是他始终没有复现(xian)出马斯克在发布(bu)会时所展现(xian)的那么完美的轨(gui)道计算和动画。Grok 3最后综合得分排在了第一名,再之后是OpenAI的o1,两者的综合得分差距不大。
图片来源:karminski-牙医
结合所有测试来看,Grok 3确实(shi)是世界(jie)顶尖(jian)的AI模型,不愧于20万张GPU的身价。但是,实(shi)际测试效果并没有马斯克在发布(bu)会上展示(shi)得那么夸张,马斯克所说的世界(jie)上最“聪明”的模型,可能还值得商(shang)榷。
在实(shi)测中,《每日经济新(xin)闻》记者发现(xian),Grok 3模型能力并没有像基准测试得分那样远远甩开对手(shou)一大截,唯一甩开竞争对手(shou)的一点是它的响应速度,它得出结果的速度相较于其他同(tong)等(deng)级(ji)的大模型来说是最快的,并且远超(chao)对手(shou)。