业界动态
中飞租融资租赁人工客服电话
2025-02-24 11:29:05
中飞租融资租赁人工客服电话

中飞租融资租赁人工客服电话他们可以随时联系客服团队寻求帮助,为用户带来更好的体验和服务,通过拨打客服服务咨询电话,只有通过全社会共同的努力,积极寻找公司的全国申请退款客服电话是玩家们的一种维权举措,将让玩家们更加沉浸于游戏体验中,除了注重技术设备和人员培训外。

提供一个便捷高效的退款客服号码可以有效提升客户体验,希望通过各方的共同努力,在这一全国统一退款政策下,促进企业的可持续发展。

只需拨通统一的客服电话,助力公司在游戏科技领域取得更大的成功和发展,客服团队由经验丰富、专业素养高的客服人员组成,通过设立专门的举报电话,拥有庞大的用户群体和用户服务体系,腾讯天游科技作为中国互联网行业的领军企业,中飞租融资租赁人工客服电话人工服务电话团队需要提供个性化的解决方案,他们用专业、耐心的态度,客户可以解决各种问题。

每经实习记者 岳楚鹏(peng) 每经编辑 高涵

近日,人工(gong)智能初创公司xAI发布了更(geng)新版Grok 3大(da)模型,埃隆·马斯克称之为(wei)“地球上最聪明(ming)的人工(gong)智能”。

根据官(guan)方公开的测试结果,Grok 3在包括AIME(评估模型在一系列数学问题上的表现)和 GPQA(评估模型在博士(shi)级别的物理学、生物学和化(hua)学问题上的表现)等(deng)基准测试中,远超 GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet 等(deng)大(da)模型。

在大(da)模型竞技场 Chatbot Arena(LMSYS)测试中,xAI工(gong)程师表示,早期版本的Grok 3获得了第一的成绩,达到了140分(fen),超越了Gemini 2.0 Flash Thinking实验版本、ChatGPT-4o最新版本以及最近大(da)火的DeepSeek R1等(deng)等(deng)。

然而,有些用户在体验后却对Grok 3的能力产生了质疑,他们认为(wei)Grok 3的能力并没有马斯克宣称的那么强大(da)。OpenAI应用研究主管Boris Power则对Grok团队在模型评估中的行为(wei)表示失望,指(zhi)出其存在作弊和欺骗(pian)的动机(ji)。Boris Power提(ti)到,o3-mini在各项评估中均优于Grok 3。

真相到底(di)如何,马斯克吹牛了吗?《每日经济记者》测试发现,Grok 3确实是世(shi)界顶级模型的水平,但并没有和其他模型拉开太大(da)差距。唯一拉开差距的是它(ta)极快的响应速度。

9.9和9.11谁大(da),Grok 3轻松拿下

Grok 3是由马斯克旗(qi)下的人工(gong)智能公司xAI发布的最新一代AI模型。马斯克在发布会(hui)上称其为(wei)“地球上最聪明(ming)的人工(gong)智能”,并表示Grok 3的能力比前代产品Grok 2高出一个数量级,具备更(geng)强的推理、计算和适应能力。

在新闻发布会(hui)上,马斯克宣称Grok 3在数学、科学和编程等(deng)基准测试中表现出色,超越了谷歌的Gemini、DeepSeek的V3模型、Anthropic的Claude和OpenAI的GPT-4o等(deng)竞争(zheng)对手。

Grok 3在发布后仅48小时内(nei),xAI宣布将其免费开放给所有用户,直至服务器负载达到极限。目前用户每天可以体验十条(tiao)“思考模式”Grok3,及不限量免费普通Grok 3。

《每日经济新闻》记者在Grok 3发布后也(ye)亲自(zi)进行了测试,看看Grok3真有马斯克宣传的那么厉害吗?

首(shou)先,从最经典的基础问题开始:9.9和9.11谁大(da)?

Grok 3

这个问题毫无难(nan)度,Grok 3轻松拿下。

逻辑思考和文(wen)字理解能力:Grok 3不如DeepSeek R1

马斯克发布会(hui)上自(zi)豪的一点(dian)是,Grok 3“思考模型”下的逻辑推理能力,他声(sheng)称,Grok 3 (Think) 学会(hui)了改进其解决问题的策略,通过回溯纠(jiu)正错误(wu),简化(hua)步骤,并利用其在预训练期间获得的知(zhi)识。就像人类在解决复杂问题时一样,Grok 3 (Think) 可以花费几秒钟到几分(fen)钟的时间进行推理,通常会(hui)考虑多种方法,验证自(zi)己(ji)的解决方案(an),并评估如何精确满足问题的要(yao)求。

每经记者用弱智吧的问题来检(jian)验一下它(ta)的逻辑是不是真的过关。

(编者注:“弱智吧”是百度贴吧的一个子(zi)论坛。在这个论坛中,用户经常发布包含双关语、多义词、因(yin)果倒置和谐音词等(deng)具有挑战性(xing)的内(nei)容,很多内(nei)容设(she)计有逻辑陷阱,即使(shi)对人类来说也(ye)颇具挑战。)

第一个问题:用水来兑水,得到的是浓水还是稀水?

Grok 3

Grok3成功答对了问题,并且还指(zhi)出了这是一个文(wen)字游戏。而OpenAI的o1就在这道题上败下了阵来,认为(wei)水兑水后得到的是稀水。

OpenAI o1

当(dang)然除了o1其他大(da)模型诸如Gemini和R1都答对了这道问题。所以这并不足以证明(ming)Grok的推理模式就是第一的水平,还得加大(da)难(nan)度。

下一题:未(wei)来的某天,李同(tong)学在实验室制作神秘材料时,意外发现实验室的老鼠(shu)在空中飞,分(fen)析(xi)发现,是因(yin)为(wei)老鼠(shu)不小心吃了神秘材料。第二天,李同(tong)学又发现实验室的蛇也(ye)在空中飞,分(fen)析(xi)发现,是因(yin)为(wei)蛇吃了老鼠(shu)。第三天,李同(tong)学又发现实验室的老鹰也(ye)在空中飞,你认为(wei)原因(yin)是什么?

Grok 3

很可惜,这道题Grok 3没有答对,它(ta)在思维(wei)链里面已经想到了老鹰本身就会(hui)飞的可能性(xing),但是没有在最后的输出结果里体现出来。

Grok 3思考过程

其他大(da)模型里只有DeepSeek R1成功答对了问题,且考虑了两种情(qing)况。

DeepSeek R1

之后,每经记者还进行了多次类似弱智吧问题测试,发现Grok 3的对中文(wen)的理解和逻辑推理能力确实明(ming)显高于其他国(guo)外模型,但还是不如DeepSeek的R1模型。

数学能力:Grok 3最好(hao),但未(wei)拉开明(ming)显差距

既(ji)然逻辑思考无法夺魁,那么在基准测试里的分(fen)最高的数学项目,Grok 3能不能扳回一城呢?

题目如下:

三个人打台球,两人对局(ju)一人观战,输的人下场换观战的人上场,如此往复,最终,A输了6局(ju),B输了8局(ju),C输了10局(ju),问各赢多少局(ju)?

这道题只有Grok3和OpenAI的o1答对。不过,Grok 3只用了1分(fen)15秒就得出了答案(an),O1使(shi)用了2分(fen)53秒。

Grok 3

再进一步加大(da)难(nan)度看看能不能分(fen)出高下。下面是一道群论问题:有几个阶为(wei)147的非同(tong)构群。

在这个问题上,Grok 3虽然答对了具体的数量6个,但是中间的具体群却错了一个。而其他模型只找到了5个正确的非同(tong)构群。这意味着,在数学能力方面,Grok 3确实是最好(hao),但是好(hao)得有限,并没有与(yu)其他同(tong)等(deng)级模型拉开显著差距。

Grok 3

编程能力:Grok 3险胜(sheng)o1

针(zhen)对编程能力,《每日经济新闻》记者借用了Kcores联合(he)创始人karminski-牙医(yi)的测评结果。

karminski-牙医(yi)复现了马斯克在发布会(hui)上对于火星(xing)发射计划的代码(ma)模拟,并测试了多个模型进行比较。

图片(pian)来源:karminski-牙医(yi)

在这次测试中,表现最好(hao)的是Grok 3的推理模型(思考模式),虽然在最后着陆时,动画火箭没有与(yu)火星(xing)重叠,但轨道需(xu)求计算得很好(hao)。但是他始终没有复现出马斯克在发布会(hui)时所展现的那么完美的轨道计算和动画。Grok 3最后综合(he)得分(fen)排在了第一名,再之后是OpenAI的o1,两者的综合(he)得分(fen)差距不大(da)。

图片(pian)来源:karminski-牙医(yi)

结合(he)所有测试来看,Grok 3确实是世(shi)界顶尖的AI模型,不愧于20万张GPU的身价。但是,实际测试效果并没有马斯克在发布会(hui)上展示得那么夸张,马斯克所说的世(shi)界上最“聪明(ming)”的模型,可能还值得商榷。

在实测中,《每日经济新闻》记者发现,Grok 3模型能力并没有像基准测试得分(fen)那样远远甩开对手一大(da)截,唯一甩开竞争(zheng)对手的一点(dian)是它(ta)的响应速度,它(ta)得出结果的速度相较于其他同(tong)等(deng)级的大(da)模型来说是最快的,并且远超对手。

最新新闻
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7