谷歌大模型“性价比之王”来了,混合推理模型,思考深度可自由控制,竞技场排名仅次于自家Pro
紧跟o4-mini,谷歌上新了Gemini 2.5 Flash preview版本。
作为更注重效率的Flash,在大模型竞技场上排名并列第二,第一是自家的Gemini 2.5 Pro。
这样的表现,让Gemini 2.5 Flash的性价比直接拉满。
而且还是一款混合推理模型,可以自由设定思考深度,帮助预算不足的用户进一步控制推理成本。
目前,preview版本(不同于Gemini网页版中的版本)已在Google AI Studio和Vertex AI的 API中上线。

主打性价比,思考深度自由调控
在大模型竞技场上,经过3000多轮对战,Gemini 2.5 Flash获得了1392分的成绩,与Grok-3、GPT-4.5等模型并列第二。
综合成绩仅次于自家的Pro版,这样看来在竞技场中战胜谷歌的只有谷歌了。

并且在编程、复杂提示和长文本三个子榜单中,都和Pro版并列第一。

在大模型竞技场推出的WebDev榜单里,Gemini 2.5 Flash位列第七,超过了前一代(2.0)的Pro版本。

此外谷歌还展示了Gemini 2.5 Flash在一系列高难度数据集上的表现。
其中包括由1000多名学者提出的“人类最后的考试”,这套测试集发布时没有任何一个模型得分超过10%,现在Gemini 2.5 Flash的成绩是12.1%。

作为Flash版本,Gemini 2.5 Flash在谷歌自家的模型中,是至今性价比最高的版本。
其价格为0.15/0.6/3.5美元每百万输入/输出/推理Token,和o4-mini相比便宜了不少。

实际上,如果按照输入输出3:1的比例计算,在大模型竞技场1400分附近,Gemini 2.5 Flash是最便宜的一款模型。

△
另外对于价格相对较高的推理过程,Gemini 2.5 Flash支持自由深度控制(甚至完全关闭),可以帮助预算不足的用户节约成本。
如果不进行设置,模型也会根据prompt自己判断适宜的思考深度,避免在简单的问题上过度思考,从而平衡成本。

o4-mini的竞争者?
在HackerNews上,Gemini 2.5 Flash引发了热烈的讨论。
有人认为,谷歌不搞炒作,但实际上性价比非常高,谷歌正在赢得人工智能竞赛。
也有人觉得,便宜是便宜,但是模型有时候会犯懒,不过这也在预料之中。
当然,实际应用还是要看具体任务,不过可以确定的是,Gemini 2.5 Flash的性价比已经获得了部分人的认可。

另外由于Gemini的Flash版本和OpenAI的mini类似,再加上上线时间邻近,Gemini 2.5 Flash也被视为o4-mini的竞争者。
不过从谷歌官方发布的成绩单上看,Gemini 2.5 Flash在一些难度较高的测试集中,表现是要稍逊于o4-mini的。
但如果考虑价格,这样的差距似乎可以接受,而且实际任务当中,也不总是需要模型能够应付这些最难的问题。

那么,在实际环境当中,Gemini 2.5 Flash的表现又如何呢?首先看看编程能力。
先安排一下著名的小球测试变体——一个大五边形中包含了三个缺一边的小五边形,之间互不交叉,小球在其中按照物理规律运动。
五边形的部分Gemini 2.5 Flash,正确绘制出来了,但对于小球则是完全已读乱回,经过了反复调整之后依然翻车。

再看o4-mini,运行结果符合提示词要求,并且代码更加精简,仅128行,而Gemini版本超过了500行。
这一轮,o4-mini胜。

再看数据分析能力。
我们找来了最近某班次航班的飞行记录,包含了起飞到降落过程中各时间点的位置、高度、速度、航向等信息,一共有1700余个数据点。
给出的任务则是绘制出高度和速度随时间变化的折线图,并且涉及到了时区和计量单位的换算(原始数据中时间为UTC时间、高度为英尺、速度为节,需要换算成北京时间、高度单位为米、速度单位为公里每小时)。
虽然我们上传了数据文件,但一开始Gemini没有选择外挂,而是把数据全都写进了Python代码,导致代码非常冗长。
经过提示之后,Gemini对代码进行了改进,得到了正确的图像。

o4-mini这边,虽然结果也对,但是没有考虑清楚坐标轴文本的长度,导致横轴上所有标签都挤成一团。
而且相比之下,Gemini的版本还带有网格线,能够更清晰地看出各点对应的大致数值。
这一轮,Gemini胜。

最后一轮,来看下两款模型的多模态理解能力。
这是英伟达最近一个月的股票形势图,我们让两款模型分别分析一下最佳的入手时机。

它们都从图中正确发现了最低点和对应的时间,至于回答质量,还是直接看他们的输出结果:

总的来说,如果不考虑价格,Gemini 2.5 Flash确实和o4-mini比还有些不尽如人意,但落地中考虑性价比,可能综合竞争力就体现出来了。
参考链接:
https://developers.googleblog.com/en/start-building-with-gemini-25-flash
本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。
-
汪苏泷工作室深夜发声
近日,歌曲《年轮》相关话题引发网友讨论,因网红歌手“旺仔小乔”一句“发一百遍《年轮》也只会写张碧晨是原唱”,引发了《年轮》这首歌的“原唱之争”。7月25日晚,@汪苏泷工作室 发文:“今夜的罗曼城,雨来了雨停了,带来了彩虹,带来了凉爽晚风。在每首歌的大合唱里,大家也被爱和快乐包裹。我们的词曲从未旁落,
时间:2025-07-26 11:52:00 -
68款APP违法违规收集使用个人信息,“1点点”“老乡鸡”“杨国福”“斗鱼”“马蜂窝”在列
据国家网络安全通报中心日前通报,经国家计算机病毒应急处理中心检测,68 款移动应用存在违法违规收集使用个人信息情况,“斗鱼”、“杨国福”、“老乡鸡”、“马蜂窝”等在列。在 App 首次运行时未通过弹窗等明显方式提示用户阅读隐私政策等收集使用规则;以默认选择同意隐私政策等非明示方式征求用户同意;隐私政
时间:2025-07-13 15:22:00 -
新规下仍敢飙80km/h?记者暗访电动自行车非法改装一条街
工业和信息化部等五部门组织修订的强制性国家标准《电动自行车安全技术规范》已于2024年12月31日正式发布,将于今年9月1日起实施。“新国标”继续沿用了2018年提出的电动自行车设计速度,最高25km/h的规定。然而新规实施在即,电动自行车的非法改装却并未销声匿迹,有些地方甚至形成了改装“一条街”甚
时间:2025-07-12 15:57:00 -
实测谷歌Gemma 3n:偏科明显,但这才是端侧大模型的答案
有一说一,最近国内的AI大模型圈,属实有点安静了。先不谈大伙万众瞩目的DeepSeek-R2了,这玩意除了半真半假的爆料以外,没有一点动静,有种哪怕再过半年时间,也不一定能够落地的感觉。去年打得你来我往的AI四小龙,今年好像也和小猫一样蔫了,说是大家都在闷声鼓捣着自己的东西,但愣是什么都没有端出来,
时间:2025-07-06 09:06:00 -
边修缮边开放,苏州虎丘断梁殿成“科普课程”
近日,苏州虎丘断梁殿进入为期三个月的保护性修缮。修缮期间,这座古建筑却没有空置。通过3D扫描贴图技术,围挡喷绘还原了断梁殿的正立面图,以谢时臣的《虎丘图卷》局部为背景,和虎丘相关诗词共同打造了修缮期间虎丘景区的新门户形象。同时,断梁殿正面广场设置了科普展览,通过“历史回眸”“建筑精粹”和“含古藏真”
时间:2025-06-27 09:49:00