CVPR2026风向大变:视觉AI不再比“谁看得更准”,而是“谁想得更深”

作者: 智享AI发布日期: 2026/4/30阅读时间: 4分钟
CVPR2026风向大变:视觉AI不再比“谁看得更准”,而是“谁想得更深” 封面图

在刚刚结束的CVPR2026上,一个重磅信号刷屏:计算机视觉的“内卷”到头了。过去十年,大家拼命让AI看清世界,ImageNet分类准确率从70%追到99%,再往上提1%要花几百万美元,收益却微乎其微。今年的大会直接摊牌:别比谁看得准了,要比谁想得聪明。

具体怎么个聪明法?举个例子。以往的多模态模型(比如能看图说话的AI)遇到任何问题都要先“思考”一遍,哪怕只是问“图片里是猫还是狗”,它也要走一遍所谓的“思维链”——把语言推理步骤全写出来。这就像你每次出门前都先做一套数学题,太浪费了。新出的VideoAuto-R1框架提出“按需推理”:简单问题直接回答,只有碰到复杂逻辑(比如“这张拼图怎么缺了一块?”)才启动深度推理。实验证明,这样既保持最佳成绩,还把平均推理长度压缩了3.3倍,速度更快,能耗更低。

更关键的是,AI的“思考方式”也在变。过去模型处理空间关系(比如“桌子的左边是什么?”)必须把画面转成一行行的文字描述,就像画画要先用嘴描述一遍,既别扭又容易出错。现在的新趋势是让模型在“潜在空间”直接做隐式推理——不经过语言,直接在像素层面完成判断。这好比人脑看拼图时,不用心里嘀咕“这块蓝色应该放右上角”,靠直觉就能拼好。

另一个大转折是评测体系的“打脸”。目前主流的视觉语言评测,比如选择题,问“图片里是什么动物?A.猫 B.狗 C.鸟”,模型常常靠排除法或选项偏差蒙对。有研究指出,这种考核方式可能把模型真实能力虚高估了20个百分点——相当于考卷全是选择题,学渣也能拿60分。于是业界开始推行“可验证开放问答”,强迫模型真正看懂内容,不能靠投机取巧。同时,评测场景也从一张静态图升级到多智能体环境。比如新基准VS-Bench,要求AI不仅要看懂一个房间,还要和其他AI进行合作或竞争,比如“你和另一个机器人一起搬箱子,怎么分工?”——这已经不是在考视觉,而是在考策略和决策能力。

基础设施层面,开源模型正在“裸奔”。比如Molmo2不仅开放了权重,连数据和训练流程全公开,能力从单图扩展到视频,还能精确指出物体位置(比如“那个红色杯子在桌角”)。支撑这些的是更真实的数据集。过去训练AI修图,用的都是合成数据,AI往往不懂常识(比如修掉人脸上的痣后,背景不能变形)。新出的Pico-Banana-400K数据集收集了真实用户的多轮编辑操作,让AI学会更符合逻辑的修改。

总结一句话:视觉AI不再是“摄像头”,它正在变成“大脑”。从看清世界,到理解世界,再到在世界上行动——这波重塑,不是微调,是换骨。接下来,谁能把感知、推理、决策串成一条线,谁才是真正的赢家。

ai
精选评论
评论加载中…
发表讨论 »