微软又来“卷”AI了?这次拿出个“小个子”模型,却能看懂图还会算术

作者: 智享AI发布日期: 2026/4/13阅读时间: 3分钟
微软又来“卷”AI了?这次拿出个“小个子”模型,却能看懂图还会算术 封面图

想让AI帮你点鼠标、看懂复杂的图表?以前这事儿可难了,得用上“大块头”的模型,耗费大量计算资源。但现在,微软悄悄放出了一个叫 Phi-4-reasoning-vision-15B 的新模型,它身材小巧,却是个多面手,能看图、能推理,还能在资源不多的情况下干大事。

这个模型有多“小”?和那些动辄训练几万亿数据点的大模型不同,它只用了2000亿个多模态数据点。你可以把它想象成一个学霸,别人是死记硬背,它是掌握了学习的精髓,把有限的时间花在最关键、最精华的知识点上。微软的工程师们特别重视数据的“质量”,就像给模型“挑食”,只喂最有营养的部分。他们还专门给模型“补习”了数学题,结果发现,这不仅让它算术更厉害,连操作电脑屏幕的能力也跟着提升了。

最厉害的是,这个模型还能“切换思考模式”。遇到简单的任务,比如描述一张图片,它会直接给出答案,速度飞快。但如果遇到复杂的数学公式或者科学图表,需要仔细分析时,它就会启动“深度思考”模式,一步一步地推导出答案,确保准确无误。你甚至还能像遥控器一样,告诉它什么时候需要“快”,什么时候需要“精”。

有了它,开发一个能帮你操作电脑的助手就容易多了。比如,它能看懂手机屏幕上的按钮和文字,精准地知道该点击哪里、输入什么,就像你请了个“数字管家”。

微软这次开源这个“小钢炮”模型,意思很明显:AI不一定要越大越好,在某些领域,“小而美”同样能带来强大的能力。这也许预示着,未来我们身边的智能设备,能够实现更实时的互动,理解我们周围的世界,变得更加聪明。

aitech
精选评论
评论加载中…
发表讨论 »