英伟达新模型效率是同类9倍:一个模型看懂视频、音频、图片和文字

作者: 智享AI发布日期: 2026/4/29阅读时间: 2分钟
英伟达新模型效率是同类9倍:一个模型看懂视频、音频、图片和文字 封面图

英伟达今天甩出一款全能型AI模型——Nemotron 3 Nano Omni。它不只懂文字,还能同时处理视频、音频、图片,甚至全高清屏幕录像。简单说,以前需要四五个模型轮番上阵的活,现在一个搞定。

这个模型有多快?英伟达说,它的AI系统吞吐量比同类高出9倍。怎么做到的?秘密在于它用了30B-A3B混合专家架构——通俗点讲,就是把不同领域的“专家”塞进同一个大脑里,还自带视觉和音频编码器,不用额外再挂一堆感知模型。所以响应速度直接起飞。

在实际场景中,它能快速解读屏幕录像,比如智能体看一遍你操作电脑的过程,就能理解你干了什么。法国H公司的CEO Gautier Cloix 感叹:“以前根本做不到这么快。”这意味着机器人和数字世界的互动方式要变天了。

Nemotron 3的能耐不是吹的。它在六大权威排行榜上都拿了高分,尤其擅长解析复杂文档、理解视频和音频——比如从一段嘈杂的会议录音里提取重点,或者分析一部电影片段的情节。

市场也给足了面子。过去一年里,Nemotron 3系列(包括Nano、Super、Ultra三个型号)累计下载量超过5000万次,说明企业们早就盯着这块肥肉了。英伟达已经和多家公司联手,把模型塞进他们的系统里跑起来。

未来,多模态模型不再是实验室里的玩具。一个模型看懂世界,效率还翻了9倍——这回,智能体真的开始“开眼看世界”了。

ai
精选评论
评论加载中…
发表讨论 »