
5月11日,面壁智能、清华大学和OpenBMB开源社区联手扔出一枚“小钢炮”——MiniCPM-V4.6。这个AI模型参数只有1.3B(13亿),但性能却干翻了比它大几倍的对手,直接把端侧AI的落地门槛踩平了。
1.3B的“小身板”凭什么赢?
模型分两个版本:Instruct和Thinking。在Artificial Analysis(AA)评测里,MiniCPM-V4.6得13分,甩开阿里Qwen3.5-0.8B和谷歌Gemma4-E2B-it这些同尺寸选手一大截,性能甚至逼近3.5B的Qwen3.5-2B。它不仅能看懂图文、做STEM数学推理,还擅长文档OCR和视频时序理解。特别是Thinking版,在多图像推理和防止“胡编乱造”上表现亮眼。
最关键的:它不“吃”内存
端侧AI最大的痛是内存不够。MiniCPM-V4.6把运行内存需求压到6GB——主流手机、PC、智能家居都能跑。推理效率呢?基于vLLM,吞吐量是竞品的1.5倍;处理一张3136×3136超高清图片,首响应延迟才75.7毫秒,比对手快2.2倍。单卡就能跑出7013 token/s的文本生成速度,或者每秒处理54.79张1344×1344图片。简单说:你手机开个App,点一下,AI就能秒回。
技术秘密:LLaVA-UHD v4省了50%开销
面壁和清华一起搞的LLaVA-UHD v4技术,重新设计了图像编码和压缩模块,编码开销砍掉一半,高分辨率浮点运算减少55.8%。它还支持4倍和16倍混合Token压缩,让模型在“要性能”和“要速度”之间自由切换——这个方案已经在快手的推荐模型OneRec里验证过,扛住了海量流量。
从实验室跑到你口袋里
MiniCPM-V4.6完全开源。开发者用一张RTX4090显卡就能全量微调,兼容ms-swift、LLaMA-Factory等框架。还支持vLLM、Ollama,并提供了iOS、Android、鸿蒙的测试版本。目前它已经用在汽车、PC、智能家居、工业检测等领域,合作伙伴包括联想、吉利、上汽大众、小米、OPPO。
未来,AI不再只靠云端,每个智能设备都可能长出自己的“大脑”。MiniCPM-V4.6这一炮,把端侧多模态大模型的门彻底砸开了。