蚂蚁集团今天扔出了一颗“成本炸弹”：它的百灵大模型推出了新版本Ling-2.6-flash，号称能用十分之一的资源，干出和其他顶级AI模型一样的活。这款模型的总参数高达1040亿，但运行中实际启动的参数只有74亿。简单说，它就像一辆装备了超大油箱的跑车，平时只开小油门，既跑得快又省油。在权威机构Artificial Analysis的测试里，Ling-2.6-flash完成相同任务只消耗了1500万tokens，而像Nemotron-3-Super这样的主流模型，消耗量大约是它的十倍。更狠的是，蚂蚁在正式发布前玩了一手“暗箱测试”。Ling-2.6-flash以匿名身份上线运行了一周，结果日均调用量冲到了1000亿tokens。这说明什么？在高并发的真实场景里，它已经扛住了压力，而且不少开发者早就偷偷用上了。AI行业的内卷正在转向。过去大家拼命堆参数，比谁的模型更庞大；现在开始比拼“智效比”，看谁能用更少的电办更多的事。Ling-2.6-flash的设计思路正是如此——保持海量知识储备，同时大幅降低推理成本。对于想大规模部署AI的企业来说，这或许意味着，智能化的门槛终于开始降低了。