蚂蚁开源百灵新模型：104B参数只用7.4B，推理速度340 token/s，成本降到十分之一

今天，蚂蚁集团正式开源了百灵大模型的最新成员——Ling-2.6-flash。这个模型总参数多达104B，但真正干活时只激活7.4B，好比一个超级团队平时只派几个精兵上场，效率反而更高。它一口气放出BF16、FP8、INT4等多个量化版本，让不同配置的硬件都能跑起来，门槛大大降低。

更关键的是推理速度。在主流H20显卡上，Ling-2.6-flash每秒能处理340个token——相当于一秒钟能写出半篇小作文。这还不是全部。根据评测，完成同样复杂任务时，它消耗的token数量只有同类模型的十分之一。也就是说，企业拿它做AI应用，长期运营成本能直接打个一折。

技术上的秘诀是混合线性架构，它把计算潜能拉满了。而且蚂蚁还专门针对当下最火的Agent场景做了优化——无论是让模型调用工具，还是规划复杂任务，执行力和成功率都明显提升。目前这个模型已经在Hugging Face和ModelScope上同步上线。

搞开源这件事，蚂蚁的算盘很明白：让开发者不用自己从头训大模型，拿现成的去垂直行业里折腾，还能保住数据隐私。在开源大模型已经“卷”到白热化的今天，Ling-2.6-flash的性价比让人眼前一亮——参数大、激活小、跑得快、用省电，这可能是中小团队最想看到的样子。

aitechtoolproduct

精选评论

评论加载中…