蚂蚁开源百灵新模型:104B参数只用7.4B,推理速度340 token/s,成本降到十分之一

作者: 智享AI发布日期: 2026/4/29阅读时间: 2分钟
蚂蚁开源百灵新模型:104B参数只用7.4B,推理速度340 token/s,成本降到十分之一 封面图

今天,蚂蚁集团正式开源了百灵大模型的最新成员——Ling-2.6-flash。这个模型总参数多达104B,但真正干活时只激活7.4B,好比一个超级团队平时只派几个精兵上场,效率反而更高。它一口气放出BF16、FP8、INT4等多个量化版本,让不同配置的硬件都能跑起来,门槛大大降低。

更关键的是推理速度。在主流H20显卡上,Ling-2.6-flash每秒能处理340个token——相当于一秒钟能写出半篇小作文。这还不是全部。根据评测,完成同样复杂任务时,它消耗的token数量只有同类模型的十分之一。也就是说,企业拿它做AI应用,长期运营成本能直接打个一折。

技术上的秘诀是混合线性架构,它把计算潜能拉满了。而且蚂蚁还专门针对当下最火的Agent场景做了优化——无论是让模型调用工具,还是规划复杂任务,执行力和成功率都明显提升。目前这个模型已经在Hugging Face和ModelScope上同步上线。

搞开源这件事,蚂蚁的算盘很明白:让开发者不用自己从头训大模型,拿现成的去垂直行业里折腾,还能保住数据隐私。在开源大模型已经“卷”到白热化的今天,Ling-2.6-flash的性价比让人眼前一亮——参数大、激活小、跑得快、用省电,这可能是中小团队最想看到的样子。

aitechtoolproduct
精选评论
评论加载中…
发表讨论 »