
今天,蚂蚁集团正式开源了百灵大模型的最新成员——Ling-2.6-flash。这个模型总参数多达104B,但真正干活时只激活7.4B,好比一个超级团队平时只派几个精兵上场,效率反而更高。它一口气放出BF16、FP8、INT4等多个量化版本,让不同配置的硬件都能跑起来,门槛大大降低。
更关键的是推理速度。在主流H20显卡上,Ling-2.6-flash每秒能处理340个token——相当于一秒钟能写出半篇小作文。这还不是全部。根据评测,完成同样复杂任务时,它消耗的token数量只有同类模型的十分之一。也就是说,企业拿它做AI应用,长期运营成本能直接打个一折。
技术上的秘诀是混合线性架构,它把计算潜能拉满了。而且蚂蚁还专门针对当下最火的Agent场景做了优化——无论是让模型调用工具,还是规划复杂任务,执行力和成功率都明显提升。目前这个模型已经在Hugging Face和ModelScope上同步上线。
搞开源这件事,蚂蚁的算盘很明白:让开发者不用自己从头训大模型,拿现成的去垂直行业里折腾,还能保住数据隐私。在开源大模型已经“卷”到白热化的今天,Ling-2.6-flash的性价比让人眼前一亮——参数大、激活小、跑得快、用省电,这可能是中小团队最想看到的样子。
精选评论
评论加载中…