美团开源数字人模型:10秒视频1分钟生成,比HeyGen还强

作者: 智享AI发布日期: 2026/5/22阅读时间: 4分钟
美团开源数字人模型:10秒视频1分钟生成,比HeyGen还强 封面图

今天,美团龙猫大模型团队突然扔出一枚重磅炸弹——他们把商用级数字人视频生成模型LongCat-Video-Avatar1.5开源了。这不是简单更新版本,而是直接宣布在多个核心指标上干翻了Kling Avatar2.0、OmniHuman-1.5和HeyGen这些闭源大佬。770名测试者和10名专家打过分:用户偏好胜率高达65.9%,多人场景得分2.730,碾压竞争对手。

数字人视频一直有个老大难问题:动不动就“抖、畸、慢”。嘴型对不上,手部像面条,长视频看着看着脸就变了。美团这次一口气装了三个大招,专治这些毛病。

第一招:让嘴巴更听话。模型把音频识别从老旧的Wav2Vec2换成了Whisper-large,参数更大,能听懂更多语言和语气。现在哪怕是rap、快语速、唱歌,嘴唇都能跟咬字同步,连坐姿时的手部动作都能自然配合。评测显示,唇形不同步问题率从行业平均的40%降到了29.8%。

第二招:能认虚拟偶像和狗。团队搞了一套“离线标注+在线验证”的数据清洗流程,硬塞进三种特殊数据:多人场景下谁在说话谁在听,静默时的微表情,以及带情绪的对话。结果模型不光能生成真人,连二次元、动物、卡通形象都能稳定处理,不会出现非说话角色嘴巴乱动的“灵异事件”。

第三招:给手开了个“黑匣子”。电商直播、产品展示最怕手部变形。美团引入了GRPO技术,逐帧奖励正确的手部动作,还加了首帧手部检测。这招让手部畸变和局部崩塌的问题大幅缓解,主体变形率只有23.1%,背景变形率低至9.4%,跳帧率更是控制在0.8%以下。

比这些技术升级更炸裂的是推理效率。原来生成一段10秒视频需要50步,现在用DMD蒸馏技术压缩到8步,还用“一个主模型+多个轻量适配器”取代了以前的三模型并行方案。实测下来,生成速度提升了15倍——10秒视频,一分钟搞定。这意味着用普通显卡就能跑,不用烧钱租超算。

团队还特别强调了成本控制。开源意味着全球开发者都能免费下载源代码和模型权重,直接在本地或者云上跑。美团在GitHub、HuggingFace、ModelScope上都放了链接,还附带了技术报告和演示页面。正如龙猫团队所说,这不是版本更新,而是给所有想做数字人视频的人一个技术基座。

现在看来,数字人视频的门槛正在被踩平。从电商直播到在线教育,从新闻播报到虚拟偶像演唱会,或许很快就能看到千人千面的真实应用场景。如果你是个开发者或者创作者,不妨去GitHub上扒一份代码试试,看看它能不能帮你省下几万块的外包费。

techupdateproduct
精选评论
评论加载中…
发表讨论 »