点几下鼠标,虚拟人就能“活”起来?美团开源新模型,长视频生成不再是难题

作者: 智享AI发布日期: 2025/12/19阅读时间: 8分钟
点几下鼠标,虚拟人就能“活”起来?美团开源新模型,长视频生成不再是难题 封面图

最近,科技圈里又多了一个值得关注的名字——美团旗下的 LongCat 团队。他们悄悄发布了一个名为 LongCat-Video-Avatar 的开源模型,这可不是一般的“小打小闹”,它在虚拟人视频生成领域,尤其是在制作长视频方面,展现出了 SOTA(State-of-the-Art,最先进)级别的实力。这意味着,未来我们看到的虚拟人视频,无论是在流畅度、真实感还是角色一致性上,都有望迎来一次飞跃。

“一招鲜”玩转多种虚拟人视频生成

LongCat-Video-Avatar 的厉害之处,在于它并非只专注于某一项功能,而是像一个“多面手”,能够一次性搞定多种视频生成任务。它在之前的 LongCat-Video 模型基础上进行了升级,核心理念是“一个模型,多种能力”。具体来说,它原生支持“音频+文本”生成视频(AT2V),也支持加入“图像”元素,实现“音频+文本+图像”转视频(ATI2V)。更绝的是,它还能对已有的视频进行“续写”,也就是说,你可以让一个虚拟人接着之前的动作或对话继续表演下去。

相比于市面上一些同类技术,比如美团之前推出的 InfiniteTalk,LongCat-Video-Avatar 在几个关键指标上有了质的提升。首先是动作的拟真度,让虚拟人的每一个动作都更加自然流畅,不再显得僵硬;其次是视频的稳定性,避免了画面抖动或跳帧的情况;最后也是非常重要的一点——身份一致性。这意味着,在整个视频生成过程中,虚拟人的长相、声音甚至神态都能保持高度统一,不会出现“换脸”或者“变声”的尴尬。这对于需要长时间、连贯视频内容的场景来说,简直是福音。

破解长视频的“画质衰减”魔咒

制作长视频,尤其是高质量的长视频,一直是个技术难题。很多模型在生成短视频时表现不错,但一旦视频时间拉长,画面质量就会明显下降,出现模糊、失真等问题。LongCat-Video-Avatar 巧妙地解决了这个问题,它的秘诀在于一种叫做“Cross-Chunk Latent Stitching”的训练策略。简单来说,就是在视频生成过程中的一个叫做“隐空间”的地方,对特征进行“无缝拼接”。这样一来,就避免了因为反复解码导致画质损失,同时也大大提升了生成效率。你可以想象成,它不是一块一块地拼图,而是像在“流体”中进行创作,自然而然地连接起来。

让虚拟人“认得自己”,摆脱“重复套路”

要让虚拟人长久地保持“人设”,也是个挑战。LongCat-Video-Avatar 在这方面也下了功夫,它引入了两种创新机制:一是“带位置编码的参考帧注入模式”,二是“Reference Skip Attention”。前者就像给视频中的每一帧都打上了“身份标签”,让模型知道“这是谁”,并且知道他在画面中的位置;后者则是一种更聪明的注意力机制,能帮助模型在生成长视频时,更好地关注关键信息,避免不必要的重复。这样一来,虚拟人不仅能保持身份一致,还能摆脱“卡顿”和“动作重复”的毛病,让表演更加生动。

SOTA 实力,经得起“考”和“看”

LongCat-Video-Avatar 的实力并非纸上谈兵。在 HDTF、CelebV-HQ、EMTD 和 EvalTalker 等多个权威公开数据集上进行评测,它在多项核心指标上都达到了 SOTA 水平,尤其是在唇音同步精度和一致性方面,表现尤为突出。这意味着,虚拟人的嘴型能精准地与声音同步,听起来和看起来都非常协调。

更重要的是,通过大规模的人工评测,LongCat-Video-Avatar 在自然度和真实感方面也获得了大量好评。这意味着,它生成的虚拟人视频,已经能够骗过不少人的眼睛,看起来非常像真人。这为虚拟人技术在各种应用场景中的落地,打下了坚实的基础。

开源的力量:让“千人千面”触手可及

美团 LongCat 团队表示,LongCat-Video-Avatar 的推出,是他们在数字人生成技术上又一次重要的迭代,目的就是为了切实解决开发者在长视频生成时遇到的痛点。他们始终坚持开源的理念,希望通过社区的力量,集思广益,不断打磨和优化这项技术。

此次 LongCat-Video-Avatar 的开源,无疑为虚拟人技术的应用打开了新的大门,也为内容创作者们提供了一个强大的新工具。未来,我们或许能在更多的短视频、直播、游戏、甚至是虚拟代言人等场景中,看到更加逼真、生动的虚拟人。而这一切,都离不开像 LongCat-Video-Avatar 这样的开源技术,它正一步步将“千人千面”的数字世界,变得触手可及。如果你对此感兴趣,不妨去 GitHub 和 Hugging Face 看看,亲自体验一下这个能够让虚拟人“活”起来的模型。

techtoolupdateproductinnovation
精选评论
评论加载中…
发表讨论 »