腾讯混元视频生成框架代码开放——动态面部稳定性与物体轨迹精准控制技术

日期:2025-08-27 16:19:07 栏目：企业版浏览：次

客畅网5月9日讯，腾讯混元团队正式发布并开源一款创新多模态视频生成解决方案HunyuanCustom。

该工具依托混元视频生成大模型（HunyuanVideo）研发，在主体连贯性表现上超越主流开源方案。

技术资料显示，该平台支持文本、图像、声音及影像数据的融合处理，为智能影像创作提供精准控制与高质量输出。

研发团队强调，系统具备单/多主体影像生成、动态配音及局部画面编辑功能，确保输出内容与输入素材高度契合。

针对创作者需要保持人物特征变更场景的需求，传统视频生成技术存在明显局限。

HunyuanCustom创新采用身份强化技术与跨模态整合架构，真正实现"影像定身份，文本创万物"的智能创作模式。

该工具覆盖短视频制作、电商展示、广告设计及影视创作等多元应用场景。

具体应用包括：广告领域快速变换商品展示背景、电商场景生成虚拟导购视频、影视行业高效制作剧情短片等专业需求。

通过独创的主体稳定性算法，系统在单人多物、复杂交互场景中均可维持特征的连续性，彻底解决人物形变与物体位移的技术难题。

目前基础版单主体生成功能已开放体验，用户可通过"模型广场-图生视频-参考生成"模块进行试用，其余功能计划五月全面开放。

单主体模式下，上传人物或物品静态图片并输入动作描述（如"骑自行车穿越林荫道"），系统即可生成具有空间连续性的动态影像。

多主体创作场景中，用户可分别上传人物与物品图像，结合文字指令实现多元素的场景化编排。

系统还突破性地整合了音视频同步技术，在音频驱动模式下，结合人物肖像与声音素材，可生成虚拟主播、智能客服等场景的交互视频。

视频编辑功能支持将指定元素无缝植入现有影像素材，为影视后期制作与内容二次创作提供高效解决方案。