LLIA(Low-Latency Interactive Avatars)是美团公司推出的基于扩散模型的实时音频驱动肖像视频生成框架。框架基于音频输入驱动虚拟形象的生成,支持实现低延迟、高保真度的实时交互。LLIA用可变长度视频生成技术,减少初始视频生成的延迟,结合一致性模型训练策略和模型量化技术,显著提升推理速度。LLIA支持用类别标签控制虚拟形象的状态(如说话、倾听、空闲)及面部表情的精细控制,为用户提供流畅且自然的交互体验。
LLIA的主要功能
- 实时音频驱动的肖像视频生成:根据输入的音频信号实时生成对应的肖像视频,实现语音与表情、动作的同步。
- 低延迟交互:在高性能GPU上能够实现高帧率(如384×384分辨率下达到78 FPS)和低延迟(如140 ms)的视频生成,适合实时交互场景。
- 多状态切换:支持基于类别标签控制虚拟形象的状态,如说话、倾听和空闲状态,让虚拟形象根据场景做出自然反应。
- 面部表情控制:基于肖像动画技术修改参考图像的表情,从而实现对生成视频中面部表情的精细控制,增强虚拟形象的表现力。
LLIA的项目地址
- 项目官网:https://meigen-ai.github.io/llia/
- GitHub仓库:https://github.com/MeiGen-AI/llia
- arXiv技术论文:https://arxiv.org/pdf/2506.05806