HRAvatar是清华大学联合IDEA团队推出的单目视频重建技术,支持从普通单目视频中生成高质量、可重光照的3D头像。HRAvatar用可学习的形变基和线性蒙皮技术,基于精准的表情编码器减少追踪误差,提升重建质量。HRAvatar将头像外观分解为反照率、粗糙度和菲涅尔反射等属性,结合物理渲染模型,实现真实的重光照效果。HRAvatar在多个指标上优于现有方法,支持实时渲染(约155 FPS),为数字人、虚拟主播、AR/VR等领域提供新的技术方案。
HRAvatar的技术原理
- 精确表情追踪:用端到端的表情编码器,联合优化提取更准确的表情参数,减少预追踪参数误差对重建的影响。表情编码器与3D头像重建联合训练,用高斯重建损失进行监督,提高重建准确性。
- 几何变形模型:基于可学习的线性形变基(Linear Blendshapes),对每个高斯点引入形状基、表情基和姿态基,实现从标准空间到姿态空间的灵活变形。用线性蒙皮(Linear Blend Skinning),将高斯点变换到姿态空间,适应个体的姿态变形。
- 外观建模:将头像外观分解为反照率、粗糙度、菲涅尔反射率等材质属性。用BRDF物理渲染模型进行着色,结合简化的SplitSum近似技术,实现高质量、可重光照的实时渲染。引入反照率伪先验,更好地解耦材质信息,避免将局部光照误混入反照率。
- 法线估计与材质先验:用每个高斯点的最短轴作为其法线,基于深度导数获得的法线图监督渲染的法线图,确保几何一致性。用现有模型提取伪真实反照率,监督渲染反照率,限制粗糙度和基础反射率在预定义范围内,获得更真实的材质。