OmniHuman– 字节推出的数字人动画生成模型

数字人动画字节

OmniHuman-1.5 字节推出的先进的AI模型，能从单张图片和语音轨道生成富有表现力的数字人动画。模型基于双重系统认知理论，融合多模态大语言模型和扩散变换器，模拟人类的深思熟虑和直觉反应。模型能生成动态的多角色动画，支持通过文本提示进行细化，实现更精准的动画效果。OmniHuman-1.5 的动画具有复杂的角色互动和丰富的情感表现，为动画制作和数字内容创作带来全新的可能性，大大提升创作效率和表现力。

OmniHuman-1.5的主要功能

动画生成：从单张图片和语音轨道生成数字人动画。
多角色互动：支持多角色动画，角色之间能进行复杂互动。
情感表现：生成的数字人动画具有丰富的情感表现，角色能根据语音和文本提示做出相应的情感反应。
文本细化：通过文本提示对动画进行进一步细化和调整，提升动画的准确性和表现力。
动态场景：能生成动态背景和场景，让动画更加生动和真实。

OmniHuman-1.5的技术原理

双重系统认知理论：模拟人类的深思熟虑（系统2）和直觉反应（系统1），使模型能同时处理复杂的逻辑和直观的情感反应。
多模态大语言模型：处理文本和语音输入，理解上下文和情感，为动画生成提供语义指导。
扩散变换器：生成高质量的动画帧，确保动画的流畅性和视觉效果。
多模态融合：将图像、语音和文本等多种模态的信息融合，生成更加丰富和真实的动画。
动态调整：通过文本提示对生成的动画进行动态调整，实现更精准的动画效果。

OmniHuman-1.5的项目地址

项目官网：https://omnihuman-lab.github.io/v1_5/
arXiv技术论文：https://arxiv.org/pdf/2508.19209

FramePackLoop – AI视频生成工具，首尾连接生成循环视频

<p style="text-align: left; line-height: 2;">FramePackLoop 是基于 <a href="https://ai-bot.cn/framepack/" target="_blank">FramePack</a> 推出的无限循环<a href="https://ai-bot.cn/ai-video-generation-tools/" target="_blank">视频生成</a>工具。工具通过创建主视频和连接视频，将视频组合成循环视频，适用视频背景、图标等场景。用户能自定义视频长度、循环次数等参数，支持 LoRA 模型和批量生成功能。工具提供丰富的自定义选项，适合视频制作和游戏开发等多种用途。</p><h2 style="text-align: left;">FramePackLoop的项目地址</h2><ul><li style="text-align: left;"><strong>GitHub仓库</strong>：https://github.com/red-polo/FramePackLoop</li></ul>

FilmAction

<p>FilmAction是瀚皓科技团队推出的一站式AI电影创作平台。通过AI技术整合了从故事构思到视频生成的全流程，为创作者提供高效、便捷的创作体验。用户只需输入简短描述或创意概念，FilmAction能自动生成故事大纲、脚本、角色设定、分镜，支持配音和配乐，最终输出高清视频。提供丰富的角色库、场景模板以及多种艺术风格选择，满足不同用户的个性化需求。FilmAction支持4K高清输出和高帧率视频生成，确保作品的高质量呈现。</p> <p> </p>

MoneyPrinterTurbo

<p>只需提供一个视频主题或关键词，就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐，然后合成一个高清的短视频。</p> <div class="markdown-heading" dir="auto"> <p>Web界面</p> <a id="user-content-web界面" class="anchor" href="https://github.com/harry0703/MoneyPrinterTurbo?tab=readme-ov-file#web%E7%95%8C%E9%9D%A2" aria-label="Permalink: Web界面"></a></div> <p><a href="https://github.com/harry0703/MoneyPrinterTurbo/blob/main/docs/webui.jpg" target="_blank" rel="noopener noreferrer"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://github.com/harry0703/MoneyPrinterTurbo/raw/main/docs/webui.jpg"></a></p>

kreadoai

<p>KreadoAI是一个AIGC数字营销视频创作平台，专注于利用人工智能技术简化和优化视频内容的创作流程。用户只需输入文本或关键词，Kreado AI能创作出真实或虚拟人物的视频内容。平台提供超过 700 种数字人形象和 1600 多种语音选项，支持 140 多种语言，广泛应用于营销、教育、培训、医疗等领域。 KreadoAI 的最新版本增加了真人语音克隆、真人形象克隆、PPT 文件生成数字人口播视频等功能。提供 AI 文案生成、AI 模特、AI 智能抠图等工具，帮助用户提升内容创作效率。</p> <h2 style="font-size: 20px;">KreadoAI的主要功能</h2> <ul> <li>数字人视频创作：提供超过 700 种数字人形象和 1600 多种语音选项，支持 140 多种语言，用户可以通过输入文本或关键词快速生成多语言口播视频。</li> <li>真人形象与语音克隆：用户提交 5 分钟的视频或音频，即可实现 1:1 还原真人形象和音色，并支持多语言切换。</li> <li>PPT 文件生成视频：上传 PPT 文件，即可快速生成数字人口播视频，适用于企业宣传或教学场景。</li> <li>AI 模特与真人模特：无需实际模特，可生成虚拟数字人模特，也可上传真人照片生成不同肤色和样貌的模特效果图。</li> <li>AI 文案与配音：支持快速生成多语言广告文案和文字转语音功能，提供 140 多种语言的配音。</li> <li>智能编辑与特效：提供一键智能抠图、背景更换、视频比例设置等功能，方便用户进行个性化编辑。</li> <li>AI模特：无需实际模特参与，用户可以快速生成虚拟数字人模特，用于服装展示、广告拍摄等，大大减少了实体拍摄的成本和时间。</li> <li>AI真人模特：上传真人模特的照片，平台能够生成不同肤色和样貌的模特效果图，为用户提供多样化的模特选择。</li> <li>形象克隆：通过提交一段5分钟的视频，平台能够1:1复制人物的表情和动作，生成高度还原的数字人形象。</li> <li>语音克隆：用户可以提交一段5分钟的音频，平台将复刻真人的音色和音律，实现逼真的声音克隆效果，并支持在多种语言之间自由切换。</li> </ul> <h2 style="font-size: 20px;">如何使用KreadoAI</h2> <ul> <li>注册与登录：访问KreadoAI的官网（kreadoai.com），点击开始免费试用进行注册/登录</li> </ul>

JoyPix

<p>JoyPix 是专注于数字人和语音合成的AI创作工具。用户可以通过上传照片创建个性化的虚拟形象，支持与虚拟形象进行语音对话。JoyPix 提供自定义虚拟形象，可以根据自己的需求进一步定制虚拟形象的外观。JoyPix支持声音克隆，用户只需上传10秒音频片段，可克隆自己的声音，生成自然流畅的语音输出。JoyPix 的文本转语音功能可以将文本转换为逼真的语音，满足多种语音合成需求。JoyPix提供了虚拟形象库，方便用户选择和使用预设的虚拟形象。</p> <p><img src="https://img.medsci.cn/aisite/img//F7LeXvrCXanIKRtlBqqc9lpjQb76l7qSRyKmObWH.png"></p> <h2 style="font-size: 20px;">JoyPix的主要功能</h2> <ul> <li>Avatar Talk（虚拟形象对话）：用户可以将自己的照片上传到 JoyPix，创建能说话的虚拟形象。虚拟形象能根据用户输入的文本进行语音对话。</li> <li>Custom Avatar（自定义虚拟形象）：用户可以上传照片，生成个性化的虚拟形象，对形象的外观进行进一步的定制，例如调整发型、服装等。</li> <li>Voice Clone（语音克隆）：用户可以通过上传一段 10 秒的音频片段，克隆自己的声音。生成与用户声音相似的语音输出。</li> <li>Text To Speech（文本转语音）：用户可以输入文本内容，通过 AI 技术将其转换为自然流畅的语音输出。支持多语言（10+种语音）、多情感、40+种发音人可选</li> <li>Avatar Library（虚拟形象库）：平台提供虚拟形象库，用户可以从中选择预设的虚拟形象进行使用或进一步定制。</li> </ul> <h2 style="font-size: 20px;">如何使用JoyPix</h2> <ul> <li>访问平台： <a href="https://www.joypix.ai/?utm_source=medsci" target="_blank" rel="noopener">https://www.joypix.ai/</a></li> </ul>

magi-1

国产 Magi-1，在物理真实性上，断层第一，能够无限制生成长视频。它采用的是一种叫做 chunk-by-chunk 的自回归生成方法。视频被划分为一个个时间片段（chunk），每段比如 24 帧，相当于 1 秒的视频。每生成一段，才会进入下一段。下一段的内容，要基于上一段的内容来生成。Magi-1 的结构不是从 Diffusion Transformer 拿过来直接用，而是在 attention、FFN、条件编码、位置编码上都做了大量改进。它让视频生成这件事，从“像画图一样生成结果”，变成了“像连续剧一样，一集一集生成”。

SkyReels

skyreels-极速短视频制作软件,智能AI技术,文字转短视频,一键生成小说推文视频,逼真视频.自媒体及个人可以高效快速智能的制作生动有趣的短视频作品，号称能连续生成长视频。昆仑万维SkyReels团队正式发布并开源SkyReels-V2——全球首个使用扩散强迫（Diffusion-forcing）框架的无限时长电影生成模型，其通过结合多模态大语言模型（MLLM）、多阶段预训练（Multi-stage Pretraining）、强化学习（Reinforcement Learning）和扩散强迫（Diffusion-forcing）框架来实现协同优化。SkyReels-V2现已支持生成30秒、40秒的视频，且具备生成高运动质量、高一致性、高保真视频的能力。

Qwen2.5-Omni

通义千问Qwen2.5-Omni，仅靠一个一体式模型，就能搞定文本、音频、图像、视频全模态，并实时生成文本和自然语音。堪称7B模型的全能冠军。

Vidyard - Video Tools for Virtual Sales and Marketing Teams

Increase leads, accelerate pipeline, and delight customers with Vidyard.

分类导航

OmniHuman– 字节推出的数字人动画生成模型

OmniHuman-1.5的主要功能

OmniHuman-1.5的技术原理

OmniHuman-1.5的项目地址

APOE ε4 等位基因：刚果民主共和国老年人认知衰退和神经退行性变的关键驱动因素

APOE4 加剧老年人认知衰退与血液生物标志物关联：基于双种族 20 年队列研究的见解

雷帕霉素立新功：预防APOE4携带者的阿尔茨海默病，能恢复脑代谢和血管健康

高血压或心肌梗死老年患者的饮食模式与颅内动脉粥样硬化风险：基于证据的综述

HUNT研究中痴呆风险指数的比较表现：对CogDrisk、LIBRA、CAIDE等的见解

妊娠高血压与升高的p-tau217：中年女性阿尔茨海默病风险的中期指标

Obicetrapib在心血管疾病患者中调节阿尔茨海默病生物标志物的作用：一项里程碑式临床研究

推进转移性非小细胞肺癌的一线治疗：雷替范利单抗联合化疗的前景

益生菌与认知健康：系统评价和荟萃分析的证据评估

阴道激光治疗压力性尿失禁：通过简化版Cochrane系统评价评估疗效和安全性

急性心肌梗死中低剂量秋水仙碱的应用：更新的荟萃分析洞见

优化护士主导的戒烟干预：系统评价和网络荟萃分析的见解

Brexpiprazole在阿尔茨海默病相关激越中的应用：适度获益与安全不确定性

优化抗胸腺细胞免疫球蛋白剂量以保留新发1型糖尿病患者的β细胞功能：来自MELD-ATG试验的见解

通过社区医院以患者为中心的护士和患者教育提高静脉血栓栓塞预防

评估择期腹壁疝修补术后感染导致网片移除的长期风险

右美托咪定用于非气管插管肋骨骨折患者的镇痛：随机临床试验分析

解读早发性癌症的上升：对初级保健和筛查策略的影响

持续使用绿色清洁产品与哮喘风险增加相关：对临床实践的影响

在非小细胞肺癌一线西米普利单抗治疗中PD-L1免疫组化检测的互换性：证明临床等效性