关键词 "长视频" 的搜索结果, 共 9 条, 只显示前 480 条
skyreels-极速短视频制作软件,智能AI技术,文字转短视频,一键生成小说推文视频,逼真视频.自媒体及个人可以高效快速智能的制作生动有趣的短视频作品,号称能连续生成长视频。 昆仑万维SkyReels团队正式发布并开源SkyReels-V2——全球首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型,其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-
国产 Magi-1,在物理真实性上,断层第一,能够无限制生成长视频。 它采用的是一种叫做 chunk-by-chunk 的自回归生成 方法。视频被划分为一个个时间片段(chunk),每段比如 24 帧,相当于 1 秒的视频。 每生成一段,才会进入下一段。下一段的内容,要基于上一段的内容来生成。Magi-1 的结构不是从 Diffusion Transformer 拿过来直接用,而是在 atten
sand.ai是清华大学曹越教授团队创立的视频生成AI平台,目前刚刚开源了全球首个自回归扩散视频生成模型 Magi-1 ,生成长视频效果在行业领先。 马尔奖、清华特奖得主曹越的创业公司 Sand AI 推出了自己的视频生成大模型 ——MAGI-1,该模型权重和代码完全开源,支持无限生成,能将生成时长精确控制到每一秒,在基准测试中更是吊打 Sora,领先了 5 倍。
昆仑万维正式开源(17B+)Matrix-Game大模型,即Matrix-Zero世界模型中的可交互视频生成大模型。Matrix-Game是Matrix系列在交互式世界生成方向的正式落地,也是工业界首个开源的10B+空间智能大模型,它是一个面向游戏世界建模的交互式世界基础模型,专为开放式环境中的高质量生成与精确控制而设计。 空间智能作为AI时代的重要前沿技术,正在重塑我们与虚拟世界的
VACE(Video Creation and Editing)是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视频任务(如参考视频生成、视频到视频编辑、遮罩编辑等)到一个统一模型中,实现高效的内容创作和编辑功能。VACE的核心在于Video Condition Unit(VCU),将文本、图像、视频和遮罩等多种模态输入整合为统一的条件单元,支持多种任务的灵活组合。开源的 Wan2
ViLAMP(VIdeo-LAnguage Model with Mixed Precision)是蚂蚁集团和中国人民大学联合推出的视觉语言模型,专门用在高效处理长视频内容。基于混合精度策略,对视频中的关键帧保持高精度分析,显著降低计算成本提高处理效率。ViLAMP在多个视频理解基准测试中表现出色,在长视频理解任务中,展现出显著优势。ViLAMP能在单张A100 GPU上处理长达1万帧(约3小时)
mPLUG-Owl3是阿里巴巴推出的通用多模态AI模型,专为理解和处理多图及长视频设计。在保持准确性的同时,显著提升了推理效率,能在4秒内分析完2小时电影。模型采用创新的Hyper Attention模块,优化视觉与语言信息的融合,支持多图场景和长视频理解。mPLUG-Owl3在多个基准测试中达到行业领先水平,其论文、代码和资源已开源,供研究和应用。 mPLUG-Owl3的主要功能 多
NVILA是NVIDIA推出的系列视觉语言模型,能平衡效率和准确性。模型用“先扩展后压缩”策略,有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化,减少资源消耗,在多项图像和视频基准测试中达到或超越当前领先模型的准确性,包括Qwen2VL、InternVL和Pixtral在内的多种顶尖开源模型,及GPT-4o和Gemini等专有模型。NVILA引入时间定位、机器人导航和医学成像等
Hedra是由原斯坦福大学的研究团队成立的数字创作实验室推出的AI对口型视频生成工具,专注于将人工智能技术应用于人物角色视频的生成。用户可以上传任意人物的照片和语音,Hedra会根据这些输入生成动态视频,其中人物的唇形、表情和姿态都能与语音内容完美同步。Hedra支持文本和图片生成视频,目前在免费公测中,提供无限时长的视频生成能力,单个视频最长可达30秒(开放预览版),并且每60秒的输入可以生成9
只显示前20页数据,更多请搜索