文本生成交互式 3D 场景

小云雀

字节跳动旗下剪映团队近期推出了一款面向短视频创作者、电商营销人员以及普通用户的视频内容创作 Agent，名为「小云雀 AI」，主打“灵感即所得，创作零门槛”。「小云雀AI」已经接入豆包和DeepSeek，目前仅安卓可下载，iOS 预计 6 月发布。不同于传统 AI 工具仅提供一个通用输入框，「小云雀AI」先让用户明确选择场景（如智能成片、数字人视频、AI 设计、AI 换背景等），以此避免生成内

TrackVLA

银河通用发布全球首个产品级端到端具身 FSD 大模型 ——TrackVLA，一款具备纯视觉环境感知、语言指令驱动、可自主推理、具备零样本（Zero-Shot）泛化能力的具身大模型。 TrackVLA 是银河通用推出的产品级导航大模型，纯视觉环境感知、自然语言指令驱动、端到端输出语言和机器人动作，是一个由仿真合成动作数据训练的“视觉-语言-动作”（Vision-Language-Action, V

酷雀AI

酷雀AI智能抠图是高效便捷的AI图片处理工具。基于先进的AI技术，能快速精准地识别图片中的主体自动去除背景，实现精细化抠图。支持人像、物品或者复杂场景，保留细节如发丝等。具备证件照制作功能，可一键更换底色、调整尺寸，适配各类上传规则。能优化模糊图片，增强纹理细节，让图片更清晰；支持无损放大图片，保持清晰度。操作简单，无需专业技能，普通用户也能使用，满足日常多种图片处理需求。酷雀AI智能抠图的官

PandaWiki

PandaWiki 是开源的AI知识库搭建系统，基于 AI 大模型的能力，帮助用户快速构建智能化的产品文档、技术文档、FAQ 和博客系统。核心功能包括 AI 辅助创作、AI 问答和 AI 搜索，显著提升知识管理的效率和智能化水平。PandaWiki 提供强大的富文本编辑能力，支持 Markdown 和 HTML 编辑，可导出为 Word、PDF、Markdown 等多种格式。支持与第三方应用集成，

OpenAudio S1

OpenAudio S1是Fish Audio推出的文本转语音（TTS）模型，基于超过200万小时的音频数据训练，支持13种语言。采用双自回归（Dual-AR）架构和强化学习与人类反馈（RLHF）技术，生成的声音高度自然、流畅，几乎与人类配音无异。模型支持超过50种情感和语调标记，用户可通过自然语言指令灵活调整语音表达。OpenAudio S1支持零样本和少样本语音克隆，仅需10到30秒的音频样本

Qwen3 Reranker

Qwen3 Reranker是阿里巴巴通义千问团队发布的文本重排序模型，属于Qwen3模型家族。采用单塔交叉编码器架构，输入文本对后输出相关性得分。模型通过多阶段训练范式，基于高质量标注数据和大量合成训练对进行训练，支持超过100种语言，涵盖主流自然语言及多种编程语言。性能表现上，Qwen3 Reranker-8B在MTEB排行榜上取得了72.94的高分，Qwen3 Reranker-0.6B也已

SeedEdit

字节跳动 Seed 团队今天正式发布图像编辑模型 SeedEdit 3.0。该模型可处理并生成 4K 图像，在精细且自然地处理编辑区域的同时，还能高保真地维持其他信息。尤其针对图像编辑“哪里改与哪里不改”的取舍，该模型表现出更佳的理解力和权衡力，可用率相应提高。依靠 AI 完成指令式图像编辑的需求，广泛存在于视觉内容创意工作中。但此前，图像编辑模型在主体&背景保持、指令遵循等方面能

MindLink

灵语文档（MindLink）是AI驱动的云文档编辑平台，为企业提供一站式文档编辑和共享服务。平台具备多组态支持，包括思维导图、原型白板、可视化图表等功能，支持文档版本历史管理、智能创作、全平台访问、权限控制和AI智能助手等强大功能。基于AI + 多模态能力，灵语文档能显著提高团队协作效率，打破部门壁垒，增强信息共享，确保文档安全。灵语文档根据企业需求灵活定制，帮助企业高效管理知识资产，赋能数字化转

Playmate

Playmate是广州趣丸科技团队推出的人脸动画生成框架。框架基于3D隐式空间引导扩散模型，用双阶段训练框架，根据音频和指令精准控制人物的表情和头部姿态，生成高质量的动态肖像视频。Playmate基于运动解耦模块和情感控制模块，实现对生成视频的精细控制，显著提升视频质量和情感表达的灵活性。Playmate在音频驱动肖像动画领域取得重大进展，提供对情感和姿态的精细控制，能生成多种风格的动态肖像，具有

V-JEPA 2

Meta 又有新的动作，推出基于视频训练的世界模型 V-JEPA 2（全称 Video Joint Embedding Predictive Architecture 2）。其能够实现最先进的环境理解与预测能力，并在新环境中完成零样本规划与机器人控制。 Meta 表示，他们在追求高级机器智能（AMI）的目标过程中，关键在于开发出能像人类一样认知世界、规划陌生任务执行方案，并高效适应不断变化环境的

HistAgent

普林斯顿与复旦推出HistBench和HistAgent，首个人文AI评测基准普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench，并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白，更为复杂史料处理与多模态理解建立了系统工具框架。历史是关于时间中的人的

FilmAction

FilmAction是瀚皓科技团队推出的一站式AI电影创作平台。通过AI技术整合了从故事构思到视频生成的全流程，为创作者提供高效、便捷的创作体验。用户只需输入简短描述或创意概念，FilmAction能自动生成故事大纲、脚本、角色设定、分镜，支持配音和配乐，最终输出高清视频。提供丰富的角色库、场景模板以及多种艺术风格选择，满足不同用户的个性化需求。FilmAction支持4K高清输出和高帧率视频生成

星月写作

星月写作是专为中文内容创作者设计的AI写作助手，能根据用户输入的关键词、主题或大纲，快速生成高质量的文本内容。支持小说创作、公众号文章撰写，小红书文案、抖音脚本、学术论文工作报告等，星月写作能提供强大的支持。支持多种风格和语气，用户可以根据需求自由选择，比如正式、幽默或口语化。星月写作具备智能续写、润色、灵感激发等功能，帮助用户突破创作瓶颈，提升内容质量。提供丰富的素材库和智能工具集成，如词典查询

Hautech.AI

Hautech.AI 是基于AI技术生成逼真时尚模特照片的工具。Hautech.AI 支持将简单的平面产品图像快速转换为高质量的模特展示图，具有高度的定制化功能，用户根据需求选择模特的年龄、性别、外貌特征、姿势和背景等。Hautech.AI助力品牌节省传统拍摄的时间和成本，提升内容的多样性和吸引力，广泛应用在社交媒体、产品目录、广告制作等场景，帮助时尚品牌高效地生成视觉内容，增强市场竞争力。 H

表答

表答是AI智能数据分析和采集工具，让数据分析变得像对话一样简单。表答支持用自然语言驱动网页采集和表格类数据分析。用户只需上传表格用自然语言提问，AI 能自动解析生成可视化图表与深度洞见。表答支持多种数据分析模式，涵盖销售预测、用户行为分析、财务成本分析等场景，提供智能报告生成、数据质量检测和清洗建议等功能。工具支持多数据源连接，打破数据孤岛，具备企业级安全与私有化部署能力，确保数据安全与自主可控。

HiAgent

HiAgent 是字节跳动推出的面向企业级客户的人工智能应用开发平台。帮助企业快速开发大模型应用和智能体（Agent），满足企业对数据安全和隐私的要求。通过低代码开发工具，HiAgent 降低了开发门槛，非技术背景的业务人员也能轻松上手，快速构建和部署 AI 应用。HiAgent 提供了丰富的行业模板和私有化部署选项，能满足不同企业的个性化需求。支持与企业现有系统的深度集成，帮助企业实现复杂流程的

ChatPs

ChatPs 是创新的 Photoshop 插件，通过自然语言交互简化图像编辑流程。无需掌握复杂的 Photoshop 操作技巧或快捷键，只需用日常语言下达指令，ChatPs 可精准识别执行任务，例如选中图层、翻译文本、抠图、调整图像等。针对设计场景进行了专门训练，能满足从新手到资深设计师的多元需求，大幅减少重复性操作，提升设计效率。ChatPs 覆盖了 Photoshop 的核心功能，结合 AI

LLIA

LLIA（Low-Latency Interactive Avatars）是美团公司推出的基于扩散模型的实时音频驱动肖像视频生成框架。框架基于音频输入驱动虚拟形象的生成，支持实现低延迟、高保真度的实时交互。LLIA用可变长度视频生成技术，减少初始视频生成的延迟，结合一致性模型训练策略和模型量化技术，显著提升推理速度。LLIA支持用类别标签控制虚拟形象的状态（如说话、倾听、空闲）及面部表情的精细控制

MAGREF

MAGREF（Masked Guidance for Any‑Reference Video Generation）是字节跳动推出的多主体视频生成框架。MAGREF仅需一张参考图像和文本提示，能生成高质量、主体一致的视频，支持单人、多人及人物与物体、背景的复杂交互场景。基于区域感知动态掩码和像素级通道拼接机制，MAGREF能精准复刻身份特征，保持视频中人物、物体和背景的协调性与一致性，适用内容创作

Seaweed APT2

Seaweed APT2是字节跳动推出的创新的AI视频生成模型，通过自回归对抗后训练（AAPT）技术，将双向扩散模型转化为单向自回归生成器，实现高效、高质量的视频生成。模型能在单次网络前向评估（1NFE）中生成包含多帧视频的潜空间帧，显著降低了计算复杂性，通过输入回收机制和键值缓存（KV Cache）技术，支持长时间视频生成，解决了传统模型在长视频生成中常见的动作漂移和物体变形问题。能在单块GPU

海螺AI Hailuo

Hailuo 02 是 MiniMax 公司推出的全新AI视频生成模型，是Hailuo 01的升级版本。这个模型目前在图生视频、文生视频的榜单位于第二，超越快手的可灵以及谷歌的Veo3，仅次于字节上周刚刚发布Seedance 1.0 。Hailuo 02在多个方面进行了技术创新，包括底层架构的全面重构，训练和推理效率均提升了2.5倍。Hailuo 02 在复杂指令响应率上达到了85%，显著高于竞品

MiniMax-M1

MiniMax-M1是MiniMax团队最新推出的开源推理模型，基于混合专家架构（MoE）与闪电注意力机制（lightning attention）相结合，总参数量达 4560 亿，每个token激活 459 亿参数。模型超过国内的闭源模型，接近海外的最领先模型，具有业内最高的性价比。MiniMax-M1原生支持 100 万token的上下文长度，提供40 和80K两种推理预算版本，适合处理长输入

MoonBit

MoonBit 是粤港澳大湾区数字经济研究院（IDEA 研究院）基础软件中心推出的AI云原生开发平台，主要面向云和边缘计算场景。以 WebAssembly 为运行平台，支持函数式、面向对象、并行等多种编程范式，语法简洁且类似 Rust 和 Go，具备强类型系统和类型推断功能。MoonBit 的最大特点是编译速度快、运行性能高，原生后端在数值计算领域比 Java 快 15 倍，输出体积也远小于传统语

EmbodiedGen

EmbodiedGen 是用于具身智能（Embodied AI）应用的生成式 3D 世界引擎和工具包。能快速生成高质量、低成本且物理属性合理的 3D 资产和交互环境，帮助研究人员和开发者构建具身智能体的测试环境。EmbodiedGen 包含多个模块，如从图像或文本生成 3D 模型、纹理生成、关节物体生成、场景和布局生成等，支持从简单物体到复杂场景的创建。生成的 3D 资产可以直接用于机器人仿真和

搜索结果

小云雀