关键词 "HTTP requests" 的搜索结果, 共 24 条, 只显示前 480 条
字节跳动 Seed 团队今天正式发布图像编辑模型 SeedEdit 3.0。 该模型可处理并生成 4K 图像,在精细且自然地处理编辑区域的同时,还能高保真地维持其他信息。尤其针对图像编辑“哪里改与哪里不改”的取舍,该模型表现出更佳的理解力和权衡力,可用率相应提高。 依靠 AI 完成指令式图像编辑的需求,广泛存在于视觉内容创意工作中。但此前,图像编辑模型在主体&背景保持、指令遵循等方面能
BiliNote 是一个开源的 AI 视频笔记助手,支持通过哔哩哔哩、YouTube、抖音等视频链接,自动提取内容并生成结构清晰、重点明确的 Markdown 格式笔记。支持插入截图、原片跳转等功能。 Windows 打包版 本项目提供了 Windows 系统的 exe 文件,可在release进行下载。注意一定要在没有中文路径的环境下运行。 🔧 功能特性 支持多平台:
SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,模型小巧,可在CPU上运行,单个消费级GPU即可训练,能在MacBook上部署。SmolVLA 完全基于开源数据集训练,数据集标签为“lerobot”。 SmolVLA的主要功能 多模态输入处理:SmolVLA 能处理多种输入,包括多幅图像、语言指令以及
灵语文档(MindLink)是AI驱动的云文档编辑平台,为企业提供一站式文档编辑和共享服务。平台具备多组态支持,包括思维导图、原型白板、可视化图表等功能,支持文档版本历史管理、智能创作、全平台访问、权限控制和AI智能助手等强大功能。基于AI + 多模态能力,灵语文档能显著提高团队协作效率,打破部门壁垒,增强信息共享,确保文档安全。灵语文档根据企业需求灵活定制,帮助企业高效管理知识资产,赋能数字化转
用 AI IDE 一键生成、部署和托管你的全栈 Web 应用与小程序,数据库和后端服务全自动,无需配置、无需运维,极速上线你的创意。 🪐 Instantly build, deploy, and host your full-stack web apps and mini-programs with your AI IDE—database and backend handled for you,
Playmate是广州趣丸科技团队推出的人脸动画生成框架。框架基于3D隐式空间引导扩散模型,用双阶段训练框架,根据音频和指令精准控制人物的表情和头部姿态,生成高质量的动态肖像视频。Playmate基于运动解耦模块和情感控制模块,实现对生成视频的精细控制,显著提升视频质量和情感表达的灵活性。Playmate在音频驱动肖像动画领域取得重大进展,提供对情感和姿态的精细控制,能生成多种风格的动态肖像,具有
Teamo是夕小瑶团队推出的创新的多Agent协作AI生产力平台。通过模拟真实团队协作,由CEO Agent指挥多个专业Agent(如搜索员、咨询顾问、写作员等)协同工作,高效完成复杂任务。核心功能是“超级搜写”,能快速理解用户需求,深度调研信息,生成高质量的文稿。Teamo采用Agent2Agent(A2A)协作模式,可自主调度全球AI模型,通过并行工作和协同竞争,打破传统AI的局限。适用于科研
普林斯顿与复旦推出HistBench和HistAgent,首个人文AI评测基准 普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench,并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白,更为复杂史料处理与多模态理解建立了系统工具框架。 历史是关于时间中的人的
PromptPilot是字节跳动旗下火山引擎推出的面向大模型的智能解决方案平台。通过深度解析用户意图,将模糊的想法转化为AI能精准执行的专业指令,确保模型稳定输出高质量结果。PromptPilot的互动式引导,帮助用户明确需求;定义理想答案,通过用户反馈优化模型表现;闭环迭代优化,将问题案例转化为数据资产,持续提升Prompt效果。支持多轮对话优化、多模态理解与规划、复杂工具调用优化,通过SDK调
通过 AI 自动分析视频内容并生成文字转录,其中语义化搜索功能颇有用,支持自然语言描述快速找到想要的视频片段。 GitHub:http://github.com/roothch/PreenCut… 主要功能: - 基于 WhisperX 的自动语音识别,生成准确的视频转录 - AI 智能分析,自动分段并总结每段内容要点 - 自然语言查询,用描述性文字快速找到目标片段 - 智能剪辑导出,可选择单个
LilyFM是创新的AI应用,能将网页文章转化为播客。应用基于先进的AI技术,将用户待读的文章内容转化为生动的音频,提供深度分析和提炼关键要点,帮助用户更高效地获取知识。LilyFM逼真的AI语音支持多种语言,提供自然、富有表现力的朗读体验。用户基于Share Extension一键保存文章到播放队列,随时随地在通勤、健身或休息时收听。LilyFM让稍后阅读转变为稍后收听,让知识获取更加便捷和轻松
HiAgent 是字节跳动推出的面向企业级客户的人工智能应用开发平台。帮助企业快速开发大模型应用和智能体(Agent),满足企业对数据安全和隐私的要求。通过低代码开发工具,HiAgent 降低了开发门槛,非技术背景的业务人员也能轻松上手,快速构建和部署 AI 应用。HiAgent 提供了丰富的行业模板和私有化部署选项,能满足不同企业的个性化需求。支持与企业现有系统的深度集成,帮助企业实现复杂流程的
ChatPs 是创新的 Photoshop 插件,通过自然语言交互简化图像编辑流程。无需掌握复杂的 Photoshop 操作技巧或快捷键,只需用日常语言下达指令,ChatPs 可精准识别执行任务,例如选中图层、翻译文本、抠图、调整图像等。针对设计场景进行了专门训练,能满足从新手到资深设计师的多元需求,大幅减少重复性操作,提升设计效率。ChatPs 覆盖了 Photoshop 的核心功能,结合 AI
LLIA(Low-Latency Interactive Avatars)是美团公司推出的基于扩散模型的实时音频驱动肖像视频生成框架。框架基于音频输入驱动虚拟形象的生成,支持实现低延迟、高保真度的实时交互。LLIA用可变长度视频生成技术,减少初始视频生成的延迟,结合一致性模型训练策略和模型量化技术,显著提升推理速度。LLIA支持用类别标签控制虚拟形象的状态(如说话、倾听、空闲)及面部表情的精细控制
专注于字幕相关功能的视频播放器,例如双字幕、AI 生成字幕、实时翻译、单词查找等! LLPlayer 具有许多普通视频播放器所不具备的语言学习功能。 双字幕:可同时显示两个字幕。支持文本字幕和位图字幕。 AI 生成的字幕(ASR):由OpenAI Whisper提供支持,从任何视频和音频实时自动生成字幕。支持whisper.cpp和fastest-whisper两个引擎。 实时翻译:支
MAGREF(Masked Guidance for Any‑Reference Video Generation)是字节跳动推出的多主体视频生成框架。MAGREF仅需一张参考图像和文本提示,能生成高质量、主体一致的视频,支持单人、多人及人物与物体、背景的复杂交互场景。基于区域感知动态掩码和像素级通道拼接机制,MAGREF能精准复刻身份特征,保持视频中人物、物体和背景的协调性与一致性,适用内容创作
Seaweed APT2是字节跳动推出的创新的AI视频生成模型,通过自回归对抗后训练(AAPT)技术,将双向扩散模型转化为单向自回归生成器,实现高效、高质量的视频生成。模型能在单次网络前向评估(1NFE)中生成包含多帧视频的潜空间帧,显著降低了计算复杂性,通过输入回收机制和键值缓存(KV Cache)技术,支持长时间视频生成,解决了传统模型在长视频生成中常见的动作漂移和物体变形问题。能在单块GPU
Code Researcher是微软研究院推出的深度研究Agent工具,专门用于处理大型系统代码库及其提交历史,自动化修复系统代码崩溃问题。通过三个阶段工作:分析(Analysis)、合成(Synthesis)和验证(Validation)。在分析阶段,Code Researcher基于多步推理策略,结合代码语义、模式和提交历史信息,收集上下文并存储在结构化内存中。合成阶段基于收集到的上下文生成修
Hailuo 02 是 MiniMax 公司推出的全新AI视频生成模型,是Hailuo 01的升级版本。这个模型目前在图生视频、文生视频的榜单位于第二,超越快手的可灵以及谷歌的Veo3,仅次于字节上周刚刚发布Seedance 1.0 。Hailuo 02在多个方面进行了技术创新,包括底层架构的全面重构,训练和推理效率均提升了2.5倍。Hailuo 02 在复杂指令响应率上达到了85%,显著高于竞品
Kimi-Dev是Moonshot AI推出的开源代码模型,专为软件工程任务设计。模型拥有 72B 参数量,编程水平比最新的DeepSeek-R1还强,和闭源模型比较也表现优异。在 SWE-bench Verified数据集上达到60.4%的性能,超越其他开源模型,成为当前开源模型中的SOTA。Kimi-Dev 基于强化学习和自我博弈机制,能高效修复代码错误、编写测试代码。模型基于MIT协议开源,
FloweAI是通用型AI Agent,支持基于自然语言指令高效完成各类任务。FloweAI能快速制作PPT、撰写文档、发送邮件、进行深度研究并生成专业报告。FloweAI界面简洁,支持多任务并行处理,具备强大的智能自动化能力,适用学生、职场人士和企业用户。FloweAI能处理日常任务,应对复杂工作流程,基于持续更新和功能扩展,成为用户日常工作和学习中的得力助手。 FloweAI的主要功能
MiniMax-M1是MiniMax团队最新推出的开源推理模型,基于混合专家架构(MoE)与闪电注意力机制(lightning attention)相结合,总参数量达 4560 亿,每个token激活 459 亿参数。模型超过国内的闭源模型,接近海外的最领先模型,具有业内最高的性价比。MiniMax-M1原生支持 100 万token的上下文长度,提供40 和80K两种推理预算版本,适合处理长输入
ThinkChain是开源框架,提升AI工具的智能交互能力。框架将工具的执行结果实时反馈到AI(如 Claude)的思考过程中,形成动态的反馈循环,让AI能调用工具,根据工具结果进行推理和决策。ThinkChain支持自动工具发现、MCP服务器扩展及增强的 CLI 界面,支持开发者用简单的Python文件扩展功能,实现从天气查询到数据库操作等多种应用。框架基于MIT许可证,鼓励开发者fork和扩展
LeVo是腾讯AI实验室推出的AI唱歌模型,具备强大的音色克隆能力,仅需3秒音频即可精准复制目标音色,包括音调、情感和韵律,无需大量训练数据。LeVo支持分轨生成,可分别生成人声和伴奏音轨,为后期编辑提供便利。技术架构基于语言模型(LM),结合LeLM和音乐编解码器,能并行生成音轨,音质表现接近行业领先水平,在歌词对齐能力上表现卓越。 LeVo的项目地址 项目官网: https://lev
只显示前20页数据,更多请搜索
Showing 289 to 312 of 486 results