关键词 "http" 的搜索结果, 共 24 条, 只显示前 480 条
通过 AI 自动分析视频内容并生成文字转录,其中语义化搜索功能颇有用,支持自然语言描述快速找到想要的视频片段。 GitHub:http://github.com/roothch/PreenCut… 主要功能: - 基于 WhisperX 的自动语音识别,生成准确的视频转录 - AI 智能分析,自动分段并总结每段内容要点 - 自然语言查询,用描述性文字快速找到目标片段 - 智能剪辑导出,可选择单个
LilyFM是创新的AI应用,能将网页文章转化为播客。应用基于先进的AI技术,将用户待读的文章内容转化为生动的音频,提供深度分析和提炼关键要点,帮助用户更高效地获取知识。LilyFM逼真的AI语音支持多种语言,提供自然、富有表现力的朗读体验。用户基于Share Extension一键保存文章到播放队列,随时随地在通勤、健身或休息时收听。LilyFM让稍后阅读转变为稍后收听,让知识获取更加便捷和轻松
HiAgent 是字节跳动推出的面向企业级客户的人工智能应用开发平台。帮助企业快速开发大模型应用和智能体(Agent),满足企业对数据安全和隐私的要求。通过低代码开发工具,HiAgent 降低了开发门槛,非技术背景的业务人员也能轻松上手,快速构建和部署 AI 应用。HiAgent 提供了丰富的行业模板和私有化部署选项,能满足不同企业的个性化需求。支持与企业现有系统的深度集成,帮助企业实现复杂流程的
ChatPs 是创新的 Photoshop 插件,通过自然语言交互简化图像编辑流程。无需掌握复杂的 Photoshop 操作技巧或快捷键,只需用日常语言下达指令,ChatPs 可精准识别执行任务,例如选中图层、翻译文本、抠图、调整图像等。针对设计场景进行了专门训练,能满足从新手到资深设计师的多元需求,大幅减少重复性操作,提升设计效率。ChatPs 覆盖了 Photoshop 的核心功能,结合 AI
LLIA(Low-Latency Interactive Avatars)是美团公司推出的基于扩散模型的实时音频驱动肖像视频生成框架。框架基于音频输入驱动虚拟形象的生成,支持实现低延迟、高保真度的实时交互。LLIA用可变长度视频生成技术,减少初始视频生成的延迟,结合一致性模型训练策略和模型量化技术,显著提升推理速度。LLIA支持用类别标签控制虚拟形象的状态(如说话、倾听、空闲)及面部表情的精细控制
专注于字幕相关功能的视频播放器,例如双字幕、AI 生成字幕、实时翻译、单词查找等! LLPlayer 具有许多普通视频播放器所不具备的语言学习功能。 双字幕:可同时显示两个字幕。支持文本字幕和位图字幕。 AI 生成的字幕(ASR):由OpenAI Whisper提供支持,从任何视频和音频实时自动生成字幕。支持whisper.cpp和fastest-whisper两个引擎。 实时翻译:支
MAGREF(Masked Guidance for Any‑Reference Video Generation)是字节跳动推出的多主体视频生成框架。MAGREF仅需一张参考图像和文本提示,能生成高质量、主体一致的视频,支持单人、多人及人物与物体、背景的复杂交互场景。基于区域感知动态掩码和像素级通道拼接机制,MAGREF能精准复刻身份特征,保持视频中人物、物体和背景的协调性与一致性,适用内容创作
Seaweed APT2是字节跳动推出的创新的AI视频生成模型,通过自回归对抗后训练(AAPT)技术,将双向扩散模型转化为单向自回归生成器,实现高效、高质量的视频生成。模型能在单次网络前向评估(1NFE)中生成包含多帧视频的潜空间帧,显著降低了计算复杂性,通过输入回收机制和键值缓存(KV Cache)技术,支持长时间视频生成,解决了传统模型在长视频生成中常见的动作漂移和物体变形问题。能在单块GPU
Code Researcher是微软研究院推出的深度研究Agent工具,专门用于处理大型系统代码库及其提交历史,自动化修复系统代码崩溃问题。通过三个阶段工作:分析(Analysis)、合成(Synthesis)和验证(Validation)。在分析阶段,Code Researcher基于多步推理策略,结合代码语义、模式和提交历史信息,收集上下文并存储在结构化内存中。合成阶段基于收集到的上下文生成修
Hailuo 02 是 MiniMax 公司推出的全新AI视频生成模型,是Hailuo 01的升级版本。这个模型目前在图生视频、文生视频的榜单位于第二,超越快手的可灵以及谷歌的Veo3,仅次于字节上周刚刚发布Seedance 1.0 。Hailuo 02在多个方面进行了技术创新,包括底层架构的全面重构,训练和推理效率均提升了2.5倍。Hailuo 02 在复杂指令响应率上达到了85%,显著高于竞品
Kimi-Dev是Moonshot AI推出的开源代码模型,专为软件工程任务设计。模型拥有 72B 参数量,编程水平比最新的DeepSeek-R1还强,和闭源模型比较也表现优异。在 SWE-bench Verified数据集上达到60.4%的性能,超越其他开源模型,成为当前开源模型中的SOTA。Kimi-Dev 基于强化学习和自我博弈机制,能高效修复代码错误、编写测试代码。模型基于MIT协议开源,
FloweAI是通用型AI Agent,支持基于自然语言指令高效完成各类任务。FloweAI能快速制作PPT、撰写文档、发送邮件、进行深度研究并生成专业报告。FloweAI界面简洁,支持多任务并行处理,具备强大的智能自动化能力,适用学生、职场人士和企业用户。FloweAI能处理日常任务,应对复杂工作流程,基于持续更新和功能扩展,成为用户日常工作和学习中的得力助手。 FloweAI的主要功能
MiniMax-M1是MiniMax团队最新推出的开源推理模型,基于混合专家架构(MoE)与闪电注意力机制(lightning attention)相结合,总参数量达 4560 亿,每个token激活 459 亿参数。模型超过国内的闭源模型,接近海外的最领先模型,具有业内最高的性价比。MiniMax-M1原生支持 100 万token的上下文长度,提供40 和80K两种推理预算版本,适合处理长输入
ThinkChain是开源框架,提升AI工具的智能交互能力。框架将工具的执行结果实时反馈到AI(如 Claude)的思考过程中,形成动态的反馈循环,让AI能调用工具,根据工具结果进行推理和决策。ThinkChain支持自动工具发现、MCP服务器扩展及增强的 CLI 界面,支持开发者用简单的Python文件扩展功能,实现从天气查询到数据库操作等多种应用。框架基于MIT许可证,鼓励开发者fork和扩展
LeVo是腾讯AI实验室推出的AI唱歌模型,具备强大的音色克隆能力,仅需3秒音频即可精准复制目标音色,包括音调、情感和韵律,无需大量训练数据。LeVo支持分轨生成,可分别生成人声和伴奏音轨,为后期编辑提供便利。技术架构基于语言模型(LM),结合LeLM和音乐编解码器,能并行生成音轨,音质表现接近行业领先水平,在歌词对齐能力上表现卓越。 LeVo的项目地址 项目官网: https://lev
MoonBit 是粤港澳大湾区数字经济研究院(IDEA 研究院)基础软件中心推出的AI云原生开发平台,主要面向云和边缘计算场景。以 WebAssembly 为运行平台,支持函数式、面向对象、并行等多种编程范式,语法简洁且类似 Rust 和 Go,具备强类型系统和类型推断功能。MoonBit 的最大特点是编译速度快、运行性能高,原生后端在数值计算领域比 Java 快 15 倍,输出体积也远小于传统语
EmbodiedGen 是用于具身智能(Embodied AI)应用的生成式 3D 世界引擎和工具包。能快速生成高质量、低成本且物理属性合理的 3D 资产和交互环境,帮助研究人员和开发者构建具身智能体的测试环境。EmbodiedGen 包含多个模块,如从图像或文本生成 3D 模型、纹理生成、关节物体生成、场景和布局生成等,支持从简单物体到复杂场景的创建。生成的 3D 资产可以直接用于机器人仿真和
VFX8 是一站式 AI 制片工场,基于人工智能技术赋能影视制作全流程。用户只需输入一个创意想法,VFX8 能提供从前期策划、分镜头脚本生成、角色设计到视频生成的全流程服务。具备智能分镜制作功能,能批量生成电影级分镜头脚本,确保角色形象的一致性;支持全风格的影视角色设计,满足不同风格需求。VFX8 配备长篇剧集视觉资产管理系统,帮助创作者高效管理剧集的视觉元素,确保风格统一。 VFX8的主要功能
PageAI 是专为专业人士设计的 AI 网站生成器,能将简单的文字描述快速转化为功能完备、设计精美的网站。用户无需编写代码,只需输入需求描述,PageAI 可通过强大的 AI 模型,自动完成从规划、设计到编码的全过程,生成响应式、SEO 优化的网站代码,支持一键部署。提供丰富的定制选项,如主题、字体和布局调整,内置了博客系统、网站地图、RSS 订阅、暗色模式等多种实用功能,满足不同用户的需求。P
Bubble 是领先的无代码应用开发平台,通过可视化编程的方式,让用户无需编写代码即可构建和发布功能齐全的 Web 应用程序。用户可以通过拖拽元素(如文本、按钮、表格等)来设计应用界面,构建数据库以及建立响应用户操作的工作流。Bubble 提供强大的数据库功能、实时预览、丰富的插件生态系统以及 AI 集成等特色功能,支持多种设备,能快速实现创意并发布应用。 Bubble的官网地址 官网地址
Solar 是基于人工智能的应用开发平台,帮助企业快速构建全栈应用程序、自动化工作流和智能体。用户可以通过自然语言描述需求,Solar 会自动生成完整的应用程序,包括 Python 后端、Postgres 数据库和 React 前端。支持数据可视化、机器学习和计算机视觉等强大功能,提供基于角色的访问控制(RBAC)和自带云部署(BYOC)等安全与灵活性选项。提供团队协作功能和无限画布界面,方便用户
DeepPiano 是智曲科技推出的以大模型为内核的钢琴智能应用。通过先进的人工智能技术,为钢琴演奏者和学习者提供多种便捷功能。DeepPiano 能实现智能乐谱翻页,自动识别演奏进度,无需手动操作,让演奏更加流畅。“AI 音频美颜”功能可快速优化录制的钢琴音频,去除噪音提升音质,达到专业水准。具备 AI 音乐创作能力,可根据用户即兴演奏生成五线谱,激发创作灵感。 DeepPiano的官网地址
MoFlow 是结合心理学与 AI 技术的情绪管理应用。基于书写、聊天等方式,帮助用户舒缓情绪,洞察情绪底层驱动因素,提升情绪调节能力。基于认知行为疗法(CBT),MoFlow 提供深度分析与个性化引导,让用户更好地理解自己。应用特色功能包括专属能量卡、渐入灵魂的洞察报告等。书写作为一种被科学验证的有效疗愈方法,具有改善精神健康、减少忧郁症状、增加主观幸福感等优点。MoFlow 基于端对端加密技术
RAG-Anything是香港大学数据智能实验室推出的开源多模态RAG系统。系统支持处理包含文本、图像、表格和公式的复杂文档,提供从文档摄取到智能查询的端到端解决方案。系统基于多模态知识图谱、灵活的解析架构和混合检索机制,显著提升复杂文档处理能力,支持多种文档格式,如PDF、Office文档、图像和文本文件等。RAG-Anything核心优势包括端到端多模态流水线、多格式文档支持、多模态内容分析引
只显示前20页数据,更多请搜索
Showing 241 to 264 of 325 results