关键词 "开源" 的搜索结果, 共 24 条, 只显示前 480 条
在本研究中,我们推出了 MiMo-7B 系列模型,这一系列模型从零开始训练,专为推理任务而生。我们基于 MiMo-7B-Base 进行的强化学习实验表明,我们的模型拥有非凡的推理潜力,甚至超越了规模更大的 32B 模型。此外,我们还对冷启动的 SFT 模型进行了强化学习训练,最终形成了 MiMo-7B-RL,它在数学和代码推理任务上均表现出色,性能堪比 OpenAI o1-mini。 我们开
我们在 Lean 4 中引入了 DeepSeek-Prover-V2,这是一个专为形式化定理证明而设计的开源大型语言模型,其初始化数据通过 DeepSeek-V3 驱动的递归定理证明流程收集。冷启动训练过程首先促使 DeepSeek-V3 将复杂问题分解为一系列子目标。已解决子目标的证明被合成为一个思路链,并结合 DeepSeek-V3 的逐步推理,为强化学习创建初始冷启动。这一过程使我们能够将非
专注于您的对话,同时 Meetily 的 AI 会自动捕获、转录和总结您的会议记录。100% 开源、自托管和隐私优先 - Granola 和 Otter AI 的完美替代品。适用于 Google Meet、Zoom 和 Teams 只需单击一下即可捕获现场会议音频 人们说话时的实时转录 人工智能生成的摘要和行动项目 100%开源,完全透明 自托管以实现完全数据控制 100% 私
它是开源了从FreeSWITCH模块,语音合成,语音识别,到java版的电话工具条等,完整的源码都提供了。 项目采用Apache2.0用户协议。 主要功能如下: 1. 支持对接大模型 2. 支持实时流式语音合成 3. 支持acd话务排队 4. 支持AI通话无缝转接人工坐席 5. 支持电话工具条 6. 支持IMS视频通话/语音通话转视频 7. 支
空间语音翻译:利用双耳可听设备进行跨空间翻译 🗣️ 空间语音翻译 CHI 2025 论文“空间语音翻译:利用双耳可听设备进行跨空间翻译”的官方仓库 Youtube 视频演示: 💡 功能 我们首先实现多说话人和干扰条件下的语音翻译。 我们的同步和富有表现力的语音翻译模型可以在 Apple 芯片上实时运行。 首先,语音翻译的双耳渲染可以保留从输入到翻译输出的空间提示。 📑 开源
一个桌宠形式的mcp client,可以对接任意mcp server,配合测试的mcp server 开源地址:
一款帮助云租户发现和测试云上风险、增强云上防护能力的综合性开源工具
ACE-Step,这是一个用于音乐生成的全新开源基础模型,它克服了现有方法的关键局限性,并通过整体架构设计实现了最佳性能。当前的方法在生成速度、音乐连贯性和可控性之间面临着固有的权衡。例如,基于 LLM 的模型(例如 Yue、SongGen)在歌词对齐方面表现出色,但推理速度慢且存在结构性伪影。另一方面,扩散模型(例如 DiffRhythm)虽然能够实现更快的合成速度,但通常缺乏长距离的结构连贯性
v0 / lovable / Bolt 的开源平替方案! Dyad 是一款免费开源的本地化 AI 应用开发工具,兼容 Windows 和 Mac 双平台。支持使用自有 API 密钥灵活调用主流 AI 模型(包括 Gemini、GPT-4.1、Claude 等),内置数据库与身份验证系统可快速构建完整应用。 在 Dyad 中完全启动您的全栈应用程序 Dyad 的Supabase 集成(包括
一款开源的实时AI语音聊天助手:RealtimeVoiceChat,语音听起来相对自然,支持打断 双向语音交互,延迟低,可以实时看到语音转录,以及AI的回复内容 用来构建客服、教育或陪伴等等场景的AI语音助手比较实用 为低延迟交互而构建的复杂客户端-服务器系统: 🎙️捕获:您的声音被您的浏览器捕获。 ➡️流:音频块通过 WebSockets 传输到 Python 后端。 ✍️转
阿里巴巴昨日在 Github 等平台开源了 ZeroSearch 大模型搜索引擎。这是一种无需与真实搜索引擎交互即可激励大模型搜索能力的强化学习框架。 ZeroSearch 主要利用了大模型在大规模预训练过程中积累的丰富知识,将其转化为一个检索模块,能够根据搜索查询生成相关内容。同时,还可以动态控制生成内容的质量,这是传统搜索引擎所不具备的特殊功能。 研究人员在 NQ、TriviaQA、Pop
字节把他的基于节点的流程构建引擎开源了:http://flowgram.ai ! 支持固定布局和自由布局模式,提供了一套交互最佳实践,特别适合需要明确输入和输出的可视化工作流 flowgram会用AI技术来增强你的工作流程,比如,它可以帮你自动完成一些重复的任务,或者根据你的需求自动调整流程 支持扩展,你可以根据需求添加新的节点功能,也就是说可以把它应用到比如自动化办公、数据分析
字节开源了:DeerFlow,基于LangChain和LangGraph框架的一款智能研究助手 支持动态任务迭代、MCP无缝集成、自动生成研究计划、人机协作,甚至是播客、PPT生成 它把语言模型与网络搜索、爬虫和Python代码执行等工具结合在一起,以快速提供深入且全面的报告
RWKV开源发布了 RWKV7-G1 1.5B 推理模型(Reasoning Model)。模型基于 World v3.5 数据集训练,包含更多小说、网页、数学、代码和 reasoning 数据,总数据为 5.16T tokens。其具备其它同尺寸模型不具备的推理能力和任务能力,同时还支持现实世界 100+ 种语言。 在实际测试中,RWKV7-G1 1.5B 模型的推理逻辑性较强,能够完成有难度的
minion-agent的开源项目为开发者们提供了一个全新的AI智能体开发框架。 minion-agent的核心价值在于优雅地解决了「框架碎片化」的问题,开发者想要开发一款AI智能体的话,需要在OpenAI、LangChain、Google AI以及SmolaAgents等多种框架间切换,因为每种框架都有其独特的优势和局限性,也是当前AI智能体开发中的主要阻碍。 minion-agent通过提供
GrapesJS是一套可视化的构建工具,架构及其灵活,可以编辑任何内容,也可以输出任何代码,中间通过对应JSON树的解析器,可以生成多种应用。 GrapesJS本身提供了三套解决方案,HTML、Newsletter、MJML,通过扩展,可以构建其他应用,比如APP、微信等等。 GrapesJS本身是开源的,并且具备灵活的API,所以GrapesJS本身可以与任何系统竭诚。 我们将Grapes
Muyan-TTS,一款低成本、具备良好二次开发支持的模型并完全开源,以方便学术界和小型应用团队的音频技术爱好者。 当前开源的Muyan-TTS版本由于训练数据规模有限,致使其仅对英语语种呈现出良好的支持效果。不过,得益于与之同步开源的详尽训练方法,从事相关行业的开发者能够依据自身实际业务场景,灵活地对Muyan-TTS进行功能升级与定制化改造。 01. H
AI-Media2Doc: 一键将视频和音频转化为小红书/公众号/思维导图等各种风格的文档。 AI创作助手源于我年初的一个想法, 作为一个喜欢阅读的人, 我更希望将一些视频内容转化为文字, 方便我进行二次阅读思考和总结记录笔记, 但市面上并没有一个好的工具来实现这个想法, 大多数工具都需要登录和付费, 我不太想在互联网上注册过多的账号, 同时也不想将自己想要总结的内容上传至除了云厂商之外的第三方
ContextGem:轻松从文档中提取 LLM ContextGem 是一个免费的开源 LLM 框架,它可以让您以最少的代码更轻松地从文档中提取结构化数据和见解。 💎 为什么选择 Contex
极简部署AI视频翻译配音工具 KrillinAI-一款AI视频翻译配音工具 提供了从视频下载,音频提取,音频转录,文本切割,翻译,对齐,到最终合成适配抖音,哔哩哔哩,小红书,视频号,快手等主流平台格式的一站式解决方案。 基于AI大模型的视频翻译和配音工具,专业级翻译,一键部署全流程,可以生成适配抖音,小红书,哔哩哔哩,视频号,TikTok,Youtube Shorts等形态的
字节开源DreamO,统一图像定制框架,把图像换装、换脸、换造型、换风格以及组合操作装在了一起 支持ID、IP、Try-On等组合,支持16GB/24GB显卡运行,用于虚拟试穿、商品广告、营销广告什么的比较实用 四个能力: IP,处理角色形象,支持人物、物体、动物等输入 ID,人脸身份处理 Try-On,虚拟试穿,可以同时换多件衣服 Style,风格迁移,目前还不能和其他任务组合 DreamO正
昆仑万维正式开源(17B+)Matrix-Game大模型,即Matrix-Zero世界模型中的可交互视频生成大模型。Matrix-Game是Matrix系列在交互式世界生成方向的正式落地,也是工业界首个开源的10B+空间智能大模型,它是一个面向游戏世界建模的交互式世界基础模型,专为开放式环境中的高质量生成与精确控制而设计。 空间智能作为AI时代的重要前沿技术,正在重塑我们与虚拟世界的
Nexus-Gen:图像理解、生成和编辑的统一模型,开源届的GPT-4o平替 待办事项 发布训练和推理代码。 发布模型检查点。 发布技术报告。 发布训练数据集。 什么是Nexus-Gen Nexus-Gen 是一个统一模型,它将 LLM 的语言推理能力与扩散模型的图像合成能力协同起来。为了对齐 LLM 和扩散模型的嵌入
Step1X-3D是什么 Step1X-3D 是StepFun联合LightIllusions推出的高保真、可控的 3D 资产生成框架。基于严格的数据整理流程,从超过 500 万个 3D 资产中筛选出 200 万个高质量数据,创建标准化的几何和纹理属性数据集。Step1X-3D 支持多模态条件输入,如文本和语义标签,基于低秩自适应(LoRA)微调实现灵活的几何控制。Step1X-3D 推动了 3
只显示前20页数据,更多请搜索
Showing 49 to 72 of 115 results