关键词 "开源" 的搜索结果, 共 18 条, 只显示前 480 条
项目主页:https://unigen-x.github.io/unifolm-world-model-action.github.io/开源代码网址:https://github.com/unitreerobotics/unifolm-world-model-action
腾讯优图实验室进一步开源 Youtu-GraphRAG——这是一款全新的图检索增强生成框架,主打大语言模型+GraphRAG模式,把知识组织成「图谱」,再交给大语言模型去检索和推理,帮助大模型在处理复杂问答类任务时减少「胡言乱语」,回答更精准、更可追溯。它尤其适用于企业知识库问答、科研文档解析、个人知识库、私域知识管理等知识密集型场景。要减少胡编乱造,关键在于更精准的检索与推理。Youtu-Gra
通义DeepResearch 是阿里巴巴推出的开源深度研究智能体,专为长周期、深度信息检索任务设计。拥有 300 亿参数,每次激活 30 亿参数,支持 ReAct 模式和深度模式(Heavy Mode),后者通过迭代研究范式(IterResearch)提升复杂推理能力。智能体采用全流程合成数据方案,无需人工干预即可生成高质量数据集,突破智能体能力上限。训练流程涵盖智能体持续预训练(Agentic
LLaSO:大型语言和语音模型中可重复研究的基础框架完全开放的语料库+基准+参考模型,用于组合语音语言理解。LLaSO-Base 在涵盖语言、语义和副语言类别的 20 项任务中获得LLaSO-Eval 的最佳标准化总体得分。???? LLaSO 是什么?LLaSO 是第一个完全开放的端到端大规模语音语言建模堆栈,在一个框架中统一数据、评估和建模。LLaSO-Align (12.0M):基于 ASR 的对
SimpleFold 是苹果公司推出的轻量级蛋白质折叠预测 AI 模型。模型基于流匹配(Flow Matching)技术,跳过多序列比对(MSA)等复杂模块,直接从随机噪声生成蛋白质的三维结构,大幅降低计算成本。在 CAMEO22 和 CASP14 等权威基准测试中,SimpleFold 表现出色,无需昂贵的多序列比对和三角注意机制,能达到与顶尖模型(如 AlphaFold2、RoseTTAFol
Neovate Code 是蚂蚁集团开源的智能编程助手,专注于提升开发效率。工具能深度理解代码库,遵循既有编码习惯,精准完成代码生成、Bug修复和重构等任务。通过对话式界面,支持开发者用自然地描述需求,Neovate Code 提供安全、可控的实现方案。工具支持多种流行模型(如 OpenAI、Anthropic 等),可通过插件系统灵活扩展功能。目前以 CLI 工具形式提供,未来将适配更多客户端形
Fish Speech 是一款由 Fish Audio 开源的文本转语音(TTS)工具,支持中、英、日三国语言。它经过 15 万小时的多语种数据训练,能生成接近人类水平的自然语音。其最新版本为 1.2,拥有以下核心优势:核心功能与技术亮点高效且低门槛:只需 4GB 显存即可运行,极大地降低了硬件要求。此外,快速的推理速度能让您在短时间内获得所需的语音输出,提升了整体使用体验。支持多种模型:集成了包
Spark Chemistry-X1-13B 是科大讯飞开源的化学专业大型语言模型。模型基于讯飞星火X1-0420大模型,经过多种化学任务数据集的微调,具备卓越的复杂化学问题解决能力,同时保持强大的通用性。模型基于新的注意力掩码机制,结合长思维链和快思考,有效防止不同推理模式之间的干扰。模型在高等知识问答、化学名称转换和分子性质预测等任务上表现出色,能助力化学科研工作的高效推进,激发跨领域创新,推
CWM(Code World Model)是 Meta 开源的一个拥有 320 亿参数的代码语言模型。它率先将“世界模型”的概念引入代码生成领域,让模型能够通过模拟代码执行过程,更深层次地理解和生成代码,而不仅仅是基于模式匹配。CWM 在多项基准测试中表现出色,例如在 Math-500 数据集上取得了 96.6% 的准确率。该模型的权重已公开,旨在推动代码生成和理解领域的研究,并帮助开发者更高效地
MiroMind:由陈天桥先生创立的预测型 AI 平台MiroMind 是由陈天桥推出的一个专注于 AI 领域的平台,致力于开发全球领先的预测型大模型。该平台的核心理念是让 AI “记住过去、洞察未来”,通过其独特的记忆驱动机制,帮助 AI 进行更精准的预测与决策。MiroMind 的主要产品包括:MiroThinker:一个开源的深度研究模型,在 GAIA 等基准测试中表现出色,超越了许多同类开
Qianfan-VL 是百度智能云千帆专为企业级多模态应用场景打造的视觉理解大模型。它提供 3B、8B 和 70B 三种尺寸,不仅具备出色的通用能力,还针对 OCR、教育等垂直领域进行了专项强化。该模型基于开源模型,并在百度自研的昆仑芯 P800 上完成了全流程计算任务,展现出卓越的性能和效率。核心功能多尺寸模型:提供从轻量级到大规模的三种版本,满足不同企业和开发者的需求,适用于各种场景,从端上实
GDPval 是由 OpenAI 推出的一个全新评估框架,旨在衡量 AI 模型在真实经济价值任务上的表现。该框架从对美国 GDP 贡献最大的 9 个行业中,选取了 44 种职业,设计了 1320 个贴近实际工作场景的真实任务(其中 220 个已开源)。这些任务涵盖了软件开发、法律文书、机械工程、护理计划等多个领域。每项任务都由平均拥有 14 年经验的专业人士设计和审核,确保评估结果能真实反映 AI
Eliza 是由 ai16z 开源的一款多代理模拟框架,旨在帮助开发者创建、部署和管理自主 AI 智能体。该框架基于 TypeScript 开发,提供了一个灵活且可扩展的平台,让 AI 代理能够在多个社交平台上与人类进行互动,同时保持一致的个性和知识。核心功能多代理架构:Eliza 能够同时部署和管理多个拥有独特个性的 AI 代理,并支持在不同场景下的多代理交互。多平台集成:框架支持与 Disco
lynx 是由字节跳动研发的高保真个性化视频生成模型,仅需输入一张人像照片,即可生成身份高度一致的动态视频。该模型基于扩散 transformer(dit)架构构建,并创新性地引入了 id-adapter 和 ref-adapter 两个轻量级适配模块,分别用于精准控制人物身份和精细保留面部细节。lynx 配备专用人脸编码器提取面部特征,结合 x-nemo 技术增强表情表现力,通过 lbm 算法模
PaddleOCR-VL是百度飞桨团队开源的多模态文档解析模型,参数量仅0.9B,专为低算力设备优化。在国际权威评测OmnidocBench V1.5中以92.6分登顶全球第一,超越GPT-4o等主流模型。模型采用双阶段架构:PP-DocLayoutV2负责版面分析,PaddleOCR-VL-0.9B完成内容识别,支持109种语言,能精准处理表格、公式、图表等复杂元素,输出结构化Markdown/
Coral NPU 是谷歌推出的全栈开源AI平台,专为低功耗边缘设备(如智能手表、AR 眼镜等)设计,能解决性能、碎片化和隐私三大挑战。Coral NPU基于 RISC-V 指令集,包含标量核心、向量执行单元和矩阵执行单元,能高效支持机器学习推理任务。Coral NPU 提供统一的开发者体验,支持 TensorFlow、JAX 和 PyTorch 等框架,通过硬件强制的安全性保护用户隐私。Cora
SongBloom 是腾讯 AI Lab 开发的全长度歌曲生成框架,结合了自回归草图绘制和基于扩散的细化技术,通过交错生成范式(Interleaved Generation)交替生成语义和声学上下文,生成高质量的完整歌曲。模型只需输入 10 秒音频样本和对应歌词,即可生成长达 2 分 30 秒的双通道、48kHz 音频。SongBloom 在音频质量和歌词准确性方面表现出色,接近领域最佳水平(SO
nanochat是AI领域专家Andrej Karpathy发布的开源项目,以极低成本和高效流程训练小型语言模型,实现类似ChatGPT的对话功能。仅需约100美元(使用8张H100 GPU训练4小时),即可训练出能进行基础对话、创作故事/诗歌、回答简单问题的小型模型。若增加预算至1000美元(训练约41.6小时),模型性能可显著提升,能解决简单数学/代码问题并参与多项选择题测试。项目包含从数据准
只显示前20页数据,更多请搜索
Showing 169 to 186 of 186 results