关键词 "开源" 的搜索结果, 共 19 条, 只显示前 480 条
NVILA是NVIDIA推出的系列视觉语言模型,能平衡效率和准确性。模型用“先扩展后压缩”策略,有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化,减少资源消耗,在多项图像和视频基准测试中达到或超越当前领先模型的准确性,包括Qwen2VL、InternVL和Pixtral在内的多种顶尖开源模型,及GPT-4o和Gemini等专有模型。NVILA引入时间定位、机器人导航和医学成像等
Dolphin 是字节跳动开源的轻量级、高效的文档解析大模型。基于先解析结构后解析内容的两阶段方法,第一阶段生成文档布局元素序列,第二阶段用元素作为锚点并行解析内容。Dolphin在多种文档解析任务上表现出色,性能超越GPT-4.1、Mistral-OCR等模型。Dolphin 具有322M参数,体积小、速度快,支持多种文档元素解析,包括文本、表格、公式等。Dolphin的代码和预训练模型已公开,
II-Agent:一个用于构建和部署智能体的全新开源框架。II-Agent 是一款开源智能助手,旨在简化和增强跨领域的工作流程。它代表了我们与技术互动方式的重大进步——从被动工具转变为能够独立执行复杂任务的智能系统。作为简易的COZE,Dify平替。 ii-agent开源框架,擅长构建跨多个领域工作流的Agent,能独立执行复杂任务已是Agent标配 其技能覆盖研究与核查、内容生成、数据分析可视
fellou开源智能体工作流框架,Eko 2.0 在不同复杂程度上始终表现优异: 简单任务:成功率为 95%(其他产品的成功率为 80-90%) 平均成功率:78%(其他产品成功率为 56-61%) 中等复杂度:成功率为 76%(其他产品的成功率为 49-58%) 困难任务:成功率为 70%(其他产品的成功率为 32-43%) 这些数字背后隐藏着不可靠的自动化工具和企业真正可以依
SurfSense 是开源的 AI 研究工具,类似于 NotebookLM 和 Perplexity,具备更强的扩展性。工具能与多种外部数据源(如搜索引擎、Slack、Notion、YouTube、GitHub 等)集成,支持用户上传多种格式的文件,将内容整合到个人知识库中。SurfSense 提供强大的搜索功能和自然语言交互能力,用户能快速查找和引用保存的内容。 SurfSense的主要功能
Morphik 是开源的多模态检索增强生成(RAG)工具,专为处理高技术性和视觉内容丰富的文档设计。支持对图像、PDF、视频等多种格式的文档进行搜索,采用 ColPali 等技术,能理解文档中的视觉内容。Morphik 具备快速元数据提取功能,可从文档中提取边界框、标签、分类等信息。 Morphik的主要功能 多模态数据处理:能处理文本、PDF、图片、视频等多种格式的文件。 智能解析文件
Kilo Code 是开源的VS Code AI Agent扩展程序,提升开发人员的编码效率。具备强大的代码生成能力,能根据自然语言描述快速生成代码片段,有效减少手动编写代码的时间。Kilo Code 能自动化执行多种重复性编码任务,例如代码格式化、重构以及生成样板代码等,进一步提高开发效率。内置最新的AI模型,如Claude和 Gemini 2.5 Pro,无需用户手动配置API密钥,提供MCP
Qlib 是一个开源的、面向 AI 的量化投资平台,旨在利用 AI 技术挖掘量化投资的潜力,赋能研究,创造价值,涵盖从探索想法到落地生产的全过程。Qlib 支持多种机器学习建模范式,包括监督学习、市场动态建模和强化学习。 越来越多不同范式的 SOTA Quant 研究成果/论文正在 Qlib 中发布,以协作解决量化投资领域的关键挑战。例如,1)使用监督学习从丰富且异构的金融数据中挖掘市场复杂的非
LMEval 是谷歌推出的开源框架,用在简化大型模型(LLMs)的跨提供商评估。框架支持多模态(文本、图像、代码)和多指标评估,兼容 Google、OpenAI、Anthropic 等主流模型提供商。LMEval 基于增量评估引擎,运行必要的测试,节省时间和计算资源。框架自加密的 SQLite 数据库确保评估结果的安全存储。LMEvalboard 提供交互式可视化界面,帮助用户快速分析模型性能,直
Slidev 是开源的PPT制作模型,基于 Markdown + Vue 技术栈实现。工具支持用简单的 Markdown 语法创建幻灯片,支持代码高亮、实时编码演示、数学公式渲染、图表生成等功能,提供丰富的主题和样式选项。Slidev 提供快速启动命令 npm init slidev,支持在线编辑器 sli.dev/new,无需安装软件简单易用。Slidev 的核心优势在于开发友好性和强大的交互性
Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型。模型基于MoE架构,融合文本、图像、音频和视频等多种模态的感知能力,具备强大的理解和生成能力。模型在多个模态基准测试中表现出色,在图像识别、视频理解、语音问答等任务上均取得优异成绩。模型支持全模态输入输出,能实现自然流畅的多模态交互,为用户提供一体化的智能体验。Ming-Lite-Omni具备高度的可扩展性,可广泛用在OCR识别、知识问
# 核心亮点 支持最强开源模型千问3,其代码能力达到业界领先水平,同时支持MCP协议,具备强大的工具调用能力,可以帮助开发者快速开发智能体应用。 全面集成通义灵码智能编码助手(即通义灵码插件)的能力,无需安装插件开箱即用,直接体验高效、智能的编程体验。 自带编程智能体模式,开发者只需描述编码任务,通义灵码便可以自主地进行工程感知、代码检索、执行终端、调用MCP工具等,
Jaaz 是开源的AI设计Agent,本地免费 Lovart 平替项目。具备强大的 AI 设计能力,能智能生成设计提示,批量生成图像、海报、故事板等。Jaaz 支持 Ollama、Stable Diffusion、Flux Dev 等本地图像和语言模型,实现免费的图像生成。用户可以通过 GPT-4o、Flux Kontext 等技术,在对话中编辑图像,进行对象移除、风格转换等操作。Jaaz 提供无
PandaWiki 是开源的AI知识库搭建系统,基于 AI 大模型的能力,帮助用户快速构建智能化的产品文档、技术文档、FAQ 和博客系统。核心功能包括 AI 辅助创作、AI 问答和 AI 搜索,显著提升知识管理的效率和智能化水平。PandaWiki 提供强大的富文本编辑能力,支持 Markdown 和 HTML 编辑,可导出为 Word、PDF、Markdown 等多种格式。支持与第三方应用集成,
OpenAudio S1是Fish Audio推出的文本转语音(TTS)模型,基于超过200万小时的音频数据训练,支持13种语言。采用双自回归(Dual-AR)架构和强化学习与人类反馈(RLHF)技术,生成的声音高度自然、流畅,几乎与人类配音无异。模型支持超过50种情感和语调标记,用户可通过自然语言指令灵活调整语音表达。OpenAudio S1支持零样本和少样本语音克隆,仅需10到30秒的音频样本
VTable: 不只是高性能的多维数据分析表格,更是行列间创作的方格艺术家!免费,开源,基于Canvas 的 百万数据秒级渲染前端表格组件库 VTable是字节跳动开源可视化解决方案 VisActor 的组件之一。 在现代应用程序中,表格组件是不可或缺的一部分,它们能够快速展示大量数据,并提供良好的可视化效果和交互体验。VTable是一款基于可视化渲染引擎VRender的高性能表格组件库,为用
小红书hi lab(Humane Intelligence Lab,人文智能实验室)团队首次开源文本大模型 dots.llm1。 dots.llm1是一个中等规模的Mixture of Experts (MoE)文本大模型,在较小激活量下取得了不错的效果。该模型充分融合了团队在数据处理和模型训练效率方面的技术积累,并借鉴了社区关于 MoE 的最新开源成果。hi lab团队开源了所有模型和必要的训练
BiliNote 是一个开源的 AI 视频笔记助手,支持通过哔哩哔哩、YouTube、抖音等视频链接,自动提取内容并生成结构清晰、重点明确的 Markdown 格式笔记。支持插入截图、原片跳转等功能。 Windows 打包版 本项目提供了 Windows 系统的 exe 文件,可在release进行下载。注意一定要在没有中文路径的环境下运行。 🔧 功能特性 支持多平台:
SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,模型小巧,可在CPU上运行,单个消费级GPU即可训练,能在MacBook上部署。SmolVLA 完全基于开源数据集训练,数据集标签为“lerobot”。 SmolVLA的主要功能 多模态输入处理:SmolVLA 能处理多种输入,包括多幅图像、语言指令以及
只显示前20页数据,更多请搜索
Showing 97 to 115 of 115 results