关键词 "大模型" 的搜索结果, 共 20 条, 只显示前 480 条
VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,专注于提升视觉语言模型(VLMs)在处理视觉丰富信息时的检索、推理和理解能力。基于定义视觉感知动作空间,让模型能从粗粒度到细粒度逐步获取信息,更有效地激活模型的推理能力。VRAG-RL引入综合奖励机制,结合检索效率和基于模型的结果奖励,优化模型的检索和生成能力。在多个基准测试中,VRAG-RL显著优于现有方法,展现在视
PandaWiki 是开源的AI知识库搭建系统,基于 AI 大模型的能力,帮助用户快速构建智能化的产品文档、技术文档、FAQ 和博客系统。核心功能包括 AI 辅助创作、AI 问答和 AI 搜索,显著提升知识管理的效率和智能化水平。PandaWiki 提供强大的富文本编辑能力,支持 Markdown 和 HTML 编辑,可导出为 Word、PDF、Markdown 等多种格式。支持与第三方应用集成,
小红书hi lab(Humane Intelligence Lab,人文智能实验室)团队首次开源文本大模型 dots.llm1。 dots.llm1是一个中等规模的Mixture of Experts (MoE)文本大模型,在较小激活量下取得了不错的效果。该模型充分融合了团队在数据处理和模型训练效率方面的技术积累,并借鉴了社区关于 MoE 的最新开源成果。hi lab团队开源了所有模型和必要的训练
BiliNote 是一个开源的 AI 视频笔记助手,支持通过哔哩哔哩、YouTube、抖音等视频链接,自动提取内容并生成结构清晰、重点明确的 Markdown 格式笔记。支持插入截图、原片跳转等功能。 Windows 打包版 本项目提供了 Windows 系统的 exe 文件,可在release进行下载。注意一定要在没有中文路径的环境下运行。 🔧 功能特性 支持多平台:
用 AI IDE 一键生成、部署和托管你的全栈 Web 应用与小程序,数据库和后端服务全自动,无需配置、无需运维,极速上线你的创意。 🪐 Instantly build, deploy, and host your full-stack web apps and mini-programs with your AI IDE—database and backend handled for you,
普林斯顿与复旦推出HistBench和HistAgent,首个人文AI评测基准 普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench,并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白,更为复杂史料处理与多模态理解建立了系统工具框架。 历史是关于时间中的人的
PromptPilot是字节跳动旗下火山引擎推出的面向大模型的智能解决方案平台。通过深度解析用户意图,将模糊的想法转化为AI能精准执行的专业指令,确保模型稳定输出高质量结果。PromptPilot的互动式引导,帮助用户明确需求;定义理想答案,通过用户反馈优化模型表现;闭环迭代优化,将问题案例转化为数据资产,持续提升Prompt效果。支持多轮对话优化、多模态理解与规划、复杂工具调用优化,通过SDK调
星月写作是专为中文内容创作者设计的AI写作助手,能根据用户输入的关键词、主题或大纲,快速生成高质量的文本内容。支持小说创作、公众号文章撰写,小红书文案、抖音脚本、学术论文工作报告等,星月写作能提供强大的支持。支持多种风格和语气,用户可以根据需求自由选择,比如正式、幽默或口语化。星月写作具备智能续写、润色、灵感激发等功能,帮助用户突破创作瓶颈,提升内容质量。提供丰富的素材库和智能工具集成,如词典查询
HiAgent 是字节跳动推出的面向企业级客户的人工智能应用开发平台。帮助企业快速开发大模型应用和智能体(Agent),满足企业对数据安全和隐私的要求。通过低代码开发工具,HiAgent 降低了开发门槛,非技术背景的业务人员也能轻松上手,快速构建和部署 AI 应用。HiAgent 提供了丰富的行业模板和私有化部署选项,能满足不同企业的个性化需求。支持与企业现有系统的深度集成,帮助企业实现复杂流程的
MiniMax-M1是MiniMax团队最新推出的开源推理模型,基于混合专家架构(MoE)与闪电注意力机制(lightning attention)相结合,总参数量达 4560 亿,每个token激活 459 亿参数。模型超过国内的闭源模型,接近海外的最领先模型,具有业内最高的性价比。MiniMax-M1原生支持 100 万token的上下文长度,提供40 和80K两种推理预算版本,适合处理长输入
VFX8 是一站式 AI 制片工场,基于人工智能技术赋能影视制作全流程。用户只需输入一个创意想法,VFX8 能提供从前期策划、分镜头脚本生成、角色设计到视频生成的全流程服务。具备智能分镜制作功能,能批量生成电影级分镜头脚本,确保角色形象的一致性;支持全风格的影视角色设计,满足不同风格需求。VFX8 配备长篇剧集视觉资产管理系统,帮助创作者高效管理剧集的视觉元素,确保风格统一。 VFX8的主要功能
北大团队通过对GPT-4o-Image的深入实验,突破性发现其在视觉特征提取环节中,相较于传统变分自编码器(VAE),更依赖语义编码器进行处理。这一关键洞察为统一模型架构设计开辟了全新路径。 基于上述研究成果,团队推出UniWorld-V1统一生成框架。该框架创新性融合高分辨率对比语义编码器与多模态大模型,仅需2.7M训练样本,即可实现图像理解、生成、编辑、感知等多任务处理。 实验数据显示,在
DeepPiano 是智曲科技推出的以大模型为内核的钢琴智能应用。通过先进的人工智能技术,为钢琴演奏者和学习者提供多种便捷功能。DeepPiano 能实现智能乐谱翻页,自动识别演奏进度,无需手动操作,让演奏更加流畅。“AI 音频美颜”功能可快速优化录制的钢琴音频,去除噪音提升音质,达到专业水准。具备 AI 音乐创作能力,可根据用户即兴演奏生成五线谱,激发创作灵感。 DeepPiano的官网地址
Comate 是百度推出的一款智能编码助手,它利基于「文心大模型」,结合百度积累多年的编程现场大数据和外部优秀开源数据,打造的新一代编码辅助工具。拥有代码智能、场景丰富、创造价值、广泛应用等多重产品优势,可实现“帮你想、帮你写、帮你改”的场景应用形态。提升编码效率,释放“十倍”软件生产力。 核心功能 1.代码生成 如前所述,Comate 能够在我们暂停编码时,根据我们的代码上下文,智能补全代
Gemini CLI 是谷歌开源的 AI Agent,将 Gemini 大模型融入开发者终端。Gemini CLI提供强大 AI 功能,如代码理解、文件操作、命令执行及动态排查问题,助力开发者高效编写代码、修复错误、构建功能和迁移代码。Gemini CLI内置谷歌搜索,支持 MCP 协议,支持扩展数千功能,Gemini CLI支持用户定制提示和指令,能集成到脚本中实现自动化任务。Gemini CL
Qwen VLo 是通义千问团队推出的多模态统一理解与生成模型。在多模态大模型的基础上进行了全面升级,能“看懂”世界,能基于理解进行高质量的再创造,实现了从感知到生成的跨越。能精准理解图像内容,在此基础上进行一致性和高质量的生成。用户可以通过自然语言指令要求模型对图像进行风格转换、场景重构或细节修饰,模型能灵活响应并生成符合预期的结果。Qwen VLo 支持多语言指令,打破语言壁垒,为全球用户提供
EXAONE 4.0是韩国LG AI Research推出的自研混合推理大模型。模型融合通用自然语言处理和高级推理能力,支持韩语、英语和西班牙语。模型分为32B的专业版和1.2B的端侧版,前者基于多项国家级认证考试,适用高专业领域,后者体积小、性能优,支持本地运行,适合隐私和安全要求高的场景。EXAONE 4.0在国际高难度基准测试中表现优异,如MMLU-Pro 81.8分、AIME 2025 8
VikingDB 是火山引擎推出的高性能向量数据库,专为处理海量高维向量数据设计。VikingDB 支持实时同步、异步写入等多种数据写入方式,具备自研的 HNSW、IVF 等高效索引算法,可实现百亿级向量的毫秒级检索,兼容稠密与稀疏向量检索。VikingDB 提供 SaaS 控制台、API 和多种语言的 SDK,支持自动弹性扩容,广泛应用在多模态搜索、智能推荐、RAG 场景及记忆库构建等领域,助力
业界首个开源高完成度轻量化通用多智能体产品(JoyAgent-JDGenie) 解决快速构建多智能体产品的最后一公里问题 简介 当前相关开源agent主要是SDK或者框架,用户还需基于此做进一步的开发,无法直接做到开箱即用。我们开源的JoyAgent-JDGenie是端到端的多Agent产品,对于输入的query或者任务,可以直接回答或者解决。例如用户query"给我做一个最
研究模式可将 Le Chat 转变为一个协调的研究助手,能够规划、明确需求、搜索和综合信息。提出一个有深度的问题,它会将其分解,收集可靠的资料,并构建一个结构清晰、有参考文献支持且易于理解的报告。 它由工具增强型深度研究 Agent 驱动,但设计得简单、透明且真正有帮助,仿佛与一个组织良好的研究伙伴合作。 Mistral AI 也在官网展示了一些用例。深度研究模式能够追踪市场趋势、撰写商业策略
只显示前20页数据,更多请搜索
Showing 73 to 92 of 92 results