关键词 "开源" 的搜索结果, 共 21 条, 只显示前 480 条
北大团队通过对GPT-4o-Image的深入实验,突破性发现其在视觉特征提取环节中,相较于传统变分自编码器(VAE),更依赖语义编码器进行处理。这一关键洞察为统一模型架构设计开辟了全新路径。 基于上述研究成果,团队推出UniWorld-V1统一生成框架。该框架创新性融合高分辨率对比语义编码器与多模态大模型,仅需2.7M训练样本,即可实现图像理解、生成、编辑、感知等多任务处理。 实验数据显示,在
RAG-Anything是香港大学数据智能实验室推出的开源多模态RAG系统。系统支持处理包含文本、图像、表格和公式的复杂文档,提供从文档摄取到智能查询的端到端解决方案。系统基于多模态知识图谱、灵活的解析架构和混合检索机制,显著提升复杂文档处理能力,支持多种文档格式,如PDF、Office文档、图像和文本文件等。RAG-Anything核心优势包括端到端多模态流水线、多格式文档支持、多模态内容分析引
CreateVision AI 是AI图像生成平台,平台融合 Flux.1 Dev 和 GPT-Image-1 两大顶级模型,为用户提供开源与闭源技术路线的极致体验。平台支持用户将创意想法瞬间转化为高质量图像,轻松生成逼真照片、卡通、插画和抽象艺术。支持样式、颜色、光照、构图的 4D 精准控制,满足专业创作需求。CreateVision AI 生成的图像能用在商业用途,无数量限制。 官方网站:h
Comate 是百度推出的一款智能编码助手,它利基于「文心大模型」,结合百度积累多年的编程现场大数据和外部优秀开源数据,打造的新一代编码辅助工具。拥有代码智能、场景丰富、创造价值、广泛应用等多重产品优势,可实现“帮你想、帮你写、帮你改”的场景应用形态。提升编码效率,释放“十倍”软件生产力。 核心功能 1.代码生成 如前所述,Comate 能够在我们暂停编码时,根据我们的代码上下文,智能补全代
Gemini CLI 是谷歌开源的 AI Agent,将 Gemini 大模型融入开发者终端。Gemini CLI提供强大 AI 功能,如代码理解、文件操作、命令执行及动态排查问题,助力开发者高效编写代码、修复错误、构建功能和迁移代码。Gemini CLI内置谷歌搜索,支持 MCP 协议,支持扩展数千功能,Gemini CLI支持用户定制提示和指令,能集成到脚本中实现自动化任务。Gemini CL
FLUX.1 Kontext 是由 Black Forest Labs 推出的图像生成与编辑模型,支持上下文感知的图像处理。模型基于文本和图像提示进行生成与编辑,支持对象修改、风格转换、背景替换、角色一致性保持和文本编辑等多种任务。FLUX.1 Kontext Pro版本支持快速迭代图像编辑,能在多次编辑中保持图像质量和角色特征稳定。。Kontext Max版本在提示词遵循、排版生成和编辑一致性方
OmniGen2 是北京智源人工智能研究院推出的开源多模态生成模型。能根据文本提示生成高质量图像,支持指令引导的图像编辑,比如修改背景或人物特征等。OmniGen2 采用双组件架构,结合视觉语言模型(VLM)和扩散模型,实现对多种生成任务的统一处理。优势在于开源免费、高性能以及强大的上下文生成能力,适用于商业、创意设计和研究开发等场景。 OmniGen2的项目地址 项目官网:https:/
Speakr是开源免费的AI会议助手,支持确保数据绝对私密的前提下,自动化完成会议录音转写、内容摘要提炼与智能问答。Speakr无需联网就能运行,所有数据处理均在本地完成,彻底杜绝商业机密或敏感对话泄露的风险。用户能轻松上传多种格式的音频文件,后台自动进行转录和摘要生成,不干扰用户操作。Speakr提供交互式聊天功能,用户基于聊天界面与转录内容互动,提问或搜索相关信息,提高用户体验。 Speak
Fireplexity是Firecrawl推出的开源AI问答引擎,基于Next.js构建。Fireplexity支持让开发者快速搭建和托管自己的AI驱动的问答应用。具有快速部署(5分钟内启动)、无供应商锁定(完全开源,可自由定制)、实时智能(基于Firecrawl可靠抓取网页内容,智能筛选并合成带引用的答案)等特点。Fireplexity用GPT-4o-mini生成实时答案,支持替换为任何兼容Op
1. VarDrug 引入了一个机器学习框架,用于预测基因变异如何影响药物反应,重点关注精神类药物。它使用来自 PharmGKB 的数据来解决变异体-药物相互作用问题,并比基于规则的方法取得了显著的性能提升。 2. 其核心是一个自监督变异编码器,该编码器基于 100,000 个人类基因组变异体进行训练,并使用 DNABERT2 嵌入对每个变异体的基因组背景进行编码。将此变异编码器添加到标准机器学
1. PDeepPP 通过将 ESM-2 蛋白质语言模型嵌入与混合 Transformer-CNN 架构融合,引入了统一的肽识别深度学习框架。该设计在各种生物信息学任务中均实现了高精度和可扩展性。 2. PDeepPP 在 33 项基准生物学任务中的表现显著优于先前的方法,包括抗菌、抗癌和糖基化位点识别。在抗菌肽检测中,其准确率达到 97.26%,PR AUC 为 0.9977,在抗疟药检测
MegaFold是一个跨平台系统,用于加速蛋白质结构预测模型(例如 AlphaFold3、AlphaFold2)。 为什么选择 MegaFold? 跨平台支持:通过优化的基于 Triton 的内核,支持在异构设备上执行,包括 NVIDIA GPU 和 AMD GPU。 易于使用:只需更改几行代码即可获得巨大的性能提升 速度提升:每次迭代训练时间加快高达 1.73 倍 减少内存:将
WebSailor 是阿里通义实验室开源的网络智能体,专注于复杂信息检索与推理任务。通过创新的数据合成方法(如 SailorFog-QA)和训练技术(如拒绝采样微调和 DUPO 算法),在高难度任务中表现出色,在 BrowseComp 等评测中超越多个知名模型,登顶开源网络智能体榜单。WebSailor 的推理重构技术能高效处理复杂任务,生成简洁且精准的推理链。在复杂场景中表现出色,在简单任务中展
Agent Zero 是开源的、动态的、可扩展的人工智能框架,成为用户个性化的智能助手。不是预设功能的工具,通过用户的指令和任务动态学习和成长。Agent Zero 具备持久记忆功能,能记住之前的解决方案、代码和事实,以便更快地解决未来任务。将计算机操作系统视为完成任务的工具,可以编写代码并使用终端执行任务,支持多代理协作,能创建下属代理以分解和解决复杂任务。Agent Zero 的行为完全由用户
NativeMind是开源的完全在本地设备运行的AI助手。NativeMind支持DeepSeek、Qwen、Llama等多种模型,基于Ollama集成能无缝加载和切换。NativeMind功能包括智能对话、网页内容分析、翻译、写作辅助等,均在浏览器内完成,无需云同步。NativeMind确保数据100%本地处理,无云依赖,无追踪,无日志,让用户完全掌控自己的数据。 NativeMind的主要功
Furion 是基于 .NET 的免费开源开发框架,简化开发流程,提高开发效率。支持多种运行环境,包括 Windows、Linux、Mac OS 和 Docker,适用于开发 Web API、Web 应用、移动应用等多种类型的应用程序。Furion 的核心特点是轻量级、高性能和易于使用。通过极简的设计理念,让开发者能快速上手,仅需通过简单的 Inject() 方法可完成大部分配置。Furion 内
RoboBrain 2.0 是强大的开源具身大脑模型,能统一感知、推理和规划,支持复杂任务的执行。RoboBrain 2.0 包含 7B(轻量级)和 32B(全规模)两个版本,基于异构架构,融合视觉编码器和语言模型,支持多图像、长视频和高分辨率视觉输入,及复杂任务指令和场景图。模型在空间理解、时间建模和长链推理方面表现出色,适用机器人操作、导航和多智能体协作等任务,助力具身智能从实验室走向真实场景
RoboOS 2.0 是智谱开源的跨本体大小脑协同框架,专为具身智能设计。框架支持多机器人协作,基于集成MCP协议和无服务器架构实现轻量化部署,降低开发门槛。框架包含基于云计算的大脑模块,负责高级认知与多智能体协同;分布式小脑模块群,专司机器人专项技能执行;及实时共享内存机制,强化环境态势感知能力。RoboOS 2.0 提供标准化接口,消除硬件适配差异,用技能商店实现机器人技能模块的智能匹配与一键
Voxtral 是 Mistral AI 推出的先进音频模型,基于卓越的语音转录和深度理解能力,推动语音作为自然的人机交互方式。Voxtral提供 24B 和 3B 两种版本,分别适用生产规模和本地部署。Voxtral 支持多语言、长文本上下文、内置问答和总结功能,能直接触发后端功能调用。Voxtral 性能在多个基准测试中超越现有开源模型和专有 API,同时成本更低,广泛应用在各种场景,助力语音
业界首个开源高完成度轻量化通用多智能体产品(JoyAgent-JDGenie) 解决快速构建多智能体产品的最后一公里问题 简介 当前相关开源agent主要是SDK或者框架,用户还需基于此做进一步的开发,无法直接做到开箱即用。我们开源的JoyAgent-JDGenie是端到端的多Agent产品,对于输入的query或者任务,可以直接回答或者解决。例如用户query"给我做一个最
Mistral AI,最新发布了首个开源语音模型:Voxtral语音理解模型系列! 该模型包含24B和3B两个参数规模的版本,均基于Apache 2.0许可证开源,同时提供API服务接口。 Voxtral模型支持32k token的上下文窗口,能够处理长达30分钟的音频转录任务或40分钟的语义理解任务,在各项基准测试指标上全面超越目前主流的开源语音转录模型Whisper large-v3。
只显示前20页数据,更多请搜索
Showing 121 to 141 of 141 results