关键词 "开源" 的搜索结果, 共 24 条, 只显示前 480 条
TinyVLA是一种面向机器人操控的视觉-语言-动作(VLA)模型,由华东师范大学和上海大学团队推出。针对现有VLA模型的不足,如推理速度慢和需要大量数据预训练,提出解决方案。TinyVLA基于轻量级的多模态模型和扩散策略解码器,显著提高推理速度,减少对大规模数据集的依赖。模型在模拟和真实机器人平台上经过广泛测试,证明在速度、数据效率以及多任务学习和泛化能力方面优于现有的先进模型OpenVLA。T
VACE(Video Creation and Editing)是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视频任务(如参考视频生成、视频到视频编辑、遮罩编辑等)到一个统一模型中,实现高效的内容创作和编辑功能。VACE的核心在于Video Condition Unit(VCU),将文本、图像、视频和遮罩等多种模态输入整合为统一的条件单元,支持多种任务的灵活组合。开源的 Wan2
Challympics 是专注于人工智能和技术创新的赛事平台,汇聚多种类型的赛事,涵盖创新创意、量子计算、AIGC 大模型方案应用、人工智能应用等多个领域。平台为开发者和创新者提供一个展示创意和技能的舞台,推动人工智能技术在各个领域的应用和发展。 Challympics的主要功能 赛事组织与管理:平台定期发布各类人工智能和技术创新相关的赛事信息,涵盖创新创意、量子计算、AIGC 大模型方案
ChatUI 是阿里团队推出的开源智能对话式 UI 组件库,能帮助开发者快速构建高质量的聊天应用,提供响应式设计、国际化、主题定制等功能。ChatUI 基于阿里巴巴 Alime Chatbot 的最佳实践,用 TypeScript 编写,支持无障碍功能,兼容多种浏览器。ChatUI 提供丰富的组件,如气泡、输入框等,满足不同场景需求。开发者基于简单配置实现多语言支持,打造符合品牌需求的聊天界面。
HealthBench是OpenAI推出的开源医疗测试基准,用在评估大型语言模型(LLMs)在医疗保健领域的表现和安全性。HealthBench包含5000个模型与用户或医疗专业人员之间的多轮对话,用262名医生创建的对话特定评分标准进行评估。对话覆盖多种健康情境(如紧急情况、临床数据转换、全球健康)和行为维度(如准确性、指令遵循、沟通)。HealthBench能衡量模型的整体表现,按主题(如紧急
Co-Sight是中兴通讯开源的超级智能体项目,为协同视觉分析平台及智能自动化底座。采用多智能体架构,构建“数字团队”协同体系,通过DAG任务引擎驱动,实现任务的高效调度与执行。Co-Sight具备自我进化能力,能通过执行记录与模型推理自动生成智能总结报告,形成持续改进闭环。注重安全与可靠性,所有操作在沙箱环境中运行,支持日志追溯、权限管控与合规审计。 Co-Sight的主要功能 智能总结
OpenMemory MCP 是mem0推出的基于开放模型上下文协议(MCP)构建的开源工具,能解决 AI 工具记忆痛点,实现不同工具间共享上下文信息。OpenMemory MCP支持 100% 本地运行,数据存储在用户本地设备上,确保隐私和安全。OpenMemory MCP 具备跨平台支持、标准化内存操作、集中式仪表板等优势,广泛用在软件开发、项目管理、错误跟踪等场景,帮助用户提升工作效率,让
BILIVE 是基于 AI 技术的开源工具,专为 B 站直播录制与处理设计。工具支持自动录制直播、渲染弹幕和字幕,支持语音识别、自动切片精彩片段,生成有趣的标题和风格化的视频封面。BILIVE 能自动将处理后的视频投稿至 B 站,综合多种模态模型,兼容超低配置机器,无需 GPU 即可运行,适合个人用户和小型服务器使用。 1. Introduction Have you notice
FunGPT 是基于 InternLM2.5 系列大模型开发的开源项目,专为情感调节设计。具备两大核心功能:甜言蜜语模式和犀利怼语模式。甜言蜜语模式能用温暖的话语和独特的夸奖提升用户心情,犀利怼语模式以幽默风趣的方式帮助用户释放压力。FunGPT 采用 1.8B 系列轻量化模型,结合 AWQ 量化技术,既节省 GPU 内存又提升推理速度。 FunGPT的主要功能 甜言蜜语模式:当用户情绪低
VoiceCanvas 是开源的多语言语音合成平台。基于 AI 技术提供高质量的文字转语音服务,支持超过 50 种语言,集成 OpenAI TTS、AWS Polly 和 MiniMax 等多种语音服务。VoiceCanvas 提供个人声音克隆功能,用户上传几秒音频样本能创建个性化声音。VoiceCanvas适合内容创作者、教育工作者和企业用户,显著提升语音内容制作效率。 VoiceCanvas
🚀🤖 Crawl4AI:开源 LLM 友好型网络爬虫和抓取工具。 Crawl4AI 是 GitHub 上排名第一的热门代码库,由充满活力的社区积极维护。它提供速度超快、AI 就绪的 Web 爬取功能,专为 LLM、AI 代理和数据管道量身定制。Crawl4AI 开源、灵活,专为实时性能而构建,为开发者提供无与伦比的速度、精度和部署便捷性。 ✨ 查看最新更新 v0.6.0 🎉 0.6.
AI+SQL 语法专家模型驱动,Oracle→OceanBase 迁移效率提升 10 倍! 企业级 SQL 方言智能转换平台 SQLShift 今日正式上线。作为国内首个支持 Oracle→OceanBase 存储过程自动转换的 SaaS 服务,SQLShift 深度融合 AI 与 SQL 语法专家模型,精准解决数据库国产化迁移中的隐式转换、逻辑失真等核心痛点,助力企业实现零误差交付。 直击国
一款开源MathModelAgent的AI助手,专为数学建模设计的智能工具,能够自动完成从问题分析、模型构建、代码编写到论文撰写的全流程,展现了AI在学术与技术领域的深远潜力。 MathModelAgent:数学建模的革命性助手 MathModelAgent是一个多智能体协作系统,集成了多个专业模块,包括负责数学建模的“建模手”、代码编写与调试的“代码手”以及论
药物研发合作:礼来公司和诺华公司 近期成果:与谷歌DeepMind联合开发AlphaFold3 近期新闻:扩大与诺华的小分子药物发现协议范围 作为著名人工智能研究实验室 Google Deepmind 的姊妹公司,Isomorphic Labs 致力于开发深度学习、强化学习、主动学习、表征学习等领域的尖端计算技术,以解决药物研发中最棘手的一些挑战,以及当今生物、化学和医学研究中一
AlphaFold 是 DeepMind 开源的人工智能系统,借助 AlphaFold 可以更加准确的预测蛋白质的形状。主要应用于医疗保健和生命科学领域,有可能加速药物的研究与发现。 AlphaFold到底厉害在哪里?它的核心武器叫做“深度学习”,简单来说,就是让AI自己去学习成千上万个已知的蛋白质结构,从中找出隐藏的规律。更重要的是,AlphaFold引入了一种叫做“进化信息”的数据,分析
微软发布了名为 “NLWeb” 的开源项目,旨在简化创建网站的自然语言对话界面,使任何网站都能轻松转变为 AI 驱动的应用程序。 NLWeb 定位为 “智能体 Web 时代的 HTML”,支持自定义模型与数据交互,旨在帮助开发者轻松将网站转化为支持自然语言交互的 AI 应用,可提供 “类似 ChatGPT 的聊天界面”。 NLWeb 开源地址:https://github.com/micr
在 AI 浪潮中,如何高效管理海量信息、实现智能搜索与知识共享,已成为个人与企业共同面临的挑战。Coco AI —— 一款完全开源、免费的智能搜索与知识库工具,成为面对这一挑战的利器。 Coco AI 能够轻松连接本地文件数据源、S3 对象存储、Google Workspace、Dropbox、GitHub、Notion、Yuque、Hugo 等多种数据源,实现本地与云端数据的统一搜索与管理。无
超级麦吉是一个强大的通用型 AI Agent,专门面向复杂任务场景设计。通过多 Agent 设计体系以及丰富的工具能力支持,超级麦吉支持自主任务理解、自主任务规划、自主行动、自主纠错等智能的能力。它能够理解自然语言指令,执行各类业务流程,并交付最终的目标结果。作为麦吉产品矩阵的旗舰产品,超级麦吉通过开源的方式提供了强大的二次开发能力,让企业能够快速构建和部署符合特定业务需求的智能助手,大幅提升决策
谷歌宣布开源全新医疗 AI 模型 ——MedGemma。这款基于 Gemma3架构的模型专为医疗领域设计,具备强大的多模态图像和文本理解能力,旨在提升医疗诊断与治疗效率。 MedGemma 提供两种配置选项,分别为4B 和27B 参数模型。4B 参数模型主要用于医疗图像的分类和解读,能够生成详细的诊断报告或回答与图像相关的问题;而27B 参数模型则专注于处理临床文本,特别适合于患者分诊和决策辅助
AIFlowy 是一个基于 Java 开发的企业级 AI 底层平台,致力于为中国开发者和企业提供高效、开放、本土化的 AI 工具与平台。我们对标字节 Coze、腾讯元器和 Dify 等产品,但更加聚焦于 toB 场景下的深度应用与落地实践。 我们的使命是: “成为中国最具有影响力的人工智能品牌之一,引领核心技术自主创新,推动中国 AI 技术生态繁荣发展和科技自立。” 我们的愿景是:
Devstral是Mistral AI和All Hands AI推出的专为软件工程任务设计的编程专用模型。Devstral在解决真实世界软件问题上表现出色,在SWE-Bench Verified基准测试中,得分46.8%大幅领先其他开源模型。Devstral支持处理复杂代码库中的上下文关系、识别组件间联系及发现细微的代码错误。Devstral轻量级,能在单个RTX 4090或32GB内存的Mac上
BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语义级特征。BAGEL遵循“下一个标记组预测”范式进行训练,使用海量多模态标记数据进行预训练,包括语言、图像、视频和网络数据。在性能方面,BAGEL在多模态理解基准测试中超越了Qwen2.5-VL和InternVL-2.5等顶级开源视觉语言模型
Moondream是一个免费开源的小型的人工智能视觉语言模型,虽然参数量小(Moondream1仅16亿,Moondream2为18.6亿)但可以提供高性能的视觉处理能力,可在本地计算机甚至移动设备或 Raspberry Pi 上运行,能够快速理解和处理输入的图像信息并对用户提出的问题进行解答。该模型由开发人员vikhyatk推出,使用SigLP、Phi-1.5和LLaVa训练数据集和模型权重初始
mPLUG-Owl3是阿里巴巴推出的通用多模态AI模型,专为理解和处理多图及长视频设计。在保持准确性的同时,显著提升了推理效率,能在4秒内分析完2小时电影。模型采用创新的Hyper Attention模块,优化视觉与语言信息的融合,支持多图场景和长视频理解。mPLUG-Owl3在多个基准测试中达到行业领先水平,其论文、代码和资源已开源,供研究和应用。 mPLUG-Owl3的主要功能 多
只显示前20页数据,更多请搜索
Showing 73 to 96 of 115 results