超级麦吉 Super Magic

通用型 AI Agent 通用型 AI Agent 超级麦吉

超级麦吉是一个强大的通用型 AI Agent，专门面向复杂任务场景设计。通过多 Agent 设计体系以及丰富的工具能力支持，超级麦吉支持自主任务理解、自主任务规划、自主行动、自主纠错等智能的能力。它能够理解自然语言指令，执行各类业务流程，并交付最终的目标结果。作为麦吉产品矩阵的旗舰产品，超级麦吉通过开源的方式提供了强大的二次开发能力，让企业能够快速构建和部署符合特定业务需求的智能助手，大幅提升决策效率和决策质量。

下图是一个由超级麦吉完全自主完成的复杂任务，我们在官网也准备了丰富的案例，你可以访问 https://www.letsmagic.cn 打开你对超级麦吉的想象力。

对于超级麦吉，我们不仅开放了官方智能体定义，还将支持用户通过自然语言的方式创造属于自己的智能体，并通过输入 @ 轻松连接成千上万个工具或 MCP 服务，真正地帮助你做到会打字就能打造你自己的超级智能体！

Github: https://github.com/dtyq/magic
Gitee: https://gitee.com/letsmagic/magic

神奇流程 Magic Flow

神奇流程是一个强大的可视化 AI 流程编排系统，让用户能够自由地在画布上构建复杂的 AI Agent 工作流。它具有以下核心特点：

可视化编排：直观的拖拽式界面，无需编写代码即可设计复杂的 AI 工作流程，通过节点连接轻松实现各种功能组合。
丰富的原子节点与工具库：内置多种预设工具，包括文本处理、图像生成、代码运行等，满足多样化的业务需求。
知识库检索：强大的混合检索增强生成功能，支持各种格式文档的检索和语义理解，确保 AI 回答基于企业知识库真实知识。
全面的模型支持：兼容主流大模型服务商 API 协议，可灵活选择适合业务场景的大模型。
自定义扩展：支持自定义工具节点开发，满足特定业务场景的专属需求。
系统集成能力：支持与 Magic IM 及其他第三方 IM 系统（企业微信、钉钉、飞书）无缝对接，实现跨平台协作。
实时调试监控：提供完善的调试和监控功能，帮助快速识别和解决工作流中的问题，确保 AI 应用稳定运行。

麦吉即时通讯 Magic IM

麦吉即时通讯系统是一个企业级的即时通讯系统，它提供了丰富的人与人、人与 AI Agent 的对话能力，支持多轮对话、上下文理解、知识库检索等功能，让企业能够快速构建智能客服、知识助手等应用。

麦吉即时通讯系统具有以下核心特点：

深度 AI 整合：提供强大的自定义消息卡片机制与表单设计器，支持通过 AI Agent 智能生成多样化复杂表单，高效完成各种业务流程。
单聊能力：支持组织成员之间的对话以及人与 AI Agent 的深度交流，确保高效工作沟通的同时也可与无数 AI Agent 深度探讨各类难题。
群聊能力：强大的群组聊天功能，支持多人实时协作讨论，AI 智能参与群聊并提供即时解答，促进团队高效沟通与知识共享。
对话管理：完善的对话管理，支持通过话题来区分不同的对话内容，在支持与 AI Agent 对话的同时也支持与组织内的人对话。
企业级架构：支持在离线消息、多设备在线、已读、撤回、重新编辑、正在输入等特性，支持万人千部门，千人群聊天下的高可靠消息收发。
多组织与多环境支持：支持多组织部署和严格的组织数据隔离，并且可以一站式连接多个不同云环境服务。

相关推荐

ML-Master

<p>ML-Master是上海交通大学人工智能学院Agents团队推出ML-Master – 上海交大推出的AI专家Agent的AI专家智能体。在OpenAI的权威基准测试MLE-bench中表现出色，以29.3%的平均奖牌率位居榜首，超越了微软的RD-Agent和OpenAI的AIDE等竞争对手。ML-Master通过“探索-推理深度融合”的创新范式，模拟人类专家的认知策略，整合广泛探索与深度推理，显著提升了AI在机器学习工程中的表现。采用平衡多轨迹探索和可控推理两大模块，通过自适应记忆机制实现两者的高效协同。</p> <h2 style="font-size: 20px;">ML-Master的项目地址</h2> <ul> <li>项目官网：https://sjtu-sai-agents.github.io/ML-Master/</li> <li>Github仓库：https://github.com/sjtu-sai-agents/ML-Master</li> <li>arXiv技术论文：https://arxiv.org/pdf/2506.16499</li> </ul>

ComputerX

<p>ComputerX是基于人工智能的AI Agent工具，通过自然语言指令帮助用户自动化处理各种计算机任务，提升工作效率。能处理多种任务，如旅行规划、数据分析、报告生成、网页应用创建等，支持文本、表格、图像和代码等多种输出格式。ComputerX基于 AI 技术整合来自多个在线来源的信息，提供全面且准确的结果，保持任务执行过程的透明性。</p> <h2 style="font-size: 20px;">ComputerX的官网地址</h2> <ul> <li>官网地址：<a href="https://computerx.ai/?utm_source=medsci" target="_blank" rel="noopener"> https://computerx.ai/</a></li> </ul>

Miniwork

<p>Miniwork是高效的AI工具平台，聚焦提升工作、学习、内容创作、运营营销等多个方向，专为提升工作与学习效率的用户打造。Miniwork涵盖SEO分析及优化、写作辅助、图像生成、PDF处理、营销策划及运营管理等多元化AI工具，通过前沿技术集成包括GPT-4o、Claude 3.7 sonnet、Gemini 1.5 Flash、Llama 3.1、DeepSeek-R1、GLM-4-plus等在内的多个AI模型。帮助用户应对各类任务场景，提供精准的智能化解决方案，让复杂工作变得简单高效。</p> <h2 style="font-size: 20px;">MiniWork的官网地址</h2> <ul> <li>官网地址： <a href="https://miniwork.ai/en" target="_blank" rel="noopener">https://miniwork.ai/en</a> </li> </ul>

FloweAI

<p>FloweAI是通用型AI Agent，支持基于自然语言指令高效完成各类任务。FloweAI能快速制作PPT、撰写文档、发送邮件、进行深度研究并生成专业报告。FloweAI界面简洁，支持多任务并行处理，具备强大的智能自动化能力，适用学生、职场人士和企业用户。FloweAI能处理日常任务，应对复杂工作流程，基于持续更新和功能扩展，成为用户日常工作和学习中的得力助手。</p> <h2 style="font-size: 20px;">FloweAI的主要功能</h2> <ul> <li>发送邮件：撰写和发送专业邮件。自动跟进对话，管理邮件通信。</li> <li>深度研究：对任何主题进行综合研究。从多个来源收集见解，汇编详细的研究结果。</li> <li>撰写报告：创建专业报告。分析数据，以清晰、结构化的文档呈现信息。</li> <li>制作演示文稿：设计引人入胜的演示文稿。</li> <li>多任务处理：支持多任务并行处理，支持关闭选项卡后台运行，或设置特定时间自动运行任务。</li> <li>文档生成：自动生成Google Docs文档。</li> <li>网页浏览与自动化：自主浏览网页、自动填写网页表格。</li> </ul> <h2 style="font-size: 20px;">FloweAI的官网地址</h2> <ul> <li>官网地址： <a href="https://floweai.com/" target="_blank" rel="noopener">https://floweai.com/</a> </li> </ul>

Jenius

<p>Jenius 是天聚地合（苏州）科技股份有限公司推出的通用型AI Agent产品。通过多智能体协作架构，将复杂任务分解为多个子任务，由不同的智能体分工完成，例如规划、执行和验证等。模仿了人类处理任务的逻辑，能高效地完成从需求理解到任务执行的全链路闭环操作。Jenius 整合了近千种实时数据接口，涵盖汇率、天气、新闻等多种数据源，结合用户偏好和历史行为，生成高性价比的解决方案。通过 RPA 技术实现自动化操作，例如自动完成旅行预订或报表生成等任务。Jenius 具备自适应学习能力，能根据用户反馈不断优化流程，提供个性化服务。</p>

HiAgent

<p>HiAgent 是字节跳动推出的面向企业级客户的人工智能应用开发平台。帮助企业快速开发大模型应用和智能体（Agent），满足企业对数据安全和隐私的要求。通过低代码开发工具，HiAgent 降低了开发门槛，非技术背景的业务人员也能轻松上手，快速构建和部署 AI 应用。HiAgent 提供了丰富的行业模板和私有化部署选项，能满足不同企业的个性化需求。支持与企业现有系统的深度集成，帮助企业实现复杂流程的自动化和智能化。</p> <div class="banner-des-text_91704 banner-des-text-light_91704">HiAgent基于Agent DevOps理念，提供智能体开发、评测、观测、优化全生命周期管理，支持模型接入、推理、精调及私有化集成，助力企业高效构建生产级高价值智能体，实现从模型到应用的全链路打通。</div> <h2 style="font-size: 20px;">HiAgent的主要功能</h2> <ul> <li> <div class="paragraph">全生命周期管理：涵盖策略规划、能力开发、效果评测、应用发布、线上观测和持续调优等环节，帮助企业高效构建和管理生产级智能体。</div> </li> <li> <div class="paragraph">低代码开发：提供低代码可视化编排工具，业务人员可通过图形界面快速构建智能体或工作流，内置多种提示词模板和行业应用模板。</div> </li> <li> <div class="paragraph">模型接入与支持：内置火山引擎「豆包」系列模型，并支持第三方大模型接入及混合部署。</div> </li> <li> <div class="paragraph">知识库管理：内置企业知识库功能，支持高级检索增强生成（Advanced RAG），可实现上下文“记忆”，确保回答的准确性和时效性。</div> </li> <li> <div class="paragraph">多模态支持：支持文本对话、图像生成、语音合成/识别等多种模态，适配丰富场景。</div> </li> <li> <div class="paragraph">丰富的插件中心：提供100+企业业务插件，覆盖新闻检索、办公工具、图像识别等领域，支持自定义插件。</div> </li> <li> <div class="paragraph">安全与部署：支持公有云托管、混合云部署和本地私有化部署，具备完善的数据防护机制，确保数据安全。</div> </li> <li> <div class="paragraph">团队协作：支持多用户工作空间和多角色权限管理，满足企业协同开发和管理需求。</div> </li> </ul> <h2 style="font-size: 20px;">HiAgent的官网地址</h2> <ul> <li>官网地址： <a href="https://www.volcengine.com/product/hiagent" target="_blank" rel="noopener">https://www.volcengine.com/product/hiagent</a> </li> </ul>

Teamo

<p>Teamo是夕小瑶团队推出的创新的多Agent协作AI生产力平台。通过模拟真实团队协作，由CEO Agent指挥多个专业Agent（如搜索员、咨询顾问、写作员等）协同工作，高效完成复杂任务。核心功能是“超级搜写”，能快速理解用户需求，深度调研信息，生成高质量的文稿。Teamo采用Agent2Agent（A2A）协作模式，可自主调度全球AI模型，通过并行工作和协同竞争，打破传统AI的局限。适用于科研、金融、媒体等多个领域，能快速产出如综述论文、商业策划等复杂内容。</p> <h2 style="font-size: 20px;">Teamo的主要功能</h2> <ul> <li> <div class="paragraph">超级搜写功能：是Teamo的核心功能，能快速理解用户的复杂需求，进行全网深度信息检索与筛选，并将分析后的洞察组织成逻辑清晰、语言流畅的专业文稿。</div> </li> <li>多Agent协作模式 <ul> <li> <div class="paragraph">CEO Agent指挥体系：Teamo的核心在于其独创的“CEO Agent”指挥专业Agent协同工作的模式。CEO Agent作为团队的总指挥，负责理解用户的复杂需求，将任务拆解并分配给不同领域的专业Agent，如搜索员、咨询顾问、写作员、设计师等。</div> </li> <li> <div class="paragraph">Agent角色分工明确：</div> <ul> <li> <div class="paragraph">搜索组长（Search Agent）：负责在全网（包括学术数据库、专业报告、新闻媒体等）进行深度信息检索与筛选。</div> </li> <li> <div class="paragraph">咨询组长（Consultant Agent）：对收集来的信息进行深度分析、提炼观点、洞察趋势。</div> </li> <li> <div class="paragraph">写作组长（Writer Agent）：将分析后的洞察组织成逻辑清晰、语言流畅的专业文稿。</div> </li> <li> <div class="paragraph">美工/研发组长（Designer/Developer Agent）：提供排版、设计、数据分析等更多维度的能力支持。</div> </li> </ul> </li> </ul> </li> </ul> <h2 style="font-size: 20px;">Teamo的技术原理</h2> <ul> <li> <div class="paragraph">A2A协议：A2A协议是多Agent协作的核心，实现不同平台、不同厂商之间的智能体协作。支持Agent之间的安全协作、任务状态管理、用户体验协商和功能发现。</div> </li> <li> <div class="paragraph">MCP协议：MCP协议强调“模型+工具+多Agent”的混合协作流，支持意图声明、任务调度、插件封装和状态传递。进一步提升了Agent的自主理解和协作能力。</div> </li> </ul> <h2 style="font-size: 20px;">Teamo的官网地址</h2> <ul> <li>官网地址： <a href="https://teamo.floatmiracle.com/index" target="_blank" rel="noopener">https://teamo.floatmiracle.com/index</a> </li> </ul>

小云雀

<p>字节跳动旗下剪映团队近期推出了一款面向短视频创作者、电商营销人员以及普通用户的视频内容创作 Agent，名为「小云雀 AI」，主打“灵感即所得，创作零门槛”。「小云雀AI」已经接入豆包和DeepSeek，目前仅安卓可下载，iOS 预计 6 月发布。</p> <p>不同于传统 AI 工具仅提供一个通用输入框，「小云雀AI」先让用户明确选择场景（如智能成片、数字人视频、AI 设计、AI 换背景等），以此避免生成内容“跑题”，提升了交互效率和结果的相关性。</p> <h2 style="font-size: 20px;">如何使用小云雀</h2> <ul> <li>下载应用：安卓用户访问<a class="external" href="https://sj.qq.com/appdetail/com.commercepro.and" target="_blank" rel="noopener nofollow">腾讯应用宝： https://sj.qq.com/appdetail/com.commercepro.and</a></li> </ul>

Company Research Agent

<p>Company Research Agent是基于多智能体框架的公司研究工具，支持一键自动生成全面的公司研究报告。工具从公司网站、新闻文章、财务报告和行业分析等多源数据中收集信息，基于Gemini 2.5 Flash和GPT-4.1-mini等模型进行高语境研究综合及精确的报告格式化和编辑。工具具备AI内容过滤功能，确保信息的相关性和准确性，基于WebSocket实现实时进度流，为用户提供高效、便捷的研究体验。</p> <h2 style="font-size: 20px;">Company Research Agent的主要功能</h2> <ul> <li>多源数据收集：从公司网站、新闻文章、财务报告和行业分析等多种来源收集信息。</li> <li>高语境研究综合：基于 Gemini 2.0 Flash 模型处理和汇总大量数据，生成初始简报。</li> <li>精确报告格式化：用 GPT-4.1-mini 模型进行最终报告的汇编和格式化，确保报告的精确性和一致性。</li> <li>内容过滤与管理：基于 Tavily 的相关性评分系统过滤内容，确保信息的相关性和准确性。</li> </ul> <h2 style="font-size: 20px;">Company Research Agent的项目地址</h2> <ul> <li>项目官网：<a class="external" href="https://companyresearcher.tavily.com/?utm_source=medsci" target="_blank" rel="noopener">https://companyresearcher.tavily.com/</a></li> <li>GitHub仓库：<a class="external" href="https://github.com/pogjester/company-research-agent" target="_blank" rel="noopener nofollow">https://github.com/pogjester/company-research-agent</a></li> </ul>

星辰心流

<p>心流是阿里巴巴推出的基于星辰大模型的AI搜索助手，通过智能技术提升用户的知识获取效率。集成了近3000万篇学术论文资源，覆盖Nature、IEEE、ArXiv等权威期刊，支持学术问答、AI精读、段落总结、智能翻译和名词解释等功能，能帮助研究人员和学生快速理解和分析论文内容。心流提供DeepSeek渠道，联网搜索协助思考过程，具备通用问答、慢推理、私人知识库等功能，适用于市场调研、文档分析、内容创作等多种场景。用户可以通过网页版、手机APP或Chrome浏览器插件使用心流，享受高效、智能的知识管理体验。</p> <h2 style="font-size: 20px;">心流的主要功能</h2> <ul> <li> <div class="paragraph">AI智能搜索与问答</div> <ul> <li> <div class="paragraph">通用问答：支持广泛的问答需求，包括市场调研、活动总结、文档分析等。心流的回答会展示搜索来源，使答案更可信。</div> </li> <li> <div class="paragraph">慢推理：针对复杂问题，支持多轮思考和深度分析，帮助用户进行辩证性思考。</div> </li> <li> <div class="paragraph">学术问答：集成近3000万篇学术论文资源（包括Nature、IEEE、ArXiv等），支持AI精读、段落总结、智能翻译和名词解释。</div> </li> </ul> </li> <li> <div class="paragraph">学术研究辅助</div> <ul> <li> <div class="paragraph">论文资源：提供丰富的学术论文资源，无需下载即可直接阅读。</div> </li> <li> <div class="paragraph">AI辅助阅读器：支持长文本总结、翻译和短文本解释，帮助用户快速理解论文内容。</div> </li> <li> <div class="paragraph">引用跳转：点击论文中的引用标志，可直接显示引用论文的摘要。</div> </li> <li> <div class="paragraph">论文精读功能：用户可以通过选中段落，调用AI能力进行总结、翻译或解释，并将结果保存到笔记中。</div> </li> </ul> </li> <li> <div class="paragraph">知识管理与创作辅助</div> <ul> <li> <div class="paragraph">私人知识库：用户可以上传自己的文献或文档，心流会根据这些内容进行针对性搜索和分析，提升文献阅读效率。</div> </li> <li> <div class="paragraph">笔记功能：用户可以保存AI生成的内容到笔记中，方便随时查看和回顾。</div> </li> <li> <div class="paragraph">内容创作辅助：支持生成播客内容，将文字答案转化为双人对话模式的播客，使内容更生动。</div> </li> </ul> </li> <li class="paragraph">答案生成播客：将文字内容转化为播客，适合不想阅读文字的用户。</li> <li class="paragraph">心流模式：提供无线画布设计，适合汇报或头脑风暴场景。</li> <li class="paragraph">连网搜索：通过DeepSeek渠道，结合联网搜索协助用户思考。</li> </ul> <h2 style="font-size: 20px;">如何使用心流</h2> <ul class="text-md"> <li>访问平台：访问星辰心流的官网 <a href="https://iflow.cn/" target="_blank" rel="noopener">iflow.cn</a></li> </ul>

Operator

<p>Operator是OpenAI推出的首款AI智能体。能像人类一样操作网页浏览器的AI工具，可以自动完成各种在线任务，如预订餐厅、购买机票、填写表单等。Operator基于Computer-Using Agent（CUA）的新模型驱动，模型结合了GPT-4o的视觉能力和强化学习的高级推理能力。通过屏幕截图“观察”网页，使用虚拟鼠标和键盘进行操作。Operator目前处于研究预览阶段，仅对美国的ChatGPT Pro用户开放。未来，OpenAI计划将其扩展到更多用户群体，并集成到ChatGPT中。</p> <p><img src="https://img.medsci.cn/aisite/img//4KBMjmOPNmU5cSLBwi1osey2GgAMZVtXnzOFGkU2.png"></p> <h2 style="font-size: 20px;">Operator的主要功能</h2> <ul> <li>自动化任务执行：Operator能自动完成多种在线任务，如预订餐厅、购买机票、在线购物、填写表单等。</li> <li>多任务处理：支持同时运行多个任务，例如在不同网站上预订旅行和购物。</li> <li>个性化设置：用户可以设置偏好（如首选航空公司）并保存常用任务，以便快速执行。</li> <li>自我纠错与推理能力：在遇到问题时，Operator能通过推理自我调整，若无法解决则交还用户控制。</li> <li>安全与隐私保护：在涉及敏感信息（如登录、支付）时，Operator会请求用户接管，拒绝执行高风险任务。</li> </ul> <h2 style="font-size: 20px;">Operator的技术原理</h2> <ul> <li>Computer-Using Agent (CUA)模型：模型结合了GPT-4o的视觉识别能力和通过强化学习获得的高级推理能力。Operator能理解和交互图形用户界面（GUI），像人类用户一样操作网页。 <ul> <li>感知（Perception）：Operator通过屏幕截图获取当前界面的信息。使用GPT-4o的视觉能力分析截图，识别界面元素如按钮、菜单和文本框。</li> <li>推理（Reasoning）：基于强化学习的推理能力，Operator规划下一步操作。通过“内心独白”机制，评估观察结果、跟踪中间步骤并动态调整。</li> <li>行动（Action）：执行操作，如点击、滚动或键入。在任务完成或需要用户输入时停止操作。</li> </ul> </li> <li>视觉能力：Operator通过屏幕截图“看到”网页内容。识别和理解GUI元素，无需依赖特定操作系统或网络API。</li> <li>强化学习：通过强化学习，Operator获得高级推理能力。能自我纠错，当遇到挑战或犯错时，可以基于推理能力进行自我调整。</li> <li>自我纠错与学习：在执行任务过程中，如果出现错误，Operator能检测到问题所在。通过重新尝试或提示用户确认，Operator能纠正错误。</li> </ul> <h2 style="font-size: 20px;">如何使用Operator</h2> <ul> <li>Operator的官方网站： <a href="https://operator.chatgpt.com/" target="_blank" rel="noopener">https://operator.chatgpt.com/</a> </li> </ul>

Agent Neo

<p>flowith 团队推出了其最新的 AI 智能体产品Agent Neo。是世界首个可以支持无限步骤・无限上下文・无限工具的 AI Agent。</p> <p>据称，Agent Neo 具备处理无限工作流步骤的能力，支持长时间云端执行，并拥有嵌套代理层级结构。用户还可以通过其知识市场将专业知识变现。</p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/05/21/1747778356_80T4oqqeAd.png"></p> <p> </p> <p>官方演示展示了通过单一提示生成完整游戏设计文档的案例，并强调其能够处理超过 1000 个逻辑步骤，7x24 小时运行且不丢失上下文。</p> <p>在公布的基准测试中，flowith Neo 在 GAIA 基准测试中超越了 OpenAI Deep Research、Manus 两款热门 Agent。</p> <p>体验上，flowith Neo 会根据任务进程实时更新 planner，支持定时、延期任务，可 7×24h 工作，可执行长达一周、一个月的任务。同时，flowith Neo 输入 / 输出长度可无限。Flowith 认为，支持无限上下文是 Agent 进化为 AGI 的必经之路。</p> <p>网址：<a href="https://www.oschina.net/action/GoToLink?url=https%3A%2F%2Fflowith.io%2Fblank" target="_blank" rel="noopener">https://flowith.io</a></p>

AgenticSeek

<p>类似 Manus 但基于 Deepseek R1 Agents 的本地模型。</p> <p>Manus AI 的本地替代品，它是一个具有语音功能的大语言模型秘书，可以 Coding、访问你的电脑文件、浏览网页，并自动修正错误与反省，最重要的是不会向云端传送任何资料。采用 DeepSeek R1 等推理模型构建，完全在本地硬体上运行，进而保证资料的隐私。</p> <div> <h2 style="font-size: 20px;">Features：</h2> </div> <ul> <li>100% 本机运行: 本机运行，不使用云端服务，所以资料绝不会散布出去，我的东西还是我的！不会被当作其他服务的训练资料。</li> <li>文件的交互系统: 使用 bash 去浏览本机资料和操作本机系统。</li> <li>自主 Coding: AgenticSeek 可以自己运行、Debug、编译 Python、C、Golang 和各种语言。</li> <li>代理助理: 不同的工作由不同的助理去处理问题。AgenticSeek 会自己寻找最适合的助理去做相对应的工作。</li> <li>规划: 对于复杂的任务，AgenticSeek 会交办给不同的助理进行规划和执行。</li> <li>自主学习: 自动在网路上寻找资料。</li> <li>记忆功能: 对于每次的对话进行统整、保存对话，并且在本地储存用户的使用习惯。</li> </ul> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1">为什么选择 AgenticSeek？</h3> <a id="user-content-为什么选择-agenticseek" class="anchor" href="https://github.com/Fosowl/agenticSeek/blob/main/README_CHS.md#%E4%B8%BA%E4%BB%80%E4%B9%88%E9%80%89%E6%8B%A9-agenticseek" aria-label="Permalink: 为什么选择 AgenticSeek？"></a></div> <ul dir="auto"> <li> <p>🔒 完全本地化与隐私保护 - 所有功能都在您的设备上运行 — 无云端服务，无数据共享。您的文件、对话和搜索始终保持私密。</p> </li> <li> <p>🌐 智能网页浏览 - AgenticSeek 能够自主浏览互联网 — 搜索、阅读、提取信息、填写网页表单 — 全程无需人工操作。</p> </li> <li> <p>💻 自主编码助手 - 需要代码？它可以编写、调试并运行 Python、C、Go、Java 等多种语言的程序 — 全程无需监督。</p> </li> <li> <p>🧠 智能代理选择 - 您提问，它会自动选择最适合该任务的代理。就像拥有一个随时待命的专家团队。</p> </li> <li> <p>📋 规划与执行复杂任务 - 从旅行规划到复杂项目 — 它能将大型任务分解为步骤，并利用多个 AI 代理完成工作。</p> </li> <li> <p>🎙️ 语音功能 - 清晰、快速、未来感十足的语音与语音转文本功能，让您能像科幻电影中一样与您的个人 AI 助手对话。</p> </li> </ul> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/05/20/1747721962_Lr470yGYSB.png"></p> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">安装</h2> <a id="user-content-安装" class="anchor" href="https://github.com/Fosowl/agenticSeek/blob/main/README_CHS.md#%E5%AE%89%E8%A3%85" aria-label="Permalink: 安装"></a></div> <p>确保已安装了 Chrome driver，Docker 和 Python 3.10（或更新）。</p> <p>我们强烈建议您使用 Python 3.10 进行设置，否则可能会发生依赖错误。</p> <p>有关于 Chrome driver 的问题，请参见 Chromedriver 部分。</p> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1">1️⃣ 复制储存库与设置环境变数</h3> <a id="user-content-1️⃣-复制储存库与设置环境变数" class="anchor" href="https://github.com/Fosowl/agenticSeek/blob/main/README_CHS.md#1%EF%B8%8F%E2%83%A3-%E5%A4%8D%E5%88%B6%E5%82%A8%E5%AD%98%E5%BA%93%E4%B8%8E%E8%AE%BE%E7%BD%AE%E7%8E%AF%E5%A2%83%E5%8F%98%E6%95%B0" aria-label="Permalink: 1️⃣ 复制储存库与设置环境变数"></a></div> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>git clone https://github.com/Fosowl/agenticSeek.git cd agenticSeek mv .env.example .env</pre> <div class="zeroclipboard-container"> </div> </div> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1">2️ 建立虚拟环境</h3> <a id="user-content-2️-建立虚拟环境" class="anchor" href="https://github.com/Fosowl/agenticSeek/blob/main/README_CHS.md#2%EF%B8%8F-%E5%BB%BA%E7%AB%8B%E8%99%9A%E6%8B%9F%E7%8E%AF%E5%A2%83" aria-label="Permalink: 2️ 建立虚拟环境"></a></div> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>python3 -m venv agentic_seek_env source agentic_seek_env/bin/activate # On Windows: agentic_seek_env\Scripts\activate</pre> <div class="zeroclipboard-container"> </div> </div> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1">3️⃣ 安装所需套件</h3> <a id="user-content-3️⃣-安装所需套件" class="anchor" href="https://github.com/Fosowl/agenticSeek/blob/main/README_CHS.md#3%EF%B8%8F%E2%83%A3-%E5%AE%89%E8%A3%85%E6%89%80%E9%9C%80%E5%A5%97%E4%BB%B6" aria-label="Permalink: 3️⃣ 安装所需套件"></a></div> <p>自动安装:</p> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>./install.sh</pre> <div class="zeroclipboard-container"> </div> </div> <p>** 若要让文本转语音（TTS）功能支持中文，你需要安装 jieba（中文分词库）和 cn2an（中文数字转换库）：**</p> <div class="snippet-clipboard-content notranslate position-relative overflow-auto"> <pre class="notranslate"><code>pip3 install jieba cn2an </code></pre> <div class="zeroclipboard-container"> </div> </div> <p>手动安装:</p> <p>注意：对于任何操作系统，请确保您安装的 ChromeDriver 与您已安装的 Chrome 版本匹配。运行 <code>google-chrome --version</code>。如果您的 Chrome 版本 &gt; 135，请参阅已知问题</p> <ul dir="auto"> <li>Linux:</li> </ul> <p>更新软件包列表：<code>sudo apt update</code></p> <p>安装依赖项：<code>sudo apt install -y alsa-utils portaudio19-dev python3-pyaudio libgtk-3-dev libnotify-dev libgconf-2-4 libnss3 libxss1</code></p> <p>安装与您的 Chrome 浏览器版本匹配的 ChromeDriver： <code>sudo apt install -y chromium-chromedriver</code></p> <p>安装 requirements：<code>pip3 install -r requirements.txt</code></p> <ul dir="auto"> <li>Macos:</li> </ul> <p>更新 brew：<code>brew update</code></p> <p>安装 chromedriver：<code>brew install --cask chromedriver</code></p> <p>安装 portaudio：<code>brew install portaudio</code></p> <p>升级 pip：<code>python3 -m pip install --upgrade pip</code></p> <p>升级 wheel：<code>pip3 install --upgrade setuptools wheel</code></p> <p>安装 requirements：<code>pip3 install -r requirements.txt</code></p> <ul dir="auto"> <li>Windows:</li> </ul> <p>安装 pyreadline3：<code>pip install pyreadline3</code></p> <p>手动安装 portaudio（例如，通过 vcpkg 或预编译的二进制文件），然后运行：<code>pip install pyaudio</code></p> <p>从以下网址手动下载并安装 chromedriver：<a href="https://sites.google.com/chromium.org/driver/getting-started" rel="nofollow">https://sites.google.com/chromium.org/driver/getting-started</a></p> <p>将 chromedriver 放置在包含在您的 PATH 中的目录中。</p> <p>安装 requirements：<code>pip3 install -r requirements.txt</code></p> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">在本地机器上运行 AgenticSeek</h2> <a id="user-content-在本地机器上运行-agenticseek" class="anchor" href="https://github.com/Fosowl/agenticSeek/blob/main/README_CHS.md#%E5%9C%A8%E6%9C%AC%E5%9C%B0%E6%9C%BA%E5%99%A8%E4%B8%8A%E8%BF%90%E8%A1%8C-agenticseek" aria-label="Permalink: 在本地机器上运行 AgenticSeek"></a></div> <p>建议至少使用 Deepseek 14B 以上参数的模型，较小的模型难以使用助理功能并且很快就会忘记上下文之间的关系。</p> <p>本地运行助手</p> <p>启动你的本地提供者，例如使用 ollama：</p> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>ollama serve</pre> <div class="zeroclipboard-container"> </div> </div> <p>请参阅下方支持的本地提供者列表。</p> <p>更新 config.ini</p> <p>修改 config.ini 文件以设置 provider_name 为支持的提供者，并将 provider_model 设置为该提供者支持的 LLM。我们推荐使用具有推理能力的模型，如 Qwen 或 Deepseek。</p> <p>请参见 README 末尾的 FAQ 部分了解所需硬件。</p> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>[MAIN] is_local = True # 无论是在本地运行还是使用远程提供者。 provider_name = ollama # 或 lm-studio, openai 等.. provider_model = deepseek-r1:14b # 选择适合您硬件的模型 provider_server_address = 127.0.0.1:11434 agent_name = Jarvis # 您的 AI 助手的名称 recover_last_session = True # 是否恢复之前的会话 save_session = True # 是否记住当前会话 speak = True # 文本转语音 listen = False # 语音转文本，仅适用于命令行界面 work_dir = /Users/mlg/Documents/workspace # AgenticSeek 的工作空间。 jarvis_personality = False # 是否使用更"贾维斯"风格的性格，不推荐在小型模型上使用 languages = en zh # 语言列表，文本转语音将默认使用列表中的第一种语言 [BROWSER] headless_browser = True # 是否使用无头浏览器，只有在使用网页界面时才推荐使用。 stealth_mode = True # 使用无法检测的 selenium 来减少浏览器检测</pre> <div class="zeroclipboard-container"> </div> </div> <p>警告：使用 LM-studio 运行 LLM 时，请不要将 provider_name 设置为 <code>openai</code>。请将其设置为 <code>lm-studio</code>。</p> <p>注意：某些提供者（如 lm-studio）需要在 IP 前面加上 <code>http://</code>。例如 <code>http://127.0.0.1:1234</code></p> <p>本地提供者列表</p> <table> <thead> <tr> <th>提供者</th> <th>本地?</th> <th>描述</th> </tr> </thead> <tbody> <tr> <td>ollama</td> <td>是</td> <td>使用 ollama 作为 LLM 提供者，轻松本地运行 LLM</td> </tr> <tr> <td>lm-studio</td> <td>是</td> <td>使用 LM Studio 本地运行 LLM（将 <code>provider_name</code> 设置为 <code>lm-studio</code>）</td> </tr> <tr> <td>openai</td> <td>否</td> <td>使用兼容的 API</td> </tr> </tbody> </table> <p>下一步： <a href="https://github.com/Fosowl/agenticSeek/blob/main/README_CHS.md#Start-services-and-Run">Start services and run AgenticSeek</a></p> <hr> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">Run with an API （透过 API 执行）</h2> <a id="user-content-run-with-an-api-透过-api-执行" class="anchor" href="https://github.com/Fosowl/agenticSeek/blob/main/README_CHS.md#run-with-an-api-%E9%80%8F%E8%BF%87-api-%E6%89%A7%E8%A1%8C" aria-label="Permalink: Run with an API （透过 API 执行）"></a></div> <p>设定 <code>config.ini</code>。</p> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>[MAIN] is_local = False provider_name = openai provider_model = gpt-4o provider_server_address = 127.0.0.1:5000</pre> <div class="zeroclipboard-container"> </div> </div> <p>警告：确保 <code>config.ini</code> 没有行尾空格。</p> <p>如果使用基于本机的 openai-based api 则把 <code>is_local</code> 设定为 <code>True</code>。</p> <p>同时更改你的 IP 为 openai-based api 的 IP。</p> <p>下一步： <a href="https://github.com/Fosowl/agenticSeek/blob/main/README_CHS.md#Start-services-and-Run">Start services and run AgenticSeek</a></p> <hr> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">Start services and Run</h2> <a id="user-content-start-services-and-run" class="anchor" href="https://github.com/Fosowl/agenticSeek/blob/main/README_CHS.md#start-services-and-run" aria-label="Permalink: Start services and Run"></a></div> <p>(启动服务并运行)</p> <p>如果需要，请激活你的 Python 环境。</p> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>source agentic_seek_env/bin/activate</pre> <div class="zeroclipboard-container"> </div> </div> <p>启动所需的服务。这将启动 <code>docker-compose.yml</code> 中的所有服务，包括：</p> <ul dir="auto"> <li>searxng</li> <li>redis（由 redis 提供支持）</li> <li>前端</li> </ul> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>sudo ./start_services.sh # MacOS start ./start_services.cmd # Windows</pre> <div class="zeroclipboard-container"> </div> </div> <p>选项 1: 使用 CLI 界面运行。</p> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>python3 cli.py</pre> <div class="zeroclipboard-container"> </div> </div> <p>选项 2: 使用 Web 界面运行。</p> <p>注意：目前我們建議您使用 CLI 界面。Web 界面仍在積極開發中。</p> <p>启动后端服务。</p> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>python3 api.py</pre> <div class="zeroclipboard-container"> </div> </div> <p>访问 <code>http://localhost:3000/</code>，你应该会看到 Web 界面。</p> <p>请注意，目前 Web 界面不支持消息流式传输。</p> <p>如果你不知道如何开始，请参阅 Usage 部分</p> <hr> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">Usage （使用方法）</h2> <a id="user-content-usage-使用方法" class="anchor" href="https://github.com/Fosowl/agenticSeek/blob/main/README_CHS.md#usage-%E4%BD%BF%E7%94%A8%E6%96%B9%E6%B3%95" aria-label="Permalink: Usage （使用方法）"></a></div> <p>为确保 agenticSeek 在中文环境下正常工作，请确保在 config.ini 中设置语言选项。 languages = en zh 更多信息请参阅 Config 部分</p> <p>确定所有的核心档案都启用了，也就是执行过这条命令 <code>./start_services.sh</code> 然后你就可以使用 <code>python3 cli.py</code> 来启动 AgenticSeek 了！</p> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>sudo ./start_services.sh python3 cli.py</pre> <div class="zeroclipboard-container"> </div> </div> <p>当你看到执行后显示 <code>&gt;&gt;&gt; </code> 这表示一切运作正常，AgenticSeek 正在等待你给他任何指令。你也可以透过设定 <code>config.ini</code> 内的 <code>listen = True</code> 来启用语音转文字。</p> <p>要退出时，只要和他说 <code>goodbye</code> 就可以退出！</p>

WebThinker

<p>WebThinker是中国人民大学、北京智源人工智能研究院和华为泊松实验室等机构提出的深度研究智能体。WebThinker赋能大型推理模型（LRMs）在推理过程中自主进行网络搜索、网页导航和报告撰写。WebThinker基于深度网页探索器和自主思考、搜索、写作策略，让LRMs能动态获取信息，实时生成高质量研究报告。WebThinker基于强化学习的训练策略进一步优化工具使用效率。WebThinker在复杂推理和报告生成任务中表现优异，显著提升LRMs在知识密集型任务中的可靠性和实用性。</p> <h2 style="font-size: 20px;">WebThinker的主要功能</h2> <ul> <li>自主决策：LRM在推理过程中自主判断何时需要外部知识，何时需要更新报告。</li> <li>深度探索：支持进行多步搜索和页面导航，深入挖掘信息。</li> <li>动态撰写：模型能实时撰写、修改报告内容，配备专门的工具集（如写作、检查、编辑），确保报告的连贯性和完整性。</li> <li>工具优化：优化LRM对研究工具的使用效率。</li> </ul> <h2 style="font-size: 20px;">WebThinker的技术原理</h2> <ul> <li>深度网页探索器（Deep Web Explorer）：赋予LRM超越传统简单搜索的能力，基于点击链接和按钮等交互元素在网页间导航，深入挖掘信息。模型自主决定搜索查询，持续探索直至收集到足够信息，返回精炼总结。</li> <li>基于强化学习的训练策略：基于迭代式的在线直接偏好优化（DPO）训练，提升LRM对研究工具（包括搜索、导航、报告撰写工具）的利用效率。构建偏好数据集，优先选择能得出正确答案、高质量报告且工具使用更高效的推理路径。</li> <li>运行模式：问题解决模式为LRM配备深度网页探索器，深入探索网络解决复杂问题。报告生成模式进一步赋予LRM写作、检查和编辑能力，在思考和搜索的同时，迭代式地撰写全面的研究报告。</li> </ul> <h2 style="font-size: 20px;">WebThinker的项目地址</h2> <ul> <li>项目官网：<a class="external" href="https://foremost-beechnut-8ed.notion.site/WebThinker-Empowering-Large-Reasoning-Models-with-Deep-Research-Capability-d13158a27d924a4b9df7f9ab94066b64?utm_source=medsci" target="_blank" rel="noopener">https://foremost-beechnut-8ed.notion.site/WebThinker</a></li> <li>GitHub仓库：<a class="external" href="https://github.com/RUC-NLPIR/WebThinker" target="_blank" rel="noopener nofollow">https://github.com/RUC-NLPIR/WebThinker</a></li> <li>HuggingFace模型库：<a class="external" href="https://huggingface.co/collections/lixiaoxi45/webthinker-6812d5fd1287ee53d68f0557" target="_blank" rel="noopener nofollow">https://huggingface.co/collections/lixiaoxi45/webthinker</a></li> <li>arXiv技术论文：<a class="external" href="https://arxiv.org/pdf/2504.21776" target="_blank" rel="noopener nofollow">https://arxiv.org/pdf/2504.21776</a></li> </ul>

Co-Sight

<p>Co-Sight是中兴通讯开源的超级智能体项目，为协同视觉分析平台及智能自动化底座。采用多智能体架构，构建“数字团队”协同体系，通过DAG任务引擎驱动，实现任务的高效调度与执行。Co-Sight具备自我进化能力，能通过执行记录与模型推理自动生成智能总结报告，形成持续改进闭环。注重安全与可靠性，所有操作在沙箱环境中运行，支持日志追溯、权限管控与合规审计。</p> <h2 style="font-size: 20px;">Co-Sight的主要功能</h2> <ul> <li>智能总结与反思：基于执行过程记录与模型推理，能自动进行复盘，生成智能总结报告，内容包括成功关键点复盘、失败原因定位、优化建议反馈等，形成持续自我进化闭环。</li> <li>多重安全防护：所有操作在受控沙箱环境中进行，防止数据越界或泄露；系统日志实时记录，操作路径全程可追溯；支持权限管控与合规审计，保障企业运营安全无忧。</li> <li>实时监控与智能识别：能实时分析监控视频，快速识别异常行为，通过深度学习技术，准确识别多种行为和对象。</li> <li>灵活部署：支持多种操作系统和硬件平台，易于部署和扩展。</li> </ul> <h2 style="font-size: 20px;">Co-Sight的技术原理</h2> <ul> <li>多智能体架构：Co-Sight采用多智能体（Multi-Agent）架构，构建了“数字团队”协同体系。主管智能体统筹调度多个执行智能体，各司其职，协同完成复杂任务。使系统具备出色的任务拆解与流程协同能力，能动态重规划与自适应容错，在任务执行过程中自动应对突发情况，灵活调整策略，确保流程连续稳定。</li> <li>DAG任务引擎：Co-Sight引入DAG（有向无环图）任务调度机制，智能识别任务中的并发节点，结合多智能体的并发执行能力，显著缩短整体流程周期。提供的丰富工具组件，涵盖多种搜索引擎、语音与图像识别工具、文档处理工具等，能一站式完成从规划到执行的各项任务。</li> <li>深度学习与自然语言处理：Co-Sight融合了深度学习模型和自然语言处理（NLP）技术，基于大规模的神经网络进行推理和决策。系统能处理海量的图像数据、文本信息以及多元的传感器数据</li> </ul> <h2 style="font-size: 20px;">Co-Sight的项目地址</h2> <ul> <li>Github仓库：<a class="external" href="https://github.com/ZTE-AICloud/Co-Sight" target="_blank" rel="noopener nofollow">https://github.com/ZTE-AICloud/Co-Sight</a></li> </ul> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">🛠安装指南</h2> <a id="user-content-installation-guide" class="anchor" href="https://github.com/ZTE-AICloud/Co-Sight#installation-guide" aria-label="永久链接：🛠安装指南"></a></div> <ol dir="auto"> <li> <p>下载项目：您可以选择以下方式下载项目到本地：</p> <p>1. 使用 Git clone 访问<a href="https://github.com/ZTE-AICloud/Co-Sight">https://github.com/ZTE-AICloud/Co-Sight</a>，点击绿色的 'Code' 按钮，</p> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre># 1. Select HTTP protocol git clone https://github.com/ZTE-AICloud/Co-Sight.git # 2. Select SSH git clone git@github.com:ZTE-AICloud/Co-Sight.git cd Co-Sight</pre> <div class="zeroclipboard-container"> </div> </div> <p>2.下载zip文件访问<a href="https://github.com/ZTE-AICloud/Co-Sight">https://github.com/ZTE-AICloud/Co-Sight</a>，点击绿色 'Code' 按钮，选择 'Download ZIP'，下载后解压进入项目目录。</p> </li> <li> <p>准备环境：python版本&gt;=3.11</p> </li> <li> <p>安装依赖项：在项目目录下运行以下命令安装依赖项：</p> </li> </ol> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>pip install -r requirements.txt</pre> <div class="zeroclipboard-container"> </div> </div> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">⚙️配置</h2> <a id="user-content-️configuration" class="anchor" href="https://github.com/ZTE-AICloud/Co-Sight#%EF%B8%8Fconfiguration" aria-label="永久链接：⚙️配置"></a></div> <ol dir="auto"> <li>复制模板<code>.env_template</code>并生成<code>.env</code>（文档已加入<code>.gitignore</code>，安全存储隐私信息）：</li> <li>编辑 <code>.env</code> 配置核心参数： <ol dir="auto"> <li>大模型配置：配置对应的大模型地址、模型名称、API-KEY等，并进一步（可选）配置规划、执行、工具、多模态模型；</li> <li>搜索引擎配置（可选）：配置相关搜索引擎的API-KEY； <ol dir="auto"> <li>Google搜索申请方法：<a href="https://developers.google.com/custom-search/v1/overview?hl=zh-cn#api_key" rel="nofollow">https://developers.google.com/custom-search/v1/overview?hl=zh-cn#api_key</a> <a href="https://github.com/ZTE-AICloud/Co-Sight/blob/master/assets/Pasted_image_20250916105315.png" target="_blank" rel="noopener noreferrer"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://github.com/ZTE-AICloud/Co-Sight/raw/master/assets/Pasted_image_20250916105315.png"></a></li> <li>Tavily Search 申请方式：<a href="https://app.tavily.com/home" rel="nofollow">https://app.tavily.com/home</a> <a href="https://github.com/ZTE-AICloud/Co-Sight/blob/master/assets/Pasted_image_20250502115315.png" target="_blank" rel="noopener noreferrer"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://github.com/ZTE-AICloud/Co-Sight/raw/master/assets/Pasted_image_20250502115315.png"></a></li> </ol> </li> </ol> </li> </ol> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">▶️快速入门</h2> <a id="user-content-️-quick-start" class="anchor" href="https://github.com/ZTE-AICloud/Co-Sight#%EF%B8%8F-quick-start" aria-label="永久链接：▶️ 快速入门"></a></div> <ol dir="auto"> <li>启动服务：cosight_server/deep_research/main.py <a href="https://github.com/ZTE-AICloud/Co-Sight/blob/master/assets/Pasted_image_20250430225822.png" target="_blank" rel="noopener noreferrer"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://github.com/ZTE-AICloud/Co-Sight/raw/master/assets/Pasted_image_20250430225822.png"></a></li> <li>打开浏览器并访问 <code>http://localhost:7788/cosight/</code></li> <li>在输入框中输入您的第一个任务，体验智能研究引擎的强大功能！</li> </ol>

OpenManus

超级智能体，平替Manus

Simular AI

Agent S2：一个开放、模块化、可扩展的计算机使用智能体框架

agent.exe

我想看看 Claude 新的计算机API 有多好用，但他们提供的默认项目感觉太过笨重。这是一个简单的 Electron 应用，可以让 Claude 3.5 Sonnet 直接控制你的本地计算机。我原本计划添加一个“半自动”模式，让用户在执行每个操作之前确认，但每个步骤都太慢了，我觉得这完全没必要。如果模型出现问题，你只需点击“停止”按钮即可结束运行。

分类导航