斯坦福大学在AI辅助学术研究领域取得了重大进展,他们的开源工具STORM进化后新增了协作对话机制Co-STORM。这一先进功能使得AI实体能够参与圆桌讨论,模拟人类般的互动。Co-STORM通过整合多个AI专家和一个主持人,在几分钟内生成关于特定主题的深入、经过充分研究的文章,同时具备跟踪和参与对话的能力,通过动态思维导图展示。该工具生成具有多元视角的详细报告,并且可在线免费获取,对研究人员和学生来说是一项值得关注的发展。 Co-STORM框架及其对学术研究的影响已被EMNLP 2024主要会议认可,突显了其对学术写作和信息发现未来的潜在影响。- 斯坦福大学推出了一款名为STORM的工具,利用大语言模型(LLM)辅助编写类维基百科文章。 - STORM可以将输入的主题转换为长篇文章或研究论文,并以PDF格式下载。 - STORM通过检索、多角度提问和模拟专家对话等方式生成写作大纲和内容报告。 - STORM擅长需要大量研究和引用的写作任务。 - STORM的GitHub上的Star量已经超过了24k。 - STORM团队推出了全新功能Co-STORM,引入了协作对话机制和轮次管理策略。 - Co-STORM包括Co-STORM LLM专家、主持人和人类用户。 - Co-STORM模拟用户、观点引导专家和主持人之间的协作对话。 - Co-STORM的评估结果表明其在报告质量和对话质量方面优于基线模型。 - Co-STORM的主持人角色可以根据未使用信息提出问题,帮助用户发现更多信息。 - Co-STORM可以帮助用户找到与目标相关的更广泛、更深层次的信息。 STORM 认为研究过程自动化的核心是自动提出好的问题。直接提示语言模型提出问题效果并不好。为了提高问题的深度和广度,STORM 采用了两种策略: 观点引导提问:给定输入主题,STORM 通过调查类似主题的现有文章来发现不同的观点,并使用它们来控制提问过程。 模拟对话:STORM 模拟维基百科作者和基于互联网资源的主题专家之间的对话,使语言模型能够更新其对主题的理解并提出后续问题。 斯坦福又推出了STORM的升级版 ——Co-STORM,引入了协作对话机制,并采用轮次管理策略,实现了AI 智能体间的圆桌讨论和流畅的协作式 AI 学术研究。

相关推荐

xinxiang-心响

xinxiang-心响

心响是一个通用超级智能体,用户仅需一句话即可一键完成复杂任务。接收用户需求后,心响App能像「AI指挥官」一样下达命令,先将用户提出的复杂需求拆解成一系列子任务,然后通过自主规划与多智能体协作,调度多个领域智能体、使用多种工具解决问题,确保任务分解到位、执行有力,最终交付与用户需求契合的成果。 无论是在例行任务、智慧图表、深度研究、法律咨询等工作场景上,还是在摸鱼游戏、试题讲解、城市旅游、AI相亲、健康咨询等生活场景上,心响App都能高效满足用户的多样化需求,还提供了图文、视频、PDF文件、交互式网页应用等多种交付形态。它不仅集成了搜索、网页浏览、代码执行器、网页部署等工具,还能自主学习,不断提升产品效果与交付体验,让用户从复杂任务中得到解放,轻松“坐享其成”。

UI-TARS

UI-TARS

UI-TARS-1.5 是一款基于强大的视觉语言模型构建的开源多模态代理,能够在虚拟世界中高效地执行各种任务。 UI-TARS-1.5 这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。 UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”。 该版本的模型中,团队还展示了一个新的愿景:以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比,游戏更多依赖直观的、常识性的推理,并较少依赖专业知识,因此,游戏通常是评估和提升未来模型通用能力的理想测试场景。 据介绍,UI-TARS 是一个原生 GUI 智能体,具备真实操作电脑和手机系统的能力,同时,还可操控浏览器、完成复杂交互任务。UI-TARS-1.5 能够实现精准 GUI 操作,基于团队在四个维度的技术探索: 视觉感知增强:依托大规模界面截图数据,模型可理解元素的语义与上下文,形成精准描述。 System 2 推理机制:在动作前生成“思维(thought)”,支持复杂任务的多步规划与决策。 统一动作建模:构建跨平台标准动作空间,通过真实轨迹学习提升动作可控性与执行精度。 可自我演化的训练范式:通过自动化的交互轨迹采集与反思式训练,模型持续从错误中改进,适应复杂环境变化。

browser-use

browser-use

Browser Use 是一个AI驱动浏览器自动化开源框架,让我们可以通过自然语言操作浏览器。Browser-use 是一个强大的浏览器自动化框架,它结合了大语言模型(LLM)的能力与浏览器操作,使AI 能够像人类一样浏览网页、填写表单、点击按钮等。目前在 GitHub 上已经获得了惊人的 49.9k star

AutoGPT

AutoGPT

AutoGPT是一个AI agent(智能体),也是开源的应用程序,结合了GPT-4和GPT-3.5技术,给定自然语言的目标,它将尝试通过将其分解成子任务,并在自动循环中使用互联网和其他工具来实现这一目标,它由GPT-4驱动,自主地开发和管理业务。说简单点,你给AutoGPT一个题目,它会自己思考,给出实现的步骤以及实现细节。 与ChatGPT不同的是,用户不需要不断对AI提问以获得对应回答,在AutoGPT中只需为其提供一个AI名称、描述和五个目标,然后AutoGPT就可以自己完成项目。

OpenHands

OpenHands

OpenHands提供强大的兼容性,支持任意大型语言模型(LLM),支持多智能体协作提高开发效率,减少开发者的编码工作量。并且提供了强大的交互机制、安全的沙箱环境、多代理协作能力及全面的评估框架,支持用户实现新代理的开发、安全的代码执行、多代理间的协调及在多种任务上的评估。

OpenManus

OpenManus

OpenManus是由MetaGPT社区的成员在短短 3 小时内开发完成的开源版Manus,与 Manus 在云端运行不同,OpenManus 直接在用户本地电脑上运行,让用户能够亲眼目睹 AI 代理如何操控自己的电脑完成各种任务。

Manus首款通用Agent(自主智能体)

Manus首款通用Agent(自主智能体)

Manus作为全球首款真正意义上的通用AI Agent,具备从规划到执行全流程自主完成任务的能力,如撰写报告、制作表格等。它不仅生成想法,更能独立思考并采取行动。

SparkAI

SparkAI

SparkAI 正在解锁下一代自动化应用的发布和规模化。我们致力于为任何注重正常运行时间、准确性或安全性的 AI 用例弥合商业化差距。

MedSci AI

MedSci AI

梅斯医学AI智能体,有超过40款不同的智能体,同时支持多国语言