关键词 "http" 的搜索结果, 共 24 条, 只显示前 480 条
flowith 团队推出了其最新的 AI 智能体产品Agent Neo。是世界首个可以支持无限步骤・无限上下文・无限工具的 AI Agent。 据称,Agent Neo 具备处理无限工作流步骤的能力,支持长时间云端执行,并拥有嵌套代理层级结构。用户还可以通过其知识市场将专业知识变现。 官方演示展示了通过单一提示生成完整游戏设计文档的案例,并强调其能够处理超过 1000 个逻辑步骤,7
谷歌推出了名为 Jules 的 AI 编程代理 (Coding Agent),目前处于公开 Beta 测试阶段,需要申请,用户可以免费使用。 Jules 旨在帮助开发者修复错误、更新依赖、迁移代码和添加新功能。它与 GitHub 集成,异步执行任务。用户分配任务后,Jules 会在虚拟机中创建开发环境、安装依赖、编写测试、进行更改、运行测试并提交拉取请求,同时展示工作进展。 简单来说,它能
Blip 3o 是一个基于 Hugging Face 平台的应用程序,利用先进的生成模型从文本生成图像,或对现有图像进行分析和回答。该产品为用户提供了强大的图像生成和理解能力,非常适合设计师、艺术家和开发者。此技术的主要优点是其高效的图像生成速度和优质的生成效果,同时还支持多种输入形式,增强了用户体验。该产品是免费的,定位于开放给广大用户使用。 需求人群: "该产品适合设计师、开发者和
Invoice Mama是一款免费的发票生成器,能够帮助用户快速创建和发送专业的发票给客户,方便跟踪付款和管理财务。其主要优点包括简单易用、快速生成发票、安全可靠等。Invoice Mama定位于为自由职业者和小型企业提供财务管理工具。 需求人群: Invoice Mama适合自由职业者和小型企业,帮助他们更轻松地管理财务,快速生成专业发票,并加快收款速度。其简单易用的功能和安全保障使
OutfitAI是一款AI服装搭配生成器,利用虚拟试衣技术帮助用户快速浏览各种时尚服装,适用于时尚购物。该产品的主要优点在于提供虚拟试穿功能,节省购物时间并帮助用户发现新款式。定位于时尚爱好者和购物者。 需求人群: OutfitAI适合时尚爱好者和购物者,帮助他们在购物前快速浏览并选择合适的服装,节省时间和提供个性化推荐。 使用场景示例: 用户A在OutfitAI上上传照片
英纬达发布了其最新的 Cosmos-Reason1系列模型,旨在提升人工智能在物理常识和具身推理方面的能力。随着人工智能在语言处理、数学及代码生成等领域取得显著进展,如何将这些能力扩展到物理环境中成为了一大挑战。 物理 AI(Physical AI)不同于传统的人工智能,它依赖于视频等感官输入,并结合现实物理法则来生成反应。物理 AI 的应用领域包括机器人和自动驾驶车辆等,需要具备常识推理能
谷歌宣布开源全新医疗 AI 模型 ——MedGemma。这款基于 Gemma3架构的模型专为医疗领域设计,具备强大的多模态图像和文本理解能力,旨在提升医疗诊断与治疗效率。 MedGemma 提供两种配置选项,分别为4B 和27B 参数模型。4B 参数模型主要用于医疗图像的分类和解读,能够生成详细的诊断报告或回答与图像相关的问题;而27B 参数模型则专注于处理临床文本,特别适合于患者分诊和决策辅助
AnimeGamer 是基于多模态大型语言模型(MLLM)构建的,可以生成动态动画镜头和角色状态更新,为用户提供无尽的动漫生活体验。它允许用户通过开放式语言指令与动漫角色互动,创建独特的冒险故事。该产品的主要优点包括:动态生成与角色交互的动画,能够在不同动漫之间创建交互,丰富的游戏状态预测等。 快速入门 🔮 环境设置 要设置推理环境,您
AIFlowy 是一个基于 Java 开发的企业级 AI 底层平台,致力于为中国开发者和企业提供高效、开放、本土化的 AI 工具与平台。我们对标字节 Coze、腾讯元器和 Dify 等产品,但更加聚焦于 toB 场景下的深度应用与落地实践。 我们的使命是: “成为中国最具有影响力的人工智能品牌之一,引领核心技术自主创新,推动中国 AI 技术生态繁荣发展和科技自立。” 我们的愿景是:
昆仑万维面向全球市场,同步发布天工超级智能体(Skywork Super Agents)。这款产品采用了AI agent架构和deep research技术,能够一站式生成文档、PPT、表格(excel)、网页、播客和音视频多模态内容。它具有强大的deep research能力,在GAIA榜单上排名全球第一,超过了OpenAI Deep Research和Manus。 天工超级智能体(Skywo
Devstral是Mistral AI和All Hands AI推出的专为软件工程任务设计的编程专用模型。Devstral在解决真实世界软件问题上表现出色,在SWE-Bench Verified基准测试中,得分46.8%大幅领先其他开源模型。Devstral支持处理复杂代码库中的上下文关系、识别组件间联系及发现细微的代码错误。Devstral轻量级,能在单个RTX 4090或32GB内存的Mac上
MMaDA(Multimodal Large Diffusion Language Models)是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型,支持跨文本推理、多模态理解和文本到图像生成等多个领域实现卓越性能。模型用统一的扩散架构,具备模态不可知的设计,消除对特定模态组件的需求,引入混合长链推理(CoT)微调策略,统一跨模态的CoT格式,推出UniGRPO,针对扩散基础模型的统
Sparkify是谷歌推出的AI动画视频生成工具,基于Gemini 2.5和Veo 2模型。用户输入问题或复杂概念后,Sparkify能在2分钟内生成直观的动画短视频,讲解知识点。Sparkify多模态处理能力结合Google Search数据,确保内容准确且与最新信息同步。Sparkify适用于教育、科普和企业培训等领域,提升理解效率和传播效果。Sparkify目前处于内测阶段,访问官网加入等候
DreamGen是英伟达推出的创新的机器人学习技术,基于AI视频世界模型生成合成数据,让机器人能在梦境中学习新技能。DreamGen仅需少量现实视频数据,能生成大规模逼真的训练数据,实现机器人在新环境中的行为泛化和环境泛化。DreamGen的四步流程包括微调视频世界模型、生成虚拟数据、提取虚拟动作以及训练下游策略。DreamGen让机器人在没有真实世界数据支持的情况下,凭文本指令完成复杂任务,显著
Context7 是 Upstash 推出的AI编程辅助工具,为大型语言模型(LLMs)和 AI 代码编辑器提供最新、版本特定的文档和代码示例。通过解析文档、丰富内容、向量化和重新排名等步骤,确保开发者能获取到准确且最新的代码示例和文档。Context7 支持多种工具,如 Cursor、Windsurf、Claude Desktop 等,通过模型上下文协议(MCP)实现集成。 使用 Contex
Graphiti 是一个用于构建和查询时序感知知识图谱的框架,专为在动态环境中运行的 AI 代理量身定制。与传统的检索增强生成 (RAG) 方法不同,Graphiti 持续将用户交互、结构化和非结构化企业数据以及外部信息集成到一个连贯且可查询的图中。该框架支持增量数据更新、高效检索和精确的历史查询,无需完全重新计算图谱,因此非常适合开发交互式、情境感知的 AI 应用程序。 使用 Graphiti
凹凸工坊是专业的在线 AI 手写稿件生成工具,支持将Word文档一键转换为真实的手写稿图片。工具提供多种手写字体、纸张背景及涂改率和凌乱度的调整功能,模拟真实的手写场景,生成的图片无水印且支持高清打印(600dpi)。工具的超级DIY功能和放宽的文件大小限制,进一步提升使用体验,适用于需要手写稿的多种场景,如作业、书信等。 凹凸工坊的主要功能 文档转换:将Word文档一键转换为手写稿图
BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语义级特征。BAGEL遵循“下一个标记组预测”范式进行训练,使用海量多模态标记数据进行预训练,包括语言、图像、视频和网络数据。在性能方面,BAGEL在多模态理解基准测试中超越了Qwen2.5-VL和InternVL-2.5等顶级开源视觉语言模型
AutoBE 是 AI 驱动的后端服务器代码生成工具,通过用户描述需求自动生成高质量的后端代码。基于 TypeScript、NestJS、Prisma 和 Postgres 等技术栈构建,强调“氛围编码”(Vibe Coding),通过持续的用户反馈和编译器反馈来迭代优化代码。AutoBE 结合瀑布模型和螺旋模型的优点,确保代码的可靠性和安全性。 AutoBE的主要功能 需求分析(An
Moondream是一个免费开源的小型的人工智能视觉语言模型,虽然参数量小(Moondream1仅16亿,Moondream2为18.6亿)但可以提供高性能的视觉处理能力,可在本地计算机甚至移动设备或 Raspberry Pi 上运行,能够快速理解和处理输入的图像信息并对用户提出的问题进行解答。该模型由开发人员vikhyatk推出,使用SigLP、Phi-1.5和LLaVa训练数据集和模型权重初始
mPLUG-Owl3是阿里巴巴推出的通用多模态AI模型,专为理解和处理多图及长视频设计。在保持准确性的同时,显著提升了推理效率,能在4秒内分析完2小时电影。模型采用创新的Hyper Attention模块,优化视觉与语言信息的融合,支持多图场景和长视频理解。mPLUG-Owl3在多个基准测试中达到行业领先水平,其论文、代码和资源已开源,供研究和应用。 mPLUG-Owl3的主要功能 多
TradingAgents是加利福尼亚大学洛杉矶分校和麻省理工学院推出的多代理LLM金融交易框架,能模拟现实世界的交易公司环境。TradingAgents整合多个具有不同角色和风险偏好的LLM代理,如基本面分析师、情绪分析师、技术分析师、交易员和风险经理等,实现对复杂金融数据的全面分析与处理。代理基于代理辩论和对话进行交易决策,结合结构化输出与自然语言对话,提高决策的精确性和灵活性。实验结果表明,
NVILA是NVIDIA推出的系列视觉语言模型,能平衡效率和准确性。模型用“先扩展后压缩”策略,有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化,减少资源消耗,在多项图像和视频基准测试中达到或超越当前领先模型的准确性,包括Qwen2VL、InternVL和Pixtral在内的多种顶尖开源模型,及GPT-4o和Gemini等专有模型。NVILA引入时间定位、机器人导航和医学成像等
DMind是DMind研究机构发布的专为Web3领域优化的大型语言模型。针对区块链、去中心化金融和智能合约等场景深度优化,使用Web3数据微调采用RLHF技术对齐。DMind在Web3专项基准测试中表现优异,性能远超一线通用模型,推理成本仅为主流大模型的十分之一。包含DMind-1和DMind-1-mini两个版本,前者适合复杂指令和多轮对话,后者轻量级,响应快、延迟低,适合代理部署和链上工具。
只显示前20页数据,更多请搜索
Showing 145 to 168 of 325 results