关键词 "gpt-4 vision" 的搜索结果, 共 24 条, 只显示前 480 条
AutoGPT是一个AI agent(智能体),也是开源的应用程序,结合了GPT-4和GPT-3.5技术,给定自然语言的目标,它将尝试通过将其分解成子任务,并在自动循环中使用互联网和其他工具来实现这一目标,它由GPT-4驱动,自主地开发和管理业务。说简单点,你给AutoGPT一个题目,它会自己思考,给出实现的步骤以及实现细节。 与ChatGPT不同的是,用户不需要不断对AI提问以获得对应回答
Trae是字节跳动推出的一款免费AI编程工具,它集成了Claude3.5和GPT-4o等主流AI 模型,旨在为开发者打造一个全方位的智能编程环境。 Trae,致力于成为真正的 AI 工程师(The Real Al Engineer)。Trae 旗下的 AI IDE 产品,以智能生产力为核心,无缝融入你的开发流程,与你默契配合,更高质量、高效率完成每一个任务。
InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型 InternVL 家族:利用开源套件缩小与商业多模态模型的差距——GPT-4o 的先驱开源替代方案 InternVL3,一个性能强大的开源多模态大模型。其中InternVL3-78B同时在感知能力和推理能力上同时达到了开源第
腾讯混元大模型旗下最新发布的Hunyuan3D-2.0系列开源模型,迎来了五款产品(Turbo、Pro、Standard、Lite、Vision)的全系列开源,构建起完整的工具链体系,标志着中国大模型技术首次在多模态领域实现完整开源布局。从30秒生成高精度3D资产的开源框架,到覆盖文本、图像、视频的全模态开源体系,腾讯混元大模型正以开放姿态引领一场全球范围内的数字创作革命。 这一突破得益于腾讯自
基于midjourney,GPT-4o等大语言模型为基座,进一步完善应用开发的xstech.one,能生成海报,支持中文。不仅可以打开就用现成的Prompt对话,也提供了绘图类的prompt生成器,可以直接绘图。
Supervity AI 提供一套旨在提升业务效率的智能体。该平台作为公司知识的中心枢纽,根据内部文档提供精准的答案。智能体可以连接上千种不同的软件应用程序,管理涉及多个步骤的工作流程,从而实现现有业务系统的自动化。 用户无需编写代码即可构建自动化流程。名为“协同浏览 AI”的功能可实时指导员工使用软件,同时另一位智能体可以安全自然地处理客户对话。Vision AI 智能代理通过查看图像和视
PapertoCode 是一款专业的 AI 工具,旨在将研究论文方法论直接转化为可执行的 Python 代码。PapertoCode 的核心目标是简化开发者和研究人员将前沿研究成果付诸实践的流程。其实现方式是分析研究论文的实施部分,提取关键方法论,并将其转换为可立即使用的 Python 代码。例如,如果一篇论文描述了一种用于图像分类的新型机器学习模型,包括数据预处理步骤、模型架构、训练流程和评估指
MCP Server for Wayland
OpenCV MCP Server provides OpenCV's image and video processing capabilities through the Model Context Protocol (MCP). Access powerful computer vision tools for tasks ranging from basic image manipulat
MCP Server for Groundlight
🚀 OpenClient- The CLI-Based Universal AI Application Connector! An open-source Model Context Protocol (MCP) implementation that turbocharges LLMs by context provisioning standardization. Quickly conne
The definitive Vibe Coder's sanity check MCP server: Prevent cascading errors in AI workflows by implementing strategic pattern interrupts. Uses tool call "Vibe Check" with LearnLM 1.5 Pro (Gemini API
A GUI Agent application based on UI-TARS(Vision-Language Model) that allows you to control your computer using natural language.
A Model Context Protocol server for AI vision analysis using Gemini Vision API
A Model Context Protocol (MCP) tool server for OpenAI's GPT-4o/gpt-image-1 image generation and editing APIs.
Hosts the Azure-Ai-Vision-Face Liveness Mcp-Server
A Streamlit-based chatbot interface powered by OpenAI GPT-4o that intelligently routes user input to custom MCP tools such as GPT chat, image generation, Supabase queries, and text-to-speech.
The repo is based on Model Context procotol of Python SDK, including DL models in CV, and provide the abilities to the LLM or vLLM model
MCP (Model Context Protocol) server that utilizes the Google Gemini Vision API to interact with YouTube videos.
MCP Server using OpenRouter models to get descriptions for images
Mirror of
只显示前20页数据,更多请搜索
Showing 337 to 360 of 383 results