Realistic Vision - 梅斯AI导航站

MCP Image Recognition Server

An MCP server that provides image recognition 👀 capabilities using Anthropic and OpenAI vision APIs

Lovart

Lovart 全球首个设计 Agent 体验 Lovart 的三个特点：一、全链路设计和执行，一句话搞定以前的文生图工具，它们所提供的任务是“生成图片”这一环。而设计 Agent，则像一位“设计执行官”，覆盖从创意拆解到专业交付的整个视觉流程。从意图拆解 → 任务链 → 最后成品，一句话全搞定。单次可以执行上

DreamFit

DreamFit是什么 DreamFit是字节跳动团队联合清华大学深圳国际研究生院、中山大学深圳校区推出的虚拟试衣框架，专门用在轻量级服装为中心的人类图像生成。框架能显著减少模型复杂度和训练成本，基于优化文本提示和特征融合，提高生成图像的质量和一致性。DreamFit能泛化到各种服装、风格和提示指令，生成高质量的人物图像。DreamFit支持与社区控制插件的无缝集成，降低使用门槛。 Dre

Moondream

Moondream是一个免费开源的小型的人工智能视觉语言模型，虽然参数量小（Moondream1仅16亿，Moondream2为18.6亿）但可以提供高性能的视觉处理能力，可在本地计算机甚至移动设备或 Raspberry Pi 上运行，能够快速理解和处理输入的图像信息并对用户提出的问题进行解答。该模型由开发人员vikhyatk推出，使用SigLP、Phi-1.5和LLaVa训练数据集和模型权重初始

RelightVid

RelightVid是上海 AI Lab、复旦大学、上海交通大学、浙江大学、斯坦福大学和香港中文大学推出用在视频重照明的时序一致性扩散模型，支持根据文本提示、背景视频或HDR环境贴图对输入视频进行细粒度和一致的场景编辑，支持全场景重照明和前景保留重照明。模型基于自定义的增强管道生成高质量的视频重照明数据对，结合真实视频和3D渲染数据，在预训练的图像照明编辑扩散框架（IC-Light）基础上，插入可

TrackVLA

银河通用发布全球首个产品级端到端具身 FSD 大模型 ——TrackVLA，一款具备纯视觉环境感知、语言指令驱动、可自主推理、具备零样本（Zero-Shot）泛化能力的具身大模型。 TrackVLA 是银河通用推出的产品级导航大模型，纯视觉环境感知、自然语言指令驱动、端到端输出语言和机器人动作，是一个由仿真合成动作数据训练的“视觉-语言-动作”（Vision-Language-Action, V

CreateVision AI

CreateVision AI 是AI图像生成平台，平台融合 Flux.1 Dev 和 GPT-Image-1 两大顶级模型，为用户提供开源与闭源技术路线的极致体验。平台支持用户将创意想法瞬间转化为高质量图像，轻松生成逼真照片、卡通、插画和抽象艺术。支持样式、颜色、光照、构图的 4D 精准控制，满足专业创作需求。CreateVision AI 生成的图像能用在商业用途，无数量限制。官方网站：h

Soulmaite

Soulmaite is the world's first platform for ultra-realistic relationships with virtual AI companions via Telegram. Our intelligent app delivers personalized conversations, offering emotional companion

Genie Envisioner

智元机器人推出行业首个机器人世界模型开源平台Genie Envisioner（GE）。GE基于约3000小时真实机器人操控视频数据，整合未来帧预测、策略学习与仿真评估，形成闭环架构，使机器人实现从“看”到“想”再到“动”的端到端推理与执行。链接： Project page：https://genie-envisioner.github.io/ Arxiv：https://a

Waver 1.0 – 字节跳动推出的AI视频生成模型

Waver 1.0 是字节跳动推出的新一代视频生成模型，基于修正流 Transformer 架构，支持文本到视频（T2V）、图像到视频（I2V）和文本到图像（T2I）生成，可在单一框架内完成，无需切换模型。支持高达 1080p 的分辨率和 2-10 秒的灵活视频长度，擅长捕捉复杂运动，生成的视频在运动幅度和时间一致性上表现出色。在 Waver-Bench 1.0 和 Hermes 运动测试集上，W

InfiniteTalk AI

Discover InfiniteTalk AI at www.infinitetalk.net — an advanced platform for creating realistic, dynamic, and natural AI-powered voice conversations. Perfect for creators, educators, and storytellers l

Fish Speech – 开源的高效文本到语音合成TTS工具

Fish Speech 是一款由 Fish Audio 开源的文本转语音（TTS）工具，支持中、英、日三国语言。它经过 15 万小时的多语种数据训练，能生成接近人类水平的自然语音。其最新版本为 1.2，拥有以下核心优势：核心功能与技术亮点高效且低门槛：只需 4GB 显存即可运行，极大地降低了硬件要求。此外，快速的推理速度能让您在短时间内获得所需的语音输出，提升了整体使用体验。支持多种模型：集成了包

Sora 2 AI Video Generator

Sora 2 is OpenAI's advanced AI model for video and audio generation. It creates cinematic clips from text, images, or video inputs with real-world physics, synchronized speech, music, and sound effect

Sora Video Downloader

Creators today want flexibility — to generate, edit, and store videos anywhere. The sora downloader trend is growing fast because it gives full control over AI-generated media.With Sora 2, OpenAI intr

搜索结果