多模态大模型 - 梅斯AI导航站

通义tongyi

通义，由通义千问更名而来，是阿里云推出的语言模型，于2023年9月13日正式向公众开放。属于(AI Generated Content，AIGC)领域，是一个MaaS（模型即服务）的底座。为多模态大模型(Multimodal Models)。通义意为“通情，达义”，具备全副AI能力

InternVL– AI Lab开源的多模态大模型

InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型InternVL 家族：利用开源套件缩小与商业多模态模型的差距——GPT-4o 的先驱开源替代方案InternVL3，一个性能强大的开源多模态大模型。其中InternVL3-78B同时在感知能力和推理能力上同时达到了开源第一的性能

orence潮汐AI

潮汐AIGC问答系统，聚合多模态大模型、知识库、插件和工作流等 Agent 构建能力，致力于为用户提供 LLM 大语言模型落地应用的强大在线平台。新版本采用 Gin + Vite5 TypeScript Vue3 技术栈，拥有极致的响应速度；在更简洁的界面下保留完整功能，拥有更多的细节但是更加轻量化，拥有新的UI及交互方式，内置6组不同风格的显示效果，以及更流畅的使用体验。 AI对话

KuaiMod

KuaiMod 是快手推出的基于多模态大模型的短视频质量判别框架，能高效识别和过滤有害及低质量内容。框架借鉴普通法（Common Law）体系，基于案例驱动的方式动态更新审核策略，快速适应短视频平台上内容的快速变化。KuaiMod 结合视觉语言模型（VLM）和链式推理（Chain-of-Thought,中 CoT）技术，基于用户反馈进行强化学习，实现精准的内容判别。KuaiMod 离线测试准确率高

如影

如影数字人超级直播间，行业首创多模态智能运营，依托“商汤日日新SenseNova”多模态大模型，具备智能选品、素材提炼等能力，能够大幅提高直播间运营效率。无需视频采集即可复刻现有直播间，当日复刻当日播。支持多平台直播，智能互动逼真形象引流吸粉

Ming-Lite-Omni

Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型。模型基于MoE架构，融合文本、图像、音频和视频等多种模态的感知能力，具备强大的理解和生成能力。模型在多个模态基准测试中表现出色，在图像识别、视频理解、语音问答等任务上均取得优异成绩。模型支持全模态输入输出，能实现自然流畅的多模态交互，为用户提供一体化的智能体验。Ming-Lite-Omni具备高度的可扩展性，可广泛用在OCR识别、知识问

UniWorld

北大团队通过对GPT-4o-Image的深入实验，突破性发现其在视觉特征提取环节中，相较于传统变分自编码器（VAE），更依赖语义编码器进行处理。这一关键洞察为统一模型架构设计开辟了全新路径。基于上述研究成果，团队推出UniWorld-V1统一生成框架。该框架创新性融合高分辨率对比语义编码器与多模态大模型，仅需2.7M训练样本，即可实现图像理解、生成、编辑、感知等多任务处理。实验数据显示，在

Qwen VLo

Qwen VLo 是通义千问团队推出的多模态统一理解与生成模型。在多模态大模型的基础上进行了全面升级，能“看懂”世界，能基于理解进行高质量的再创造，实现了从感知到生成的跨越。能精准理解图像内容，在此基础上进行一致性和高质量的生成。用户可以通过自然语言指令要求模型对图像进行风格转换、场景重构或细节修饰，模型能灵活响应并生成符合预期的结果。Qwen VLo 支持多语言指令，打破语言壁垒，为全球用户提供

搜索结果