toB 场景 - 梅斯AI导航站

MarkItDown--一键把各种格式的文件转化为结构化 Markdown格式

微软开源的一个项目 MarkItDown，这么小的一个工具获得了 7w+ star。但它干的事儿特别朴素，把各种格式的文件（Word、PDF、Excel、PPT、图片、音频、HTML、JSON、甚至 zip 包）一键变成结构化 Markdown。是的，保留标题、列表、表格、链接结构的那种 Markdown。为什么我会觉得这个工具值得讲讲？因为这其实解决了一个我们常常下意识忽略的问题：在做

HuMo AI--通过协作多模态调节生成以人为中心的视频

HuMo 是一个统一的、以人为本的视频生成框架，旨在通过多模态输入（包括文本、图像和音频）生成高质量、细粒度且可控的真人视频。它支持强大的文本提示跟随功能、一致的主体保留以及同步的音频驱动动作。来自文本图像的 VideoGen - 使用文本提示结合参考图像自定义角色外观、服装、化妆、道具和场景。VideoGen from Text-Audio - 仅通过文本和音频输入即可生成音频同步的视频

MiniMax Music--新一代音乐生成模型

MiniMax发布新一代音乐生成模型Music 1.5，拓宽AI音乐创作新边界。Music 1.5 开启了“一人即乐队”的新时代，生成时长升至4分钟，并具备四大新突破：强控制力、人声自然饱满、编曲层次丰富、歌曲结构清晰。Music 1.5 支持长达4分钟的音乐创作，出品即成品，不再仅是demo小样，并可对歌曲的风格、情绪和场景进行自定义和强控制。只需给出一句简单的自然语言描述，Music 1.5

小美 – 美团推出的首款AI生活Agent

小美是美团正式发布的首款AI生活Agent。定位为“小而美的AI生活小秘书”，通过自然语言交互为用户提供便捷的生活服务。小美能快速响应用户指令，完成外卖点单、餐厅推荐、订座导航等操作。例如，用户只需说“给我点一份和府捞面的鸡丝凉面”，小美能迅速完成点单并支付。小美基于美团自研的龙猫大模型，能提供从决策辅助到直接代办的深度服务。支持定时任务，用户可以设置每天早上10点点一杯星巴克的冰美式送到公司，小

FunAudio-ASR-阿里巴巴推出FunAudio-ASR语音识别大模型

阿里巴巴推出FunAudio-ASR语音识别大模型，专为解决企业落地难题。模型通过创新的Context增强模块，有效优化了“幻觉”“串语种”等关键问题。在高噪声等复杂场景下，其识别准确率显著提升，幻觉率从78.5%降至10.7%。目前，FunAudio-ASR 已在钉钉的“AI听记”、视频会议、DingTalk A1硬件等多个场景中应用，验证了其在真实企业环境中的稳定性和高精度识别能力，特别是在垂

Youtu-GraphRAG-图检索增强生成框架

腾讯优图实验室进一步开源 Youtu-GraphRAG——这是一款全新的图检索增强生成框架，主打大语言模型+GraphRAG模式，把知识组织成「图谱」，再交给大语言模型去检索和推理，帮助大模型在处理复杂问答类任务时减少「胡言乱语」，回答更精准、更可追溯。它尤其适用于企业知识库问答、科研文档解析、个人知识库、私域知识管理等知识密集型场景。要减少胡编乱造，关键在于更精准的检索与推理。Youtu-Gra

ZipVoice-零样本单说话人语音合成模型

小米集团AI实验室新一代 Kaldi 团队发布了基于 Flow Matching 架构的ZipVoice系列语音合成（TTS）模型——ZipVoice（零样本单说话人语音合成模型）与ZipVoice-Dialog（零样本对话语音合成模型）。作为 zipformer 在语音生成任务上的应用和探索，ZipVoice解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点，在轻量化建模和推理加速上取得了

通义DeepResearch – 阿里推出的开源深度研究智能体

通义DeepResearch 是阿里巴巴推出的开源深度研究智能体，专为长周期、深度信息检索任务设计。拥有 300 亿参数，每次激活 30 亿参数，支持 ReAct 模式和深度模式（Heavy Mode），后者通过迭代研究范式（IterResearch）提升复杂推理能力。智能体采用全流程合成数据方案，无需人工干预即可生成高质量数据集，突破智能体能力上限。训练流程涵盖智能体持续预训练（Agentic

YuLan-OneSim – 玉兰-万象，人大高瓴AI团队推出的社会模拟器

YuLan-OneSim（玉兰-万象）是中国人民大学高瓴 AI 学院RUC-GSAI团队推出的新型社会模拟器。基于大型语言模型（LLM）Agents 模拟人类社会行为，无需编程构建模拟场景，基于自然语言交互生成代码。YuLan-OneSim提供50多个涵盖8个主要社会科学领域的默认场景，支持高达10万Agents的大规模模拟，基于外部反馈自动优化LLM。YuLan-OneSim具备AI社会研究者功

AI Quests – 谷歌联合斯坦福大学推出的AI教育工具

AI Quests 是谷歌研究团队与斯坦福学习加速器联合推出的游戏化教育工具，通过沉浸式冒险活动，让11至14岁的学生学习人工智能（AI）及在现实世界中的应用。学生将扮演谷歌研究人员的角色，解决与气候、健康和科学相关的问题。首个任务是洪水预测，未来将有糖尿病视网膜病变检测和大脑映射等任务。每个任务配有课程计划、教师指南和真实研究人员的视频信息，帮助学生理解AI的实际应用。AI Quests主要功能

Neovate Code - 蚂蚁集团开源的智能编程助手

Neovate Code 是蚂蚁集团开源的智能编程助手，专注于提升开发效率。工具能深度理解代码库，遵循既有编码习惯，精准完成代码生成、Bug修复和重构等任务。通过对话式界面，支持开发者用自然地描述需求，Neovate Code 提供安全、可控的实现方案。工具支持多种流行模型（如 OpenAI、Anthropic 等），可通过插件系统灵活扩展功能。目前以 CLI 工具形式提供，未来将适配更多客户端形

Mixboard – 谷歌推出的AI画板工具

Mixboard 是谷歌实验室推出的全新 AI 画板工具，由 Nano Banana 提供支持。工具通过自然语言交互，让用户能轻松将任何想法即时可视化。用户输入文本提示或选择预置模板，AI 能生成一系列相关图片。Mixboard 支持批量编辑、组合图片、风格迁移，能对图片进行客观描述、调整文字格式。Mixboard 适用创意设计、家居装饰、派对策划等多种场景，帮助用户快速探索和优化创意。Mixbo

CWM – Meta开源的代码世界模型

CWM（Code World Model）是 Meta 开源的一个拥有 320 亿参数的代码语言模型。它率先将“世界模型”的概念引入代码生成领域，让模型能够通过模拟代码执行过程，更深层次地理解和生成代码，而不仅仅是基于模式匹配。CWM 在多项基准测试中表现出色，例如在 Math-500 数据集上取得了 96.6% 的准确率。该模型的权重已公开，旨在推动代码生成和理解领域的研究，并帮助开发者更高效地

MiroMind – AI大模型预测平台

MiroMind：由陈天桥先生创立的预测型 AI 平台MiroMind 是由陈天桥推出的一个专注于 AI 领域的平台，致力于开发全球领先的预测型大模型。该平台的核心理念是让 AI “记住过去、洞察未来”，通过其独特的记忆驱动机制，帮助 AI 进行更精准的预测与决策。MiroMind 的主要产品包括：MiroThinker：一个开源的深度研究模型，在 GAIA 等基准测试中表现出色，超越了许多同类开

Qianfan-VL – 百度开源的视觉理解模型

Qianfan-VL 是百度智能云千帆专为企业级多模态应用场景打造的视觉理解大模型。它提供 3B、8B 和 70B 三种尺寸，不仅具备出色的通用能力，还针对 OCR、教育等垂直领域进行了专项强化。该模型基于开源模型，并在百度自研的昆仑芯 P800 上完成了全流程计算任务，展现出卓越的性能和效率。核心功能多尺寸模型：提供从轻量级到大规模的三种版本，满足不同企业和开发者的需求，适用于各种场景，从端上实

Lessie AI – 全球首个网红搜索AI智能体

Lessie AI 号称是全球首个**“人物搜索”AI 智能体**（People Search AI Agent），致力于帮助您高效连接任何人、链接世界。这款专注于网红营销的 AI 工具目前处于免费测试阶段，每月提供 1500 次免费网红搜索额度。Lessie AI 能在短短 30 秒内，为您在 TikTok、YouTube 和 Instagram 等主流社交媒体平台上，找到 500+ 位与您的品

Loomi – 为创作者而生的 AI 智能体

Loomi 是一款专为创作者设计的 AI 工具，旨在通过其独特的多智能体协作模式，覆盖内容生产的全流程。从话题洞察、受众画像到创作策略，Loomi 能够全方位地为创作者提供支持，让内容创作更高效、更具深度。该工具的核心优势在于其自研的 Nexus 情境引擎，它能构建稳固的思维网络，支持长文创作和复杂并行思考，确保创作任务清晰、步骤精准，让您不再迷失方向。Loomi 的开发团队融入了 100 多位内

LatticeWorld – 开创性的多模态 3D 世界生成框架

LatticeWorld 是一个开创性的多模态 3D 世界生成框架，由网易、香港城市大学、北京航空航天大学、清华大学等机构共同推出。它将大语言模型与工业级 3D 渲染引擎 Unreal Engine 5（UE5）相结合，能通过简单的文本描述和视觉指令，快速生成具备高动态环境、真实物理仿真和实时渲染的大规模交互式 3D 世界。与传统手工创作相比，LatticeWorld 的效率提升超过 90 倍，且

Shipable-零代码创建自动化工作流

Shipable 是一款专为用户设计的无代码人工智能代理平台，旨在帮助您快速、高效地构建、定制和部署智能 AI 代理，实现复杂任务的自动化。通过其可视化构建器，用户无需任何编程知识，即可轻松创建多语言自动化工作流，并结合系统提示和应用程序集成，让您的 AI 代理不仅能智能回复，更能执行实际操作，如预订、更新等，从而显著提升工作效率。核心功能无代码构建：通过直观的可视化构建器，您可以轻松创建复杂的多

Rocket.new-革命性的 AI 编程平台

Rocket.new 是一款革命性的 AI 编程平台，专注于帮助用户快速构建和部署全功能的 Web 和移动应用。您只需用简单的提示描述您的需求，Rocket.new 就能自动生成完整的应用，包括后端集成、数据库架构、API 端点和高质量代码。该平台的核心优势在于其深度集成和高效自动化能力，它能进行市场研究、优化用户体验，并提供高质量模板，帮助您快速启动项目。Rocket.new 的用户群体遍布美国

GDPVAL – OpenAI开源的衡量 AI 经济价值的评估框架

GDPval 是由 OpenAI 推出的一个全新评估框架，旨在衡量 AI 模型在真实经济价值任务上的表现。该框架从对美国 GDP 贡献最大的 9 个行业中，选取了 44 种职业，设计了 1320 个贴近实际工作场景的真实任务（其中 220 个已开源）。这些任务涵盖了软件开发、法律文书、机械工程、护理计划等多个领域。每项任务都由平均拥有 14 年经验的专业人士设计和审核，确保评估结果能真实反映 AI

Vibecode - AI 驱动移动应用构建平台

Vibecode 是一款专为 AI 编程开发者设计的移动应用构建平台，它能让您通过简单的自然语言描述，快速构建和部署功能完善的 React Native 移动应用。该平台提供了一个集成的开发环境，您无需 API 密钥即可使用多种 AI 工具，并能在本地即时预览和测试应用，通过 App Clip 快速分享以获取反馈。Vibecode 旨在让应用开发变得简单快捷，尤其适合初学者和非技术用户快速实现创意

MimicPhoto - AI 驱动照片编辑工具

MimicPhoto 是由 GenAI Works 推出的一款 AI 驱动的照片编辑工具，旨在通过智能技术提升照片中人物的表情和整体效果。它能快速调整笑容、眼神等细节，让照片中的人物看起来更加生动自然。此外，MimicPhoto 还具备强大的动态视频生成功能，可以将静态照片转化为具有动画效果的动态视频，为您的照片注入新的活力。核心功能AI 面部表情编辑：笑容调整：轻松调整照片中人物的笑容程度，AI

SOM AI – AI学术写作工具

SOM AI 是一款专为学生设计的 AI 辅助学术写作工具，旨在帮助您更轻松地完成**毕业论文（Skripsi）**和日常学术研究。它基于自然的语言交互，通过提供一系列功能，帮助您应对学术写作中的各种挑战。这款工具能有效缓解写作压力，同时帮助您避免抄袭、快速理解复杂的学术内容。无论您是在进行毕业论文的头脑风暴，还是需要整理日常作业，SOM AI 都是一个实用且高效的学习助手。核心功能研究主题头脑风

搜索结果