GitHub repositories - 梅斯AI导航站

Jodi

Jodi是中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架，基于联合建模图像域和多个标签域，将视觉生成与理解统一起来。Jodi基于线性扩散Transformer和角色切换机制，执行联合生成（同时生成图像和多个标签）、可控生成（基于标签组合生成图像）及图像感知（从图像预测多个标签）三种任务。Jodi用包含20万张高质量图像和7个视觉域标签的Joint-1.6M数据集进行训练。Jodi在生成

TripoSG

TripoSG 是 VAST-AI-Research 团队推出的基于大规模修正流（Rectified Flow, RF）模型的高保真 3D 形状合成技术，通过大规模修正流变换器架构、混合监督训练策略以及高质量数据集，实现了从单张输入图像到高保真 3D 网格模型的生成。TripoSG 在多个基准测试中表现出色，生成的 3D 模型具有更高的细节和更好的输入条件对齐。 TripoSG的主要功能

Jaaz

Jaaz 是开源的AI设计Agent，本地免费 Lovart 平替项目。具备强大的 AI 设计能力，能智能生成设计提示，批量生成图像、海报、故事板等。Jaaz 支持 Ollama、Stable Diffusion、Flux Dev 等本地图像和语言模型，实现免费的图像生成。用户可以通过 GPT-4o、Flux Kontext 等技术，在对话中编辑图像，进行对象移除、风格转换等操作。Jaaz 提供无

Firesearch

Firesearch 是 Mendable AI 团队推出的 AI 驱动的深度研究工具。基于 Firecrawl 多源网络内容提取技术，结合 OpenAI GPT-4o 的搜索规划和内容生成能力，将复杂的查询分解为多个子问题，分别进行搜索和内容提取。Firesearch 支持实时进度更新、答案验证（置信度 0.7 以上）、自动重试、完整引用和上下文记忆等功能，帮助用户高效地获取准确、全面的研究结果

OmniAudio

OmniAudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频（FOA）的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据集Sphere360，包含超过10.3万个视频片段，涵盖288种音频事件，总时长288小时，为模型训练提供了丰富资源。OmniAudio 的训练分为两个阶段：自监督的coarse-to-fine流匹配预训练，基于大规模非空间音频资源进行自监

VRAG-RL

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架，专注于提升视觉语言模型（VLMs）在处理视觉丰富信息时的检索、推理和理解能力。基于定义视觉感知动作空间，让模型能从粗粒度到细粒度逐步获取信息，更有效地激活模型的推理能力。VRAG-RL引入综合奖励机制，结合检索效率和基于模型的结果奖励，优化模型的检索和生成能力。在多个基准测试中，VRAG-RL显著优于现有方法，展现在视

OCode

OCode 是终端原生 AI 编程助手，为开发者提供深度代码库智能和自动任务执行功能。与本地 Ollama 模型无缝集成，将企业级 AI 辅助直接融入开发流程中。终端原生工作流，能直接在你的 shell 环境中运行；深度代码库智能，可自动映射并理解整个项目；自动任务执行，能端到端处理多步骤开发任务；可扩展的插件层，通过模型上下文协议（MCP）启用第三方集成，帮助开发者提高编程效率和质量。 OCo

DecipherIt

DecipherIt是AI驱动的研究助手工具，基于智能化手段简化和优化研究过程。工具支持将各种主题、链接和文件转化为AI生成的研究笔记本，提供全面的总结、互动问答、音频概述、可视化思维导图及自动化的FAQ生成等功能。基于Bright Data的MCP服务器，DecipherIt突破地理限制和反爬虫检测，获取全球范围内的信息。DecipherIt是多智能体AI框架CrewAI支持高效地分析和整合来自

MoonCast

MoonCast 是零样本播客生成系统，从纯文本源合成自然的播客风格语音。通过长上下文语言模型和大规模语音数据训练，能生成几分钟长的播客音频，支持中文和英文。生成语音的自然性和连贯性，在长音频生成中能保持高质量。MoonCast 使用特定的LLM提示来生成播客脚本，通过语音合成模块将其转换为最终的播客音频。用户可以通过简单的命令和预训练权重快速生成播客。 MoonCast的项目地址项目官

PandaWiki

PandaWiki 是开源的AI知识库搭建系统，基于 AI 大模型的能力，帮助用户快速构建智能化的产品文档、技术文档、FAQ 和博客系统。核心功能包括 AI 辅助创作、AI 问答和 AI 搜索，显著提升知识管理的效率和智能化水平。PandaWiki 提供强大的富文本编辑能力，支持 Markdown 和 HTML 编辑，可导出为 Word、PDF、Markdown 等多种格式。支持与第三方应用集成，

dots.llm1

小红书hi lab（Humane Intelligence Lab，人文智能实验室）团队首次开源文本大模型 dots.llm1。 dots.llm1是一个中等规模的Mixture of Experts (MoE)文本大模型，在较小激活量下取得了不错的效果。该模型充分融合了团队在数据处理和模型训练效率方面的技术积累，并借鉴了社区关于 MoE 的最新开源成果。hi lab团队开源了所有模型和必要的训练

BiliNote

BiliNote 是一个开源的 AI 视频笔记助手，支持通过哔哩哔哩、YouTube、抖音等视频链接，自动提取内容并生成结构清晰、重点明确的 Markdown 格式笔记。支持插入截图、原片跳转等功能。 Windows 打包版本项目提供了 Windows 系统的 exe 文件，可在release进行下载。注意一定要在没有中文路径的环境下运行。 🔧 功能特性支持多平台：

Playmate

Playmate是广州趣丸科技团队推出的人脸动画生成框架。框架基于3D隐式空间引导扩散模型，用双阶段训练框架，根据音频和指令精准控制人物的表情和头部姿态，生成高质量的动态肖像视频。Playmate基于运动解耦模块和情感控制模块，实现对生成视频的精细控制，显著提升视频质量和情感表达的灵活性。Playmate在音频驱动肖像动画领域取得重大进展，提供对情感和姿态的精细控制，能生成多种风格的动态肖像，具有

Genspark AI 浏览器

Genspark AI 浏览器（Genspark AI Browser）是 Genspark 公司推出的创新性人工智能浏览器。内置智能助手，能帮助用户查找更优交易、比较产品、分析评论，在各类网站上辅助决策。 AI 自动浏览信息源、收集资料、访问高级数据库，完成复杂网页任务，支持MCP服务，连接 Discord、GitHub、Notion、Slack 等 700 多种工具，实现工作流程自动化。自动

HistAgent

普林斯顿与复旦推出HistBench和HistAgent，首个人文AI评测基准普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench，并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白，更为复杂史料处理与多模态理解建立了系统工具框架。历史是关于时间中的人的

PreenCut

通过 AI 自动分析视频内容并生成文字转录，其中语义化搜索功能颇有用，支持自然语言描述快速找到想要的视频片段。 GitHub：http://github.com/roothch/PreenCut… 主要功能： - 基于 WhisperX 的自动语音识别，生成准确的视频转录 - AI 智能分析，自动分段并总结每段内容要点 - 自然语言查询，用描述性文字快速找到目标片段 - 智能剪辑导出，可选择单个

LLIA

LLIA（Low-Latency Interactive Avatars）是美团公司推出的基于扩散模型的实时音频驱动肖像视频生成框架。框架基于音频输入驱动虚拟形象的生成，支持实现低延迟、高保真度的实时交互。LLIA用可变长度视频生成技术，减少初始视频生成的延迟，结合一致性模型训练策略和模型量化技术，显著提升推理速度。LLIA支持用类别标签控制虚拟形象的状态（如说话、倾听、空闲）及面部表情的精细控制

LLPlayer

专注于字幕相关功能的视频播放器，例如双字幕、AI 生成字幕、实时翻译、单词查找等！ LLPlayer 具有许多普通视频播放器所不具备的语言学习功能。双字幕：可同时显示两个字幕。支持文本字幕和位图字幕。 AI 生成的字幕（ASR）：由OpenAI Whisper提供支持，从任何视频和音频实时自动生成字幕。支持whisper.cpp和fastest-whisper两个引擎。实时翻译：支

MAGREF

MAGREF（Masked Guidance for Any‑Reference Video Generation）是字节跳动推出的多主体视频生成框架。MAGREF仅需一张参考图像和文本提示，能生成高质量、主体一致的视频，支持单人、多人及人物与物体、背景的复杂交互场景。基于区域感知动态掩码和像素级通道拼接机制，MAGREF能精准复刻身份特征，保持视频中人物、物体和背景的协调性与一致性，适用内容创作

Kimi-Dev

Kimi-Dev是Moonshot AI推出的开源代码模型，专为软件工程任务设计。模型拥有 72B 参数量，编程水平比最新的DeepSeek-R1还强，和闭源模型比较也表现优异。在 SWE-bench Verified数据集上达到60.4%的性能，超越其他开源模型，成为当前开源模型中的SOTA。Kimi-Dev 基于强化学习和自我博弈机制，能高效修复代码错误、编写测试代码。模型基于MIT协议开源，

MiniMax-M1

MiniMax-M1是MiniMax团队最新推出的开源推理模型，基于混合专家架构（MoE）与闪电注意力机制（lightning attention）相结合，总参数量达 4560 亿，每个token激活 459 亿参数。模型超过国内的闭源模型，接近海外的最领先模型，具有业内最高的性价比。MiniMax-M1原生支持 100 万token的上下文长度，提供40 和80K两种推理预算版本，适合处理长输入

ThinkChain

ThinkChain是开源框架，提升AI工具的智能交互能力。框架将工具的执行结果实时反馈到AI（如 Claude）的思考过程中，形成动态的反馈循环，让AI能调用工具，根据工具结果进行推理和决策。ThinkChain支持自动工具发现、MCP服务器扩展及增强的 CLI 界面，支持开发者用简单的Python文件扩展功能，实现从天气查询到数据库操作等多种应用。框架基于MIT许可证，鼓励开发者fork和扩展

LeVo

LeVo是腾讯AI实验室推出的AI唱歌模型，具备强大的音色克隆能力，仅需3秒音频即可精准复制目标音色，包括音调、情感和韵律，无需大量训练数据。LeVo支持分轨生成，可分别生成人声和伴奏音轨，为后期编辑提供便利。技术架构基于语言模型（LM），结合LeLM和音乐编解码器，能并行生成音轨，音质表现接近行业领先水平，在歌词对齐能力上表现卓越。 LeVo的项目地址项目官网： https://lev

EmbodiedGen

EmbodiedGen 是用于具身智能（Embodied AI）应用的生成式 3D 世界引擎和工具包。能快速生成高质量、低成本且物理属性合理的 3D 资产和交互环境，帮助研究人员和开发者构建具身智能体的测试环境。EmbodiedGen 包含多个模块，如从图像或文本生成 3D 模型、纹理生成、关节物体生成、场景和布局生成等，支持从简单物体到复杂场景的创建。生成的 3D 资产可以直接用于机器人仿真和

搜索结果