GitHub contributions - 梅斯AI导航站

FinRobot

FinRobot是一个超越 FinGPT 范畴的 AI 代理平台，是专为金融应用精心设计的综合解决方案。它集成了多种 AI 技术，超越了单纯的语言模型。这种广阔的视野凸显了平台的多功能性和适应性，能够满足金融行业的多方面需求。 AI代理的概念：AI代理是一种智能体，它使用大型语言模型作为大脑来感知环境、做出决策并执行动作。与传统的人工智能不同，AI代理具有独立思考和利用工具逐步实现既定目标的能力

Qlib

Qlib 是一个开源的、面向 AI 的量化投资平台，旨在利用 AI 技术挖掘量化投资的潜力，赋能研究，创造价值，涵盖从探索想法到落地生产的全过程。Qlib 支持多种机器学习建模范式，包括监督学习、市场动态建模和强化学习。越来越多不同范式的 SOTA Quant 研究成果/论文正在 Qlib 中发布，以协作解决量化投资领域的关键挑战。例如，1）使用监督学习从丰富且异构的金融数据中挖掘市场复杂的非

LLaDA-V

LLaDA-V是中国人民大学高瓴人工智能学院、蚂蚁集团推出的多模态大语言模型（MLLM），基于纯扩散模型架构，专注于视觉指令微调。模型在LLaDA的基础上，引入视觉编码器和MLP连接器，将视觉特征映射到语言嵌入空间，实现有效的多模态对齐。LLaDA-V在多模态理解方面达到最新水平，超越现有的混合自回归-扩散和纯扩散模型。 LLaDA-V的主要功能图像描述生成：根据输入的图像生成详细的描述

LMEval

LMEval 是谷歌推出的开源框架，用在简化大型模型（LLMs）的跨提供商评估。框架支持多模态（文本、图像、代码）和多指标评估，兼容 Google、OpenAI、Anthropic 等主流模型提供商。LMEval 基于增量评估引擎，运行必要的测试，节省时间和计算资源。框架自加密的 SQLite 数据库确保评估结果的安全存储。LMEvalboard 提供交互式可视化界面，帮助用户快速分析模型性能，直

QwenLong-L1

QwenLong-L1-32B 是阿里巴巴集团 Qwen-Doc 团队推出的，基于强化学习训练的首个长文本推理大模型。模型基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略，显著提升在长文本场景下的推理能力。模型在多个长文本文档问答（DocQA）基准测试中表现优异，平均准确率达到了70.7%，超越OpenAI-o3-mini和Qwen3-235B-A22B等现有旗舰模型，且与Cla

Company Research Agent

Company Research Agent是基于多智能体框架的公司研究工具，支持一键自动生成全面的公司研究报告。工具从公司网站、新闻文章、财务报告和行业分析等多源数据中收集信息，基于Gemini 2.5 Flash和GPT-4.1-mini等模型进行高语境研究综合及精确的报告格式化和编辑。工具具备AI内容过滤功能，确保信息的相关性和准确性，基于WebSocket实现实时进度流，为用户提供高效、便

Slidev

Slidev 是开源的PPT制作模型，基于 Markdown + Vue 技术栈实现。工具支持用简单的 Markdown 语法创建幻灯片，支持代码高亮、实时编码演示、数学公式渲染、图表生成等功能，提供丰富的主题和样式选项。Slidev 提供快速启动命令 npm init slidev，支持在线编辑器 sli.dev/new，无需安装软件简单易用。Slidev 的核心优势在于开发友好性和强大的交互性

TokenSwift

TokenSwift 是北京通用人工智能研究院团队推出的超长文本生成加速框架，能在90分钟内生成10万Token的文本，相比传统自回归模型的近5小时，速度提升了3倍，生成质量无损。TokenSwift 通过多Token生成与Token重用、动态KV缓存更新以及上下文惩罚机制等技术，减少模型加载延迟、优化缓存更新时间并确保生成多样性。支持多种不同规模和架构的模型，如1.5B、7B、8B、14B的MH

PodAgent

PodAgent 是香港中文大学、微软和小红书联合推出的播客生成框架。基于模拟真实的脱口秀场景，用多智能体协作系统（包括主持人、嘉宾和编剧）自动生成丰富且结构化的对话内容。PodAgent构建了多样化的声音库，用在精准匹配角色与声音，确保音频的自然度和沉浸感。PodAgent 引入基于大语言模型（LLM）的语音合成技术，生成富有表现力和情感的语音，让播客更具吸引力。PodAgent 推出了全面的评

Onit

Onit的主要功能高亮文本自动加载：支持用户在任何应用程序中高亮选择文本，Onit自动将文本加载到聊天窗口中，无需手动复制粘贴。自动上下文提取：Onit能自动读取当前活动窗口的内容，作为上下文加载到聊天窗口中，方便用户快速获取AI的帮助。自由切换模型：支持用户自由切换不同的AI模型（如OpenAI、Anthropic、xAI等），根据需求选择最适合的模型。本地模式：Onit支持

Jodi

Jodi是中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架，基于联合建模图像域和多个标签域，将视觉生成与理解统一起来。Jodi基于线性扩散Transformer和角色切换机制，执行联合生成（同时生成图像和多个标签）、可控生成（基于标签组合生成图像）及图像感知（从图像预测多个标签）三种任务。Jodi用包含20万张高质量图像和7个视觉域标签的Joint-1.6M数据集进行训练。Jodi在生成

TripoSG

TripoSG 是 VAST-AI-Research 团队推出的基于大规模修正流（Rectified Flow, RF）模型的高保真 3D 形状合成技术，通过大规模修正流变换器架构、混合监督训练策略以及高质量数据集，实现了从单张输入图像到高保真 3D 网格模型的生成。TripoSG 在多个基准测试中表现出色，生成的 3D 模型具有更高的细节和更好的输入条件对齐。 TripoSG的主要功能

Jaaz

Jaaz 是开源的AI设计Agent，本地免费 Lovart 平替项目。具备强大的 AI 设计能力，能智能生成设计提示，批量生成图像、海报、故事板等。Jaaz 支持 Ollama、Stable Diffusion、Flux Dev 等本地图像和语言模型，实现免费的图像生成。用户可以通过 GPT-4o、Flux Kontext 等技术，在对话中编辑图像，进行对象移除、风格转换等操作。Jaaz 提供无

Firesearch

Firesearch 是 Mendable AI 团队推出的 AI 驱动的深度研究工具。基于 Firecrawl 多源网络内容提取技术，结合 OpenAI GPT-4o 的搜索规划和内容生成能力，将复杂的查询分解为多个子问题，分别进行搜索和内容提取。Firesearch 支持实时进度更新、答案验证（置信度 0.7 以上）、自动重试、完整引用和上下文记忆等功能，帮助用户高效地获取准确、全面的研究结果

OmniAudio

OmniAudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频（FOA）的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据集Sphere360，包含超过10.3万个视频片段，涵盖288种音频事件，总时长288小时，为模型训练提供了丰富资源。OmniAudio 的训练分为两个阶段：自监督的coarse-to-fine流匹配预训练，基于大规模非空间音频资源进行自监

VRAG-RL

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架，专注于提升视觉语言模型（VLMs）在处理视觉丰富信息时的检索、推理和理解能力。基于定义视觉感知动作空间，让模型能从粗粒度到细粒度逐步获取信息，更有效地激活模型的推理能力。VRAG-RL引入综合奖励机制，结合检索效率和基于模型的结果奖励，优化模型的检索和生成能力。在多个基准测试中，VRAG-RL显著优于现有方法，展现在视

OCode

OCode 是终端原生 AI 编程助手，为开发者提供深度代码库智能和自动任务执行功能。与本地 Ollama 模型无缝集成，将企业级 AI 辅助直接融入开发流程中。终端原生工作流，能直接在你的 shell 环境中运行；深度代码库智能，可自动映射并理解整个项目；自动任务执行，能端到端处理多步骤开发任务；可扩展的插件层，通过模型上下文协议（MCP）启用第三方集成，帮助开发者提高编程效率和质量。 OCo

DecipherIt

DecipherIt是AI驱动的研究助手工具，基于智能化手段简化和优化研究过程。工具支持将各种主题、链接和文件转化为AI生成的研究笔记本，提供全面的总结、互动问答、音频概述、可视化思维导图及自动化的FAQ生成等功能。基于Bright Data的MCP服务器，DecipherIt突破地理限制和反爬虫检测，获取全球范围内的信息。DecipherIt是多智能体AI框架CrewAI支持高效地分析和整合来自

MoonCast

MoonCast 是零样本播客生成系统，从纯文本源合成自然的播客风格语音。通过长上下文语言模型和大规模语音数据训练，能生成几分钟长的播客音频，支持中文和英文。生成语音的自然性和连贯性，在长音频生成中能保持高质量。MoonCast 使用特定的LLM提示来生成播客脚本，通过语音合成模块将其转换为最终的播客音频。用户可以通过简单的命令和预训练权重快速生成播客。 MoonCast的项目地址项目官

PandaWiki

PandaWiki 是开源的AI知识库搭建系统，基于 AI 大模型的能力，帮助用户快速构建智能化的产品文档、技术文档、FAQ 和博客系统。核心功能包括 AI 辅助创作、AI 问答和 AI 搜索，显著提升知识管理的效率和智能化水平。PandaWiki 提供强大的富文本编辑能力，支持 Markdown 和 HTML 编辑，可导出为 Word、PDF、Markdown 等多种格式。支持与第三方应用集成，

dots.llm1

小红书hi lab（Humane Intelligence Lab，人文智能实验室）团队首次开源文本大模型 dots.llm1。 dots.llm1是一个中等规模的Mixture of Experts (MoE)文本大模型，在较小激活量下取得了不错的效果。该模型充分融合了团队在数据处理和模型训练效率方面的技术积累，并借鉴了社区关于 MoE 的最新开源成果。hi lab团队开源了所有模型和必要的训练

BiliNote

BiliNote 是一个开源的 AI 视频笔记助手，支持通过哔哩哔哩、YouTube、抖音等视频链接，自动提取内容并生成结构清晰、重点明确的 Markdown 格式笔记。支持插入截图、原片跳转等功能。 Windows 打包版本项目提供了 Windows 系统的 exe 文件，可在release进行下载。注意一定要在没有中文路径的环境下运行。 🔧 功能特性支持多平台：

Playmate

Playmate是广州趣丸科技团队推出的人脸动画生成框架。框架基于3D隐式空间引导扩散模型，用双阶段训练框架，根据音频和指令精准控制人物的表情和头部姿态，生成高质量的动态肖像视频。Playmate基于运动解耦模块和情感控制模块，实现对生成视频的精细控制，显著提升视频质量和情感表达的灵活性。Playmate在音频驱动肖像动画领域取得重大进展，提供对情感和姿态的精细控制，能生成多种风格的动态肖像，具有

Genspark AI 浏览器

Genspark AI 浏览器（Genspark AI Browser）是 Genspark 公司推出的创新性人工智能浏览器。内置智能助手，能帮助用户查找更优交易、比较产品、分析评论，在各类网站上辅助决策。 AI 自动浏览信息源、收集资料、访问高级数据库，完成复杂网页任务，支持MCP服务，连接 Discord、GitHub、Notion、Slack 等 700 多种工具，实现工作流程自动化。自动

搜索结果