GitHub syncing - 梅斯AI导航站

Aurora

Aurora是微软研究院推出的13亿参数的大气基础模型，基于从海量大气数据中提取有价值信息，用在预测全球天气模式、空气污染和海洋波浪等大气过程。模型用预训练和微调的架构，处理不同分辨率和压力水平的数据。Aurora在多个预测任务中表现出色，包括高分辨率天气预测、空气污染预测和热带气旋轨迹预测，计算速度比传统数值天气模型快约5000倍。模型提高了预测精度，降低计算成本，为应对气候变化和极端天气事件提

Pocket Flow

Pocket Flow 是极简的 LLM（大型语言模型）框架，仅用 100 行代码实现。具有轻量级、无依赖、无厂商锁定的特点。Pocket Flow支持多Agents、工作流、检索增强生成（RAG）等强大功能，帮助开发者快速构建基于 LLM 的应用程序。基于Agentic Coding范式，AI Agents协助开发，大幅提升开发效率。Pocket Flow 适合希望用极简方式开发 LLM 应用的

HRAvatar

HRAvatar是清华大学联合IDEA团队推出的单目视频重建技术，支持从普通单目视频中生成高质量、可重光照的3D头像。HRAvatar用可学习的形变基和线性蒙皮技术，基于精准的表情编码器减少追踪误差，提升重建质量。HRAvatar将头像外观分解为反照率、粗糙度和菲涅尔反射等属性，结合物理渲染模型，实现真实的重光照效果。HRAvatar在多个指标上优于现有方法，支持实时渲染（约155 FPS），为数

RelightVid

RelightVid是上海 AI Lab、复旦大学、上海交通大学、浙江大学、斯坦福大学和香港中文大学推出用在视频重照明的时序一致性扩散模型，支持根据文本提示、背景视频或HDR环境贴图对输入视频进行细粒度和一致的场景编辑，支持全场景重照明和前景保留重照明。模型基于自定义的增强管道生成高质量的视频重照明数据对，结合真实视频和3D渲染数据，在预训练的图像照明编辑扩散框架（IC-Light）基础上，插入可

Macaly

Macaly 是创新的无代码应用开发工具，通过自然语言处理技术，让用户能将想法转化为可运行的应用程序。可以通过简单的文字描述或语音指令，直接参与到应用的创建和修改过程中。Macaly 能实时反馈视觉效果，让用户即时看到更改结果，极大地提高了开发效率和协作体验。Macaly 与 GitHub 深度集成，支持无缝的代码管理和协作，包括拉取、推送和问题管理。 Macaly的主要功能自然语言

3DTown

3DTown 是哥伦比亚大学联合Cybever AI等机构推出的从单张俯视图生成3D城镇场景框架。框架基于区域化生成和空间感知的3D修复技术，将输入图像分解为重叠区域，基于预训练的3D对象生成器分别生成每个区域的3D内容，基于掩码修正流修复过程填补缺失的几何结构，同时保持结构连续性。3DTown 支持生成具有高几何质量和纹理保真度的连贯3D场景，在多种风格的场景生成中表现出色，优于现有的先进方法。

Pixel Reasoner

视觉语言模型（VLM），基于像素空间推理增强模型对视觉信息的理解和推理能力。模型能直接在视觉输入上进行操作，如放大图像区域或选择视频帧，更细致地捕捉视觉细节。Pixel Reasoner用两阶段训练方法，基于指令调优让模型熟悉视觉操作，用好奇心驱动的强化学习激励模型探索像素空间推理。Pixel Reasoner在多个视觉推理基准测试中取得优异的成绩，显著提升视觉密集型任务的性能。 Pixel R

SurfSense

SurfSense 是开源的 AI 研究工具，类似于 NotebookLM 和 Perplexity，具备更强的扩展性。工具能与多种外部数据源（如搜索引擎、Slack、Notion、YouTube、GitHub 等）集成，支持用户上传多种格式的文件，将内容整合到个人知识库中。SurfSense 提供强大的搜索功能和自然语言交互能力，用户能快速查找和引用保存的内容。 SurfSense的主要功能

Vid2World

Vid2World是清华大学联合重庆大学推出的创新框架，支持将全序列、非因果的被动视频扩散模型（VDM）转换为自回归、交互式、动作条件化的世界模型。模型基于视频扩散因果化和因果动作引导两大核心技术，解决传统VDM在因果生成和动作条件化方面的不足。Vid2World在机器人操作和游戏模拟等复杂环境中表现出色，支持生成高保真、动态一致的视频序列，支持基于动作的交互式预测。Vid2World为提升世界模

Morphik

Morphik 是开源的多模态检索增强生成（RAG）工具，专为处理高技术性和视觉内容丰富的文档设计。支持对图像、PDF、视频等多种格式的文档进行搜索，采用 ColPali 等技术，能理解文档中的视觉内容。Morphik 具备快速元数据提取功能，可从文档中提取边界框、标签、分类等信息。 Morphik的主要功能多模态数据处理：能处理文本、PDF、图片、视频等多种格式的文件。智能解析文件

FinRobot

FinRobot是一个超越 FinGPT 范畴的 AI 代理平台，是专为金融应用精心设计的综合解决方案。它集成了多种 AI 技术，超越了单纯的语言模型。这种广阔的视野凸显了平台的多功能性和适应性，能够满足金融行业的多方面需求。 AI代理的概念：AI代理是一种智能体，它使用大型语言模型作为大脑来感知环境、做出决策并执行动作。与传统的人工智能不同，AI代理具有独立思考和利用工具逐步实现既定目标的能力

Qlib

Qlib 是一个开源的、面向 AI 的量化投资平台，旨在利用 AI 技术挖掘量化投资的潜力，赋能研究，创造价值，涵盖从探索想法到落地生产的全过程。Qlib 支持多种机器学习建模范式，包括监督学习、市场动态建模和强化学习。越来越多不同范式的 SOTA Quant 研究成果/论文正在 Qlib 中发布，以协作解决量化投资领域的关键挑战。例如，1）使用监督学习从丰富且异构的金融数据中挖掘市场复杂的非

LLaDA-V

LLaDA-V是中国人民大学高瓴人工智能学院、蚂蚁集团推出的多模态大语言模型（MLLM），基于纯扩散模型架构，专注于视觉指令微调。模型在LLaDA的基础上，引入视觉编码器和MLP连接器，将视觉特征映射到语言嵌入空间，实现有效的多模态对齐。LLaDA-V在多模态理解方面达到最新水平，超越现有的混合自回归-扩散和纯扩散模型。 LLaDA-V的主要功能图像描述生成：根据输入的图像生成详细的描述

LMEval

LMEval 是谷歌推出的开源框架，用在简化大型模型（LLMs）的跨提供商评估。框架支持多模态（文本、图像、代码）和多指标评估，兼容 Google、OpenAI、Anthropic 等主流模型提供商。LMEval 基于增量评估引擎，运行必要的测试，节省时间和计算资源。框架自加密的 SQLite 数据库确保评估结果的安全存储。LMEvalboard 提供交互式可视化界面，帮助用户快速分析模型性能，直

QwenLong-L1

QwenLong-L1-32B 是阿里巴巴集团 Qwen-Doc 团队推出的，基于强化学习训练的首个长文本推理大模型。模型基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略，显著提升在长文本场景下的推理能力。模型在多个长文本文档问答（DocQA）基准测试中表现优异，平均准确率达到了70.7%，超越OpenAI-o3-mini和Qwen3-235B-A22B等现有旗舰模型，且与Cla

Company Research Agent

Company Research Agent是基于多智能体框架的公司研究工具，支持一键自动生成全面的公司研究报告。工具从公司网站、新闻文章、财务报告和行业分析等多源数据中收集信息，基于Gemini 2.5 Flash和GPT-4.1-mini等模型进行高语境研究综合及精确的报告格式化和编辑。工具具备AI内容过滤功能，确保信息的相关性和准确性，基于WebSocket实现实时进度流，为用户提供高效、便

Slidev

Slidev 是开源的PPT制作模型，基于 Markdown + Vue 技术栈实现。工具支持用简单的 Markdown 语法创建幻灯片，支持代码高亮、实时编码演示、数学公式渲染、图表生成等功能，提供丰富的主题和样式选项。Slidev 提供快速启动命令 npm init slidev，支持在线编辑器 sli.dev/new，无需安装软件简单易用。Slidev 的核心优势在于开发友好性和强大的交互性

TokenSwift

TokenSwift 是北京通用人工智能研究院团队推出的超长文本生成加速框架，能在90分钟内生成10万Token的文本，相比传统自回归模型的近5小时，速度提升了3倍，生成质量无损。TokenSwift 通过多Token生成与Token重用、动态KV缓存更新以及上下文惩罚机制等技术，减少模型加载延迟、优化缓存更新时间并确保生成多样性。支持多种不同规模和架构的模型，如1.5B、7B、8B、14B的MH

PodAgent

PodAgent 是香港中文大学、微软和小红书联合推出的播客生成框架。基于模拟真实的脱口秀场景，用多智能体协作系统（包括主持人、嘉宾和编剧）自动生成丰富且结构化的对话内容。PodAgent构建了多样化的声音库，用在精准匹配角色与声音，确保音频的自然度和沉浸感。PodAgent 引入基于大语言模型（LLM）的语音合成技术，生成富有表现力和情感的语音，让播客更具吸引力。PodAgent 推出了全面的评

Onit

Onit的主要功能高亮文本自动加载：支持用户在任何应用程序中高亮选择文本，Onit自动将文本加载到聊天窗口中，无需手动复制粘贴。自动上下文提取：Onit能自动读取当前活动窗口的内容，作为上下文加载到聊天窗口中，方便用户快速获取AI的帮助。自由切换模型：支持用户自由切换不同的AI模型（如OpenAI、Anthropic、xAI等），根据需求选择最适合的模型。本地模式：Onit支持

Jodi

Jodi是中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架，基于联合建模图像域和多个标签域，将视觉生成与理解统一起来。Jodi基于线性扩散Transformer和角色切换机制，执行联合生成（同时生成图像和多个标签）、可控生成（基于标签组合生成图像）及图像感知（从图像预测多个标签）三种任务。Jodi用包含20万张高质量图像和7个视觉域标签的Joint-1.6M数据集进行训练。Jodi在生成

TripoSG

TripoSG 是 VAST-AI-Research 团队推出的基于大规模修正流（Rectified Flow, RF）模型的高保真 3D 形状合成技术，通过大规模修正流变换器架构、混合监督训练策略以及高质量数据集，实现了从单张输入图像到高保真 3D 网格模型的生成。TripoSG 在多个基准测试中表现出色，生成的 3D 模型具有更高的细节和更好的输入条件对齐。 TripoSG的主要功能

Jaaz

Jaaz 是开源的AI设计Agent，本地免费 Lovart 平替项目。具备强大的 AI 设计能力，能智能生成设计提示，批量生成图像、海报、故事板等。Jaaz 支持 Ollama、Stable Diffusion、Flux Dev 等本地图像和语言模型，实现免费的图像生成。用户可以通过 GPT-4o、Flux Kontext 等技术，在对话中编辑图像，进行对象移除、风格转换等操作。Jaaz 提供无

Firesearch

Firesearch 是 Mendable AI 团队推出的 AI 驱动的深度研究工具。基于 Firecrawl 多源网络内容提取技术，结合 OpenAI GPT-4o 的搜索规划和内容生成能力，将复杂的查询分解为多个子问题，分别进行搜索和内容提取。Firesearch 支持实时进度更新、答案验证（置信度 0.7 以上）、自动重试、完整引用和上下文记忆等功能，帮助用户高效地获取准确、全面的研究结果

搜索结果