PDF compression - 梅斯AI导航站

Seaweed APT2

Seaweed APT2是字节跳动推出的创新的AI视频生成模型，通过自回归对抗后训练（AAPT）技术，将双向扩散模型转化为单向自回归生成器，实现高效、高质量的视频生成。模型能在单次网络前向评估（1NFE）中生成包含多帧视频的潜空间帧，显著降低了计算复杂性，通过输入回收机制和键值缓存（KV Cache）技术，支持长时间视频生成，解决了传统模型在长视频生成中常见的动作漂移和物体变形问题。能在单块GPU

Code Researcher

Code Researcher是微软研究院推出的深度研究Agent工具，专门用于处理大型系统代码库及其提交历史，自动化修复系统代码崩溃问题。通过三个阶段工作：分析（Analysis）、合成（Synthesis）和验证（Validation）。在分析阶段，Code Researcher基于多步推理策略，结合代码语义、模式和提交历史信息，收集上下文并存储在结构化内存中。合成阶段基于收集到的上下文生成修

EmbodiedGen

EmbodiedGen 是用于具身智能（Embodied AI）应用的生成式 3D 世界引擎和工具包。能快速生成高质量、低成本且物理属性合理的 3D 资产和交互环境，帮助研究人员和开发者构建具身智能体的测试环境。EmbodiedGen 包含多个模块，如从图像或文本生成 3D 模型、纹理生成、关节物体生成、场景和布局生成等，支持从简单物体到复杂场景的创建。生成的 3D 资产可以直接用于机器人仿真和

RAG-Anything

RAG-Anything是香港大学数据智能实验室推出的开源多模态RAG系统。系统支持处理包含文本、图像、表格和公式的复杂文档，提供从文档摄取到智能查询的端到端解决方案。系统基于多模态知识图谱、灵活的解析架构和混合检索机制，显著提升复杂文档处理能力，支持多种文档格式，如PDF、Office文档、图像和文本文件等。RAG-Anything核心优势包括端到端多模态流水线、多格式文档支持、多模态内容分析引

Dive3D

Dive3D是北京大学和小红书公司合作推出的文本到3D生成框架。框架基于分数的匹配（Score Implicit Matching，SIM）损失替代传统的KL散度目标，有效避免模式坍塌问题，显著提升3D生成内容的多样性。Dive3D在文本对齐、人类偏好和视觉保真度方面表现出色，在GPTEval3D基准测试中取得优异的定量结果，证明了在生成高质量、多样化3D资产方面的强大能力。 Dive3D的项目

Lingshu

Lingshu是阿里巴巴达摩院推出的专注于医学领域的多模态大型语言模型。模型支持超过12种医学成像模态，包括X光、CT扫描、MRI等，在多模态问答、文本问答及医学报告生成等任务上展现出卓越的性能。Lingshu基于多阶段训练，逐步嵌入医学专业知识，显著提升在医学领域的推理和问题解决能力。推出7B、32B两个参数版本，其中32B版本在多个医学多模态问答任务中超越GPT-4.1等专有模型。Lingsh

Miniwork

Miniwork是高效的AI工具平台，聚焦提升工作、学习、内容创作、运营营销等多个方向，专为提升工作与学习效率的用户打造。Miniwork涵盖SEO分析及优化、写作辅助、图像生成、PDF处理、营销策划及运营管理等多元化AI工具，通过前沿技术集成包括GPT-4o、Claude 3.7 sonnet、Gemini 1.5 Flash、Llama 3.1、DeepSeek-R1、GLM-4-plus等在

AlphaGenome

AlphaGenome是谷歌DeepMind推出的全新AI模型，能更深入地理解基因组。模型能接收长达100万个碱基对的DNA序列输入，预测数千种表征其调控活性的分子特性，评估基因变异的影响。模型基于卷积层、Transformer架构，训练数据来自大型公共数据库。模型具有长序列上下文与高分辨率、全面多模态预测、高效变异评分和新颖剪接点建模等优势，在多项基准测试中表现顶尖，基于API向非商业研究领域开

4D-LRM

4D-LRM（Large Space-Time Reconstruction Model）是Adobe研究公司、密歇根大学等机构的研究人员共同推出的新型4D重建模型。模型能基于稀疏的输入视图和任意时间点，快速、高质量地重建出任意新视图和时间组合的动态场景。模型基于Transformer的架构，预测每个像素的4D高斯原语，实现空间和时间的统一表示，具有高效性和强大的泛化能力。4D-LRM在多种相机设

MedRAG

MedRAG是南洋理工大学研究团队提出的医学诊断模型，通过结合知识图谱推理增强大语言模型（LLM）的诊断能力。模型构建了四层细粒度诊断知识图谱，可精准分类不同病症表现，通过主动补问机制填补患者信息空白。MedRAG在真实临床数据集上诊断准确率提升了11.32%，具备良好的泛化能力，可应用于不同LLM基模型。MedRAG支持多模态输入，能实时解析症状并生成精准诊断建议。 MedRAG的主要功能

ScribbleDiff

文本到图像的扩散模型的最新进展已取得显著成功，但它们往往难以完全捕捉用户的意图。现有的使用文本输入结合边界框或区域蒙版的方法无法提供精确的空间引导，常常导致对象方向错位或意外。为了解决这些限制，我们提出了涂鸦引导扩散(ScribbleDiff)，这是一种无需训练的方法，它利用用户提供的简单涂鸦作为视觉提示来引导图像生成。然而，将涂鸦纳入扩散模型存在挑战，因为涂鸦具有稀疏和单薄的特性，很难确保准确的

Sourcely

Sourcely是AI驱动的学术搜索工具，能帮助学生和研究人员快速找到、总结和添加可信的学术资源。Sourcely提供超过2亿篇论文的访问权限，基于高级搜索过滤器简化研究过程。Sourcely的特色包括免费PDF下载、个性化搜索过滤器，及即时引用导出功能。Sourcely用学生视角创建真正理解学术社区需求的工具，保持与最新研究和趋势的同步，确保工具不断改进和发展。 Sourcely的主要功能

FairyGen

FairyGen 是大湾区大学推出的动画故事视频生成框架，支持从单个手绘角色草图出发，生成具有连贯叙事和一致风格的动画故事视频。框架借助多模态大型语言模型（MLLM）进行故事规划，基于风格传播适配器将角色的视觉风格应用到背景中，用 3D Agent重建角色生成真实的运动序列，基于两阶段运动适配器优化视频动画的连贯性与自然度。FairyGen 在风格一致性、叙事连贯性和运动质量方面表现出色，为个性化

OmniGen2

OmniGen2 是北京智源人工智能研究院推出的开源多模态生成模型。能根据文本提示生成高质量图像，支持指令引导的图像编辑，比如修改背景或人物特征等。OmniGen2 采用双组件架构，结合视觉语言模型（VLM）和扩散模型，实现对多种生成任务的统一处理。优势在于开源免费、高性能以及强大的上下文生成能力，适用于商业、创意设计和研究开发等场景。 OmniGen2的项目地址项目官网：https:/

ML-Master

ML-Master是上海交通大学人工智能学院Agents团队推出ML-Master – 上海交大推出的AI专家Agent的AI专家智能体。在OpenAI的权威基准测试MLE-bench中表现出色，以29.3%的平均奖牌率位居榜首，超越了微软的RD-Agent和OpenAI的AIDE等竞争对手。ML-Master通过“探索-推理深度融合”的创新范式，模拟人类专家的认知策略，整合广泛探索与深度推理，显

ThinkSound

ThinkSound是阿里通义语音团队推出的首个CoT（链式思考）音频生成模型，用在视频配音，为每一帧画面生成专属匹配音效。模型引入CoT推理，解决传统技术难以捕捉画面动态细节和空间关系的问题，让AI像专业音效师一样逐步思考，生成音画同步的高保真音频。模型基于三阶思维链驱动音频生成，包括基础音效推理、对象级交互和指令编辑。模型配备AudioCoT数据集，包含带思维链标注的音频数据。在VGGSoun

WebSailor

WebSailor 是阿里通义实验室开源的网络智能体，专注于复杂信息检索与推理任务。通过创新的数据合成方法（如 SailorFog-QA）和训练技术（如拒绝采样微调和 DUPO 算法），在高难度任务中表现出色，在 BrowseComp 等评测中超越多个知名模型，登顶开源网络智能体榜单。WebSailor 的推理重构技术能高效处理复杂任务，生成简洁且精准的推理链。在复杂场景中表现出色，在简单任务中展

RoboBrain

RoboBrain 2.0 是强大的开源具身大脑模型，能统一感知、推理和规划，支持复杂任务的执行。RoboBrain 2.0 包含 7B（轻量级）和 32B（全规模）两个版本，基于异构架构，融合视觉编码器和语言模型，支持多图像、长视频和高分辨率视觉输入，及复杂任务指令和场景图。模型在空间理解、时间建模和长链推理方面表现出色，适用机器人操作、导航和多智能体协作等任务，助力具身智能从实验室走向真实场景

RoboOS

RoboOS 2.0 是智谱开源的跨本体大小脑协同框架，专为具身智能设计。框架支持多机器人协作，基于集成MCP协议和无服务器架构实现轻量化部署，降低开发门槛。框架包含基于云计算的大脑模块，负责高级认知与多智能体协同；分布式小脑模块群，专司机器人专项技能执行；及实时共享内存机制，强化环境态势感知能力。RoboOS 2.0 提供标准化接口，消除硬件适配差异，用技能商店实现机器人技能模块的智能匹配与一键

EXAONE

EXAONE 4.0是韩国LG AI Research推出的自研混合推理大模型。模型融合通用自然语言处理和高级推理能力，支持韩语、英语和西班牙语。模型分为32B的专业版和1.2B的端侧版，前者基于多项国家级认证考试，适用高专业领域，后者体积小、性能优，支持本地运行，适合隐私和安全要求高的场景。EXAONE 4.0在国际高难度基准测试中表现优异，如MMLU-Pro 81.8分、AIME 2025 8

Seed Diffusion

Seed Diffusion是字节跳动Seed团队推出的实验性扩散语言模型，专注于代码生成任务。模型通过两阶段扩散训练、约束顺序学习和强化高效并行解码等关键技术，实现显著的推理加速。模型的推理速度达到2146 tokens/s，比同等规模的自回归模型快5.4倍，在多个代码基准测试中表现与自回归模型相当，在代码编辑任务上超越自回归模型。Seed Diffusion展示了离散扩散模型作为下一代生成模型

Jenova

Jenova 是先进的人工智能平台，帮助用户高效地从研究到生成报告。通过集成多种强大的 AI 模型，如 GPT-4o、Claude 和 Gemini，提供更精准的搜索结果和更智能的交互体验。与传统的搜索引擎相比，Jenova 能理解复杂的查询意图，能实时联网获取最新信息，确保用户获取到的信息是最新的。Jenova 的功能丰富多样，支持文档处理、图像识别、语音转文字等多种功能。用户可以上传各种格式的

ImageBind

ImageBind是Meta公司推出的开源多模态AI模型，将文本、音频、视觉、温度和运动数据等六种不同类型的信息整合到一个统一的嵌入空间中。模型通过图像模态作为桥梁，实现其他模态数据的隐式对齐，无需直接的模态间配对数据。ImageBind在跨模态检索、零样本分类等任务中展现出色的性能，为创建沉浸式、多感官的AI体验提供新的可能性。 ImageBind的项目地址项目官网：imagebind

SelectYet

SelectYet是实用的AI文献分析工具，基于先进的AI技术和“记忆摘要”技术，为研究人员提供高效便捷的文献处理服务。用户只需输入研究主题、上传PDF文献，设置自定义分析选项，可快速启动分析。工具能对海量文献进行结构化分析，快速提取关键信息，形成文献综述，加速信息筛选和整理的过程。SelectYet接入了deepseek-R1/V3模型，未来将融合更多模型的优势，提升分析的准确性和效率。 Se