PDF Wizardry - 梅斯AI导航站

SmolVLA

SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动（VLA）模型，专为经济高效的机器人设计。拥有4.5亿参数，模型小巧，可在CPU上运行，单个消费级GPU即可训练，能在MacBook上部署。SmolVLA 完全基于开源数据集训练，数据集标签为“lerobot”。 SmolVLA的主要功能多模态输入处理：SmolVLA 能处理多种输入，包括多幅图像、语言指令以及

Playmate

Playmate是广州趣丸科技团队推出的人脸动画生成框架。框架基于3D隐式空间引导扩散模型，用双阶段训练框架，根据音频和指令精准控制人物的表情和头部姿态，生成高质量的动态肖像视频。Playmate基于运动解耦模块和情感控制模块，实现对生成视频的精细控制，显著提升视频质量和情感表达的灵活性。Playmate在音频驱动肖像动画领域取得重大进展，提供对情感和姿态的精细控制，能生成多种风格的动态肖像，具有

NovaCV

NovaCV 是基于人工智能技术的在线AI简历生成器，帮助用户快速制作专业、美观的求职简历。集成了领先的 AI 功能，如智能简历助手、一键生成工作描述、AI 润色引擎、智能纠错、中英文翻译等，确保简历内容精准且专业。NovaCV 提供了丰富的专业模板，覆盖主流行业，排版设计符合招聘者喜好，能帮助求职者在众多简历中脱颖而出。NovaCV 提供 API 服务，支持简历智能检查、文本解析和模板生成等功能

HistAgent

普林斯顿与复旦推出HistBench和HistAgent，首个人文AI评测基准普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench，并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白，更为复杂史料处理与多模态理解建立了系统工具框架。历史是关于时间中的人的

Agentic Document Extraction

概述 LandingAI Agentic 文档提取API 从视觉复杂的文档（如表格、图片和图表）中提取结构化数据，并返回具有精确元素位置的分层 JSON。这个 Python 库包装了该 API 以提供：长文档支持——一次调用即可处理 100 多页 PDF 自动重试/分页——处理并发、超时和速率限制辅助实用程序——边界框代码片段、可视化调试器等特征

Paper2Poster

一款论文转多模态海报工具：Paper2Poster，给它一篇论文，可自动生成一张学术海报，生成质量高制作成本低生成的海报可读性较好，结构清晰、用词精简，比GPT-4清晰可读，比PPTAgent布局合理输入论文PDF全自动处理，可以自动提取重点，进行智能排版设计，自动调整布局，维持论文逻辑顺序并控制信息密度

LilysAI

LilysAI 是功能强大的 AI 摘要工具，用于快速提取和总结各种格式文件或内容的核心信息。支持多种文件类型，包括视频、音频、PDF、Word 文档、PPT 幻灯片、Excel 电子表格以及网页内容。用户可以通过上传文件或输入链接，让 LilysAI 自动处理并生成简洁明了的摘要。能帮助用户高效整理学习资料、会议记录、研究报告或视频内容，快速提取关键信息，节省时间和精力。 LilysAI的主要

LLIA

LLIA（Low-Latency Interactive Avatars）是美团公司推出的基于扩散模型的实时音频驱动肖像视频生成框架。框架基于音频输入驱动虚拟形象的生成，支持实现低延迟、高保真度的实时交互。LLIA用可变长度视频生成技术，减少初始视频生成的延迟，结合一致性模型训练策略和模型量化技术，显著提升推理速度。LLIA支持用类别标签控制虚拟形象的状态（如说话、倾听、空闲）及面部表情的精细控制

Ainee

Ainee是AI笔记和学习辅助工具，帮助用户高效地捕捉、整理和分享知识。工具支持从多种来源导入学习材料，包括实时音频、文本、视频、PDF等，自动将内容转换为文本形式。Ainee能自动生成结构化的笔记、总结、思维导图、抽认卡和测验，帮助用户更好地理解和记忆信息。Ainee支持用户共享整个知识库，促进知识的流动和团队协作。Ainee注重用户数据安全和隐私保护，是学习和办公的得力助手。 Ainee的主

Seaweed APT2

Seaweed APT2是字节跳动推出的创新的AI视频生成模型，通过自回归对抗后训练（AAPT）技术，将双向扩散模型转化为单向自回归生成器，实现高效、高质量的视频生成。模型能在单次网络前向评估（1NFE）中生成包含多帧视频的潜空间帧，显著降低了计算复杂性，通过输入回收机制和键值缓存（KV Cache）技术，支持长时间视频生成，解决了传统模型在长视频生成中常见的动作漂移和物体变形问题。能在单块GPU

Code Researcher

Code Researcher是微软研究院推出的深度研究Agent工具，专门用于处理大型系统代码库及其提交历史，自动化修复系统代码崩溃问题。通过三个阶段工作：分析（Analysis）、合成（Synthesis）和验证（Validation）。在分析阶段，Code Researcher基于多步推理策略，结合代码语义、模式和提交历史信息，收集上下文并存储在结构化内存中。合成阶段基于收集到的上下文生成修

EmbodiedGen

EmbodiedGen 是用于具身智能（Embodied AI）应用的生成式 3D 世界引擎和工具包。能快速生成高质量、低成本且物理属性合理的 3D 资产和交互环境，帮助研究人员和开发者构建具身智能体的测试环境。EmbodiedGen 包含多个模块，如从图像或文本生成 3D 模型、纹理生成、关节物体生成、场景和布局生成等，支持从简单物体到复杂场景的创建。生成的 3D 资产可以直接用于机器人仿真和

RAG-Anything

RAG-Anything是香港大学数据智能实验室推出的开源多模态RAG系统。系统支持处理包含文本、图像、表格和公式的复杂文档，提供从文档摄取到智能查询的端到端解决方案。系统基于多模态知识图谱、灵活的解析架构和混合检索机制，显著提升复杂文档处理能力，支持多种文档格式，如PDF、Office文档、图像和文本文件等。RAG-Anything核心优势包括端到端多模态流水线、多格式文档支持、多模态内容分析引

Dive3D

Dive3D是北京大学和小红书公司合作推出的文本到3D生成框架。框架基于分数的匹配（Score Implicit Matching，SIM）损失替代传统的KL散度目标，有效避免模式坍塌问题，显著提升3D生成内容的多样性。Dive3D在文本对齐、人类偏好和视觉保真度方面表现出色，在GPTEval3D基准测试中取得优异的定量结果，证明了在生成高质量、多样化3D资产方面的强大能力。 Dive3D的项目

Lingshu

Lingshu是阿里巴巴达摩院推出的专注于医学领域的多模态大型语言模型。模型支持超过12种医学成像模态，包括X光、CT扫描、MRI等，在多模态问答、文本问答及医学报告生成等任务上展现出卓越的性能。Lingshu基于多阶段训练，逐步嵌入医学专业知识，显著提升在医学领域的推理和问题解决能力。推出7B、32B两个参数版本，其中32B版本在多个医学多模态问答任务中超越GPT-4.1等专有模型。Lingsh

Miniwork

Miniwork是高效的AI工具平台，聚焦提升工作、学习、内容创作、运营营销等多个方向，专为提升工作与学习效率的用户打造。Miniwork涵盖SEO分析及优化、写作辅助、图像生成、PDF处理、营销策划及运营管理等多元化AI工具，通过前沿技术集成包括GPT-4o、Claude 3.7 sonnet、Gemini 1.5 Flash、Llama 3.1、DeepSeek-R1、GLM-4-plus等在

AlphaGenome

AlphaGenome是谷歌DeepMind推出的全新AI模型，能更深入地理解基因组。模型能接收长达100万个碱基对的DNA序列输入，预测数千种表征其调控活性的分子特性，评估基因变异的影响。模型基于卷积层、Transformer架构，训练数据来自大型公共数据库。模型具有长序列上下文与高分辨率、全面多模态预测、高效变异评分和新颖剪接点建模等优势，在多项基准测试中表现顶尖，基于API向非商业研究领域开

4D-LRM

4D-LRM（Large Space-Time Reconstruction Model）是Adobe研究公司、密歇根大学等机构的研究人员共同推出的新型4D重建模型。模型能基于稀疏的输入视图和任意时间点，快速、高质量地重建出任意新视图和时间组合的动态场景。模型基于Transformer的架构，预测每个像素的4D高斯原语，实现空间和时间的统一表示，具有高效性和强大的泛化能力。4D-LRM在多种相机设

MedRAG

MedRAG是南洋理工大学研究团队提出的医学诊断模型，通过结合知识图谱推理增强大语言模型（LLM）的诊断能力。模型构建了四层细粒度诊断知识图谱，可精准分类不同病症表现，通过主动补问机制填补患者信息空白。MedRAG在真实临床数据集上诊断准确率提升了11.32%，具备良好的泛化能力，可应用于不同LLM基模型。MedRAG支持多模态输入，能实时解析症状并生成精准诊断建议。 MedRAG的主要功能

ScribbleDiff

文本到图像的扩散模型的最新进展已取得显著成功，但它们往往难以完全捕捉用户的意图。现有的使用文本输入结合边界框或区域蒙版的方法无法提供精确的空间引导，常常导致对象方向错位或意外。为了解决这些限制，我们提出了涂鸦引导扩散(ScribbleDiff)，这是一种无需训练的方法，它利用用户提供的简单涂鸦作为视觉提示来引导图像生成。然而，将涂鸦纳入扩散模型存在挑战，因为涂鸦具有稀疏和单薄的特性，很难确保准确的

Sourcely

Sourcely是AI驱动的学术搜索工具，能帮助学生和研究人员快速找到、总结和添加可信的学术资源。Sourcely提供超过2亿篇论文的访问权限，基于高级搜索过滤器简化研究过程。Sourcely的特色包括免费PDF下载、个性化搜索过滤器，及即时引用导出功能。Sourcely用学生视角创建真正理解学术社区需求的工具，保持与最新研究和趋势的同步，确保工具不断改进和发展。 Sourcely的主要功能

FairyGen

FairyGen 是大湾区大学推出的动画故事视频生成框架，支持从单个手绘角色草图出发，生成具有连贯叙事和一致风格的动画故事视频。框架借助多模态大型语言模型（MLLM）进行故事规划，基于风格传播适配器将角色的视觉风格应用到背景中，用 3D Agent重建角色生成真实的运动序列，基于两阶段运动适配器优化视频动画的连贯性与自然度。FairyGen 在风格一致性、叙事连贯性和运动质量方面表现出色，为个性化

OmniGen2

OmniGen2 是北京智源人工智能研究院推出的开源多模态生成模型。能根据文本提示生成高质量图像，支持指令引导的图像编辑，比如修改背景或人物特征等。OmniGen2 采用双组件架构，结合视觉语言模型（VLM）和扩散模型，实现对多种生成任务的统一处理。优势在于开源免费、高性能以及强大的上下文生成能力，适用于商业、创意设计和研究开发等场景。 OmniGen2的项目地址项目官网：https:/

ML-Master

ML-Master是上海交通大学人工智能学院Agents团队推出ML-Master – 上海交大推出的AI专家Agent的AI专家智能体。在OpenAI的权威基准测试MLE-bench中表现出色，以29.3%的平均奖牌率位居榜首，超越了微软的RD-Agent和OpenAI的AIDE等竞争对手。ML-Master通过“探索-推理深度融合”的创新范式，模拟人类专家的认知策略，整合广泛探索与深度推理，显

搜索结果