PDF compression - 梅斯AI导航站

WebThinker

WebThinker是中国人民大学、北京智源人工智能研究院和华为泊松实验室等机构提出的深度研究智能体。WebThinker赋能大型推理模型（LRMs）在推理过程中自主进行网络搜索、网页导航和报告撰写。WebThinker基于深度网页探索器和自主思考、搜索、写作策略，让LRMs能动态获取信息，实时生成高质量研究报告。WebThinker基于强化学习的训练策略进一步优化工具使用效率。WebThinke

Question.AI

Question.AI的简介 Question.AI 是作业帮推出的AI学习助手应用，专为学生、专业人士和好奇者设计。通过简单易用的界面提供即时准确的答案，支持 140 多种语言翻译，打破语言障碍。智能写作功能可优化文本，提升写作质量。提供数学计算器功能，帮助用户解决复杂数学问题。 Question.AI的主要功能拍照解题：用户可以通过拍摄题目照片，系统会快速识别并提供答案。文

笔格AIPPT

笔格AIPPT（原比格AIPPT）是一款高效的AI PPT生成办公工具，利用先进的人工智能大模型技术，为用户提供了一个快速便捷的PPT制作体验。用户只需简单地输入想要探讨的主题，该智能软件便能迅速地创建出一套专业的演示文稿。此外，笔格AIPPT还内置了一系列精心设计的PPT模板，用户可以轻松地通过一键操作来更换这些模板，适应不同的演示场合和风格。会员可解锁更多高级功能，支持免费体验。笔格A

清言PPT

清言PPT是智谱清言联合AiPPT推出的PPT生成智能体，可以帮助用户从文本、文件或网址快速创建PPT大纲，生成精美的PPT。用户可以通过一句话提示词、上传的文本文件、网址内容或直接输入大纲来生成PPT。功能支持长达2万字的输入，提供多种模板选择，满足不同场景的需求。清言PPT的主要功能快速创建PPT：用户可以通过粘贴文本、上传文件（支持PDF、Word、Excel、TXT等格式）或

VisDoc

VisDoc是什么 VisDoc是AI文生图表工具，基于自然语言处理（NLP）技术，快速将文本内容转化为直观的图表，支持生成柱状图、折线图、饼图等多种类型。VisDoc界面简洁，操作简单，适合初学者快速上手。VisDoc智能文本分析功能支持自动识别文本中的关键信息，生成符合用户需求的图表。VisDoc提供丰富的自定义选项和多种输出格式，适用于数据分析、报告撰写、商业演示和教育等多个领域，能有效提

LegoGPT

卡内基梅隆大学的研究团队开发出一款名为 LegoGPT 的 AI 模型，能够根据文字指令生成可实际搭建的乐高设计。比如输入文本「基本款沙发」，一眨眼的功夫，乐高沙发就拼好了。团队训练了一种自回归大型语言模型，通过预测下一个 token 的方式，判断下一块该放置什么积木。团队还为模型增加了有效性校验和带有物理感知的回滚机制，确保生成的设计不会出现积木重叠或悬空等问题，也就是说最终结果始终可行

MMaDA

MMaDA（Multimodal Large Diffusion Language Models）是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型，支持跨文本推理、多模态理解和文本到图像生成等多个领域实现卓越性能。模型用统一的扩散架构，具备模态不可知的设计，消除对特定模态组件的需求，引入混合长链推理（CoT）微调策略，统一跨模态的CoT格式，推出UniGRPO，针对扩散基础模型的统

DreamGen

DreamGen是英伟达推出的创新的机器人学习技术，基于AI视频世界模型生成合成数据，让机器人能在梦境中学习新技能。DreamGen仅需少量现实视频数据，能生成大规模逼真的训练数据，实现机器人在新环境中的行为泛化和环境泛化。DreamGen的四步流程包括微调视频世界模型、生成虚拟数据、提取虚拟动作以及训练下游策略。DreamGen让机器人在没有真实世界数据支持的情况下，凭文本指令完成复杂任务，显著

BAGEL

BAGEL是字节跳动开源的多模态基础模型，拥有140亿参数，其中70亿为活跃参数。采用混合变换器专家架构（MoT），通过两个独立编码器分别捕捉图像的像素级和语义级特征。BAGEL遵循“下一个标记组预测”范式进行训练，使用海量多模态标记数据进行预训练，包括语言、图像、视频和网络数据。在性能方面，BAGEL在多模态理解基准测试中超越了Qwen2.5-VL和InternVL-2.5等顶级开源视觉语言模型

mPLUG-Owl3

mPLUG-Owl3是阿里巴巴推出的通用多模态AI模型，专为理解和处理多图及长视频设计。在保持准确性的同时，显著提升了推理效率，能在4秒内分析完2小时电影。模型采用创新的Hyper Attention模块，优化视觉与语言信息的融合，支持多图场景和长视频理解。mPLUG-Owl3在多个基准测试中达到行业领先水平，其论文、代码和资源已开源，供研究和应用。 mPLUG-Owl3的主要功能多

Prezi

Prezi是创新的AI演示文稿工具，基于开放式画布和动态演示方式，帮助用户创建引人入胜的演示文稿和视频。与传统线性幻灯片不同，Prezi支持自由组织内容，提供丰富的模板和资源库，包括图片、GIF和图标等。Prezi AI技术辅助用户快速生成演示内容，提升创意效率。Prezi广泛应用于商业和教育领域，深受全球用户喜爱。 Prezi的主要功能开放式画布：提供无边界的画布，让用户自由地组织

TradingAgents

TradingAgents是加利福尼亚大学洛杉矶分校和麻省理工学院推出的多代理LLM金融交易框架，能模拟现实世界的交易公司环境。TradingAgents整合多个具有不同角色和风险偏好的LLM代理，如基本面分析师、情绪分析师、技术分析师、交易员和风险经理等，实现对复杂金融数据的全面分析与处理。代理基于代理辩论和对话进行交易决策，结合结构化输出与自然语言对话，提高决策的精确性和灵活性。实验结果表明，

NVILA

NVILA是NVIDIA推出的系列视觉语言模型，能平衡效率和准确性。模型用“先扩展后压缩”策略，有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化，减少资源消耗，在多项图像和视频基准测试中达到或超越当前领先模型的准确性，包括Qwen2VL、InternVL和Pixtral在内的多种顶尖开源模型，及GPT-4o和Gemini等专有模型。NVILA引入时间定位、机器人导航和医学成像等

Dolphin

Dolphin 是字节跳动开源的轻量级、高效的文档解析大模型。基于先解析结构后解析内容的两阶段方法，第一阶段生成文档布局元素序列，第二阶段用元素作为锚点并行解析内容。Dolphin在多种文档解析任务上表现出色，性能超越GPT-4.1、Mistral-OCR等模型。Dolphin 具有322M参数，体积小、速度快，支持多种文档元素解析，包括文本、表格、公式等。Dolphin的代码和预训练模型已公开，

ii-agent

II-Agent：一个用于构建和部署智能体的全新开源框架。II-Agent 是一款开源智能助手，旨在简化和增强跨领域的工作流程。它代表了我们与技术互动方式的重大进步——从被动工具转变为能够独立执行复杂任务的智能系统。作为简易的COZE，Dify平替。 ii-agent开源框架，擅长构建跨多个领域工作流的Agent，能独立执行复杂任务已是Agent标配其技能覆盖研究与核查、内容生成、数据分析可视

Aurora

Aurora是微软研究院推出的13亿参数的大气基础模型，基于从海量大气数据中提取有价值信息，用在预测全球天气模式、空气污染和海洋波浪等大气过程。模型用预训练和微调的架构，处理不同分辨率和压力水平的数据。Aurora在多个预测任务中表现出色，包括高分辨率天气预测、空气污染预测和热带气旋轨迹预测，计算速度比传统数值天气模型快约5000倍。模型提高了预测精度，降低计算成本，为应对气候变化和极端天气事件提

HRAvatar

HRAvatar是清华大学联合IDEA团队推出的单目视频重建技术，支持从普通单目视频中生成高质量、可重光照的3D头像。HRAvatar用可学习的形变基和线性蒙皮技术，基于精准的表情编码器减少追踪误差，提升重建质量。HRAvatar将头像外观分解为反照率、粗糙度和菲涅尔反射等属性，结合物理渲染模型，实现真实的重光照效果。HRAvatar在多个指标上优于现有方法，支持实时渲染（约155 FPS），为数

RelightVid

RelightVid是上海 AI Lab、复旦大学、上海交通大学、浙江大学、斯坦福大学和香港中文大学推出用在视频重照明的时序一致性扩散模型，支持根据文本提示、背景视频或HDR环境贴图对输入视频进行细粒度和一致的场景编辑，支持全场景重照明和前景保留重照明。模型基于自定义的增强管道生成高质量的视频重照明数据对，结合真实视频和3D渲染数据，在预训练的图像照明编辑扩散框架（IC-Light）基础上，插入可

3DTown

3DTown 是哥伦比亚大学联合Cybever AI等机构推出的从单张俯视图生成3D城镇场景框架。框架基于区域化生成和空间感知的3D修复技术，将输入图像分解为重叠区域，基于预训练的3D对象生成器分别生成每个区域的3D内容，基于掩码修正流修复过程填补缺失的几何结构，同时保持结构连续性。3DTown 支持生成具有高几何质量和纹理保真度的连贯3D场景，在多种风格的场景生成中表现出色，优于现有的先进方法。

橙篇

橙篇是由百度推出的一款AI写作工具，基于百度文库的庞大内容库和尖端AI技术，为用户提供了强大的长文件处理和内容创作能力。用户可以利用橙篇AI轻松理解、总结超大量、多格式、长篇幅的文件，并通过即时问答功能获得所需信息。此外，橙篇还支持长文生成、深度编辑和多模态创作，极大地丰富了用户的创作手段。橙篇的研发基于百度文库12亿内容的积累，结合了20万精调数据和1.4亿用户的行为数据，以及百度文库、百度学术

夸克AI

夸克是阿里推出的AI搜索应用，集成了浏览器搜索、网盘、实用工具等功能。夸克支持手机版、Pad版、Windows电脑PC版，资产一键同步。提供6T超大空间、AI总结、AI生成等智能服务。用户可通过手机扫码快速登录，享受无缝的多端协同体验。夸克极速、安全、高效、高颜值，是你的学习、工作、生活的高效拍档。夸克的功能特色智能搜索：夸克基于AI智能引擎提供快速、准确的搜索结果，查资料更快，工作，

Pixel Reasoner

视觉语言模型（VLM），基于像素空间推理增强模型对视觉信息的理解和推理能力。模型能直接在视觉输入上进行操作，如放大图像区域或选择视频帧，更细致地捕捉视觉细节。Pixel Reasoner用两阶段训练方法，基于指令调优让模型熟悉视觉操作，用好奇心驱动的强化学习激励模型探索像素空间推理。Pixel Reasoner在多个视觉推理基准测试中取得优异的成绩，显著提升视觉密集型任务的性能。 Pixel R

Vid2World

Vid2World是清华大学联合重庆大学推出的创新框架，支持将全序列、非因果的被动视频扩散模型（VDM）转换为自回归、交互式、动作条件化的世界模型。模型基于视频扩散因果化和因果动作引导两大核心技术，解决传统VDM在因果生成和动作条件化方面的不足。Vid2World在机器人操作和游戏模拟等复杂环境中表现出色，支持生成高保真、动态一致的视频序列，支持基于动作的交互式预测。Vid2World为提升世界模

Morphik

Morphik 是开源的多模态检索增强生成（RAG）工具，专为处理高技术性和视觉内容丰富的文档设计。支持对图像、PDF、视频等多种格式的文档进行搜索，采用 ColPali 等技术，能理解文档中的视觉内容。Morphik 具备快速元数据提取功能，可从文档中提取边界框、标签、分类等信息。 Morphik的主要功能多模态数据处理：能处理文本、PDF、图片、视频等多种格式的文件。智能解析文件