苹果 FastVLM 的模型让你的 iPhone 瞬间拥有了“火眼金睛”,不仅能看懂图片里的各种复杂信息,还能像个段子手一样跟你“贫嘴”!而且最厉害的是,它速度快到飞起,苹果官方宣称,首次给你“贫嘴”的速度比之前的一些模型快了足足85倍!这简直是要逆天啊!
视觉语言模型的 “成长烦恼”
现在的视觉语言模型,就像个不断进化的小天才,能同时理解图像和文本信息。它的应用可广了,从帮咱们理解图片里的内容,到辅助创作图文并茂的作品,都不在话下。一般来说,VLMs 是把预训练的视觉骨干网络提取的视觉 token,通过投影层传给预训练的大语言模型(LLM)。之前好多研究都在探索怎么训练和微调这几个组件,让模型变得更强。
研究发现,提高图像分辨率能显著提升 VLMs 在一些任务上的表现,尤其是处理那些文字和图表丰富的图像时。你想啊,图片越清晰,模型能 “看” 到的细节就越多,理解起来不就更准确嘛!但这也带来了不少麻烦。一方面,很多预训练的视觉编码器不太支持高分辨率图像,强行用的话,预训练效率会变得超级低。为了解决这个问题,有人尝试持续预训练视觉骨干网络,让它适应高分辨率;还有人把图像切成小块,像拼图一样分别处理,不过这也挺麻烦的。
另一方面,高分辨率推理的计算成本太高了!不管是直接进行高分辨率推理,还是把图像切块后进行低分辨率推理,都会产生很大的延迟。而且高分辨率图像生成的 token 更多,这又增加了 LLM 处理这些 token 的时间,导致整个模型输出首个 token 的时间(TTFT)变长。这就好比你让一个人一下子处理太多任务,他肯定会手忙脚乱,速度变慢。
FastVLM 来 “救场”
面对这些难题,苹果的研究团队搞出了 FastVLM,它就像是给 VLMs 注入了一剂 “加速药水”,能在保证性能的同时,大幅提升运行效率。
架构设计:另辟蹊径的 “智慧结晶”
FastVLM 的核心是 FastViTHD 这个新型混合视觉编码器。在探索 VLM 架构时,团队发现混合视觉编码器(卷积层加上 Transformer 块)是个不错的选择。卷积层可以轻松处理不同分辨率的图像,Transformer 块则能进一步优化视觉 token,让 LLM 更好地理解。
他们用的 FastViT 就是基于这种架构,经过 MobileCLIP 预训练,效果还不错。比如,在相同的 VLM 基准测试中,FastViT 生成视觉 token 的速度比 ViT 模型快4倍多,准确率也更高。
不过,团队并没有满足于此。为了让模型在高分辨率下表现更出色,他们又设计了 FastViTHD。这个新架构在 FastViT 的基础上做了不少改进。它增加了一个额外的阶段和下采样层,让 self - attention 层处理的张量更小,这样就能减少图像编码延迟,还能为计算密集型的 LLM 解码器生成更少的 token,从而降低 TTFT。打个比方,这就像是给模型的 “信息高速公路” 拓宽了车道,还优化了交通规则,让信息传递得又快又稳。
训练与优化:精心打磨的 “成长之路”
训练 FastVLM 就像培养一个优秀的运动员,需要精心规划。研究人员采用了两阶段训练法,和 LLaVA -1.5的设置类似。第一阶段,只训练投影仪,用的是 LLaVA -558K 对齐数据集,训练时图像分辨率和骨干网络预训练分辨率一致。第二阶段,用 LLaVA -665K 监督微调数据集,把模型的所有模块都拿来训练,这时图像分辨率就设置成目标分辨率。
为了让模型更好地适应不同的任务和数据集,研究人员还做了很多优化。比如,他们尝试了多尺度特征提取,把网络不同阶段的信息整合起来,让模型能更好地理解图像。就像我们看一幅画,不仅要看整体,还要关注细节,多尺度特征提取就起到了这个作用。此外,他们还对比了不同的池化策略和连接器设计,发现用深度卷积进行池化能让模型性能更优。
实验结果:实力碾压的 “高光时刻”
在实验环节,FastVLM 简直就是 “学霸”,成绩相当亮眼!研究人员在主流基准测试中对 FastVLM 进行了全面评估,包括 GQA、ScienceQA、TextVQA 等多个任务。结果显示,在和其他模型的对比中,FastVLM 优势明显。
和基于卷积的 ConvLLaVA 相比,同样的 LLM 和相似的训练数据规模下,FastVLM 在 TextVQA 任务上性能提升了8.4%,在 DocVQA 任务上提升了12.5%,而且速度还快了22%。在高分辨率下,这种优势更加明显,FastVLM 的速度比 ConvLLaVA 快了2倍,在多个基准测试中都取得了更好的成绩。
和其他用多个视觉编码器的模型比,FastVLM 也毫不逊色。像 Cambrian -1用了多个视觉编码器,视觉编码在总 TTFT 中占比很大,而 FastVLM 用单个编码器,不仅速度比它快7.9倍,在相似的视觉指令调优数据集训练下,性能还超过了 Cambrian -1。就算是在对视觉 token 数量很敏感的文本丰富型评估任务中,FastVLM 也能凭借更少的视觉 token 取得更好的成绩。
FastVLM 的优势与意义
FastVLM 的出现,给视觉语言模型领域带来了新的希望。它最大的优势就是在保证模型性能的同时,大幅提升了运行效率。以前的模型在处理高分辨率图像时,要么速度慢,要么准确率低,FastVLM 很好地解决了这些问题。
对于我们普通用户来说,这意味着以后在手机上使用相关应用时,体验会大大提升。比如用图像搜索功能,以前可能要等半天才能出结果,现在用搭载 FastVLM 的应用,瞬间就能得到答案。对于开发者来说,FastVLM 提供了一个高效的模型框架,能让他们开发出更强大、更智能的应用。
从更宏观的角度看,FastVLM 的成功也为未来的研究指明了方向。它证明了通过优化架构和训练方法,可以在资源有限的设备上实现高性能的视觉语言模型。相信在不久的将来,会有更多基于 FastVLM 的创新应用出现,让我们的生活变得更加智能和便捷。
论文地址:https://www.arxiv.org/pdf/2412.13303
项目地址:https://github.com/apple/ml-fastvlm
相关推荐

RWKV7-G1
<p>RWKV开源发布了 RWKV7-G1 1.5B 推理模型(Reasoning Model)。模型基于 World v3.5 数据集训练,包含更多小说、网页、数学、代码和 reasoning 数据,总数据为 5.16T tokens。其具备其它同尺寸模型不具备的推理能力和任务能力,同时还支持现实世界 100+ 种语言。 在实际测试中,RWKV7-G1 1.5B 模型的推理逻辑性较强,能够完成有难度的多语言、数学和代码任务。该模型已上线始智AI-wisemodel开源社区</p> <header class="page-header"><img class="avatar" itemprop="image" src="https://www.rwkv.com/images/avatar.png" alt="RWKV"> <div class="title-bar"> <h2 class="header-title" itemprop="jobTitle">RWKV Language Model</h2> </div> <div class="executive-summary" itemprop="description"> <p>RWKV (pronounced RwaKuv) is an RNN with great LLM performance and parallelizable like a Transformer. We are at&nbsp;<a href="https://huggingface.co/BlinkDL/rwkv7-g1" target="_blank" rel="noopener">RWKV7-G1</a>&nbsp;"GooseOne" reasoning model.</p> <p>It's combining the best of RNN and transformer - great performance, linear time, constant space (no kv-cache), fast training, infinite ctxlen, and free text embedding. And it's 100% attention-free, and a&nbsp;<a href="https://lfaidata.foundation/projects/rwkv/" target="_blank" rel="noopener">Linux Foundation AI project</a>.</p> </div> <div><a class="contact-button" href="https://huggingface.co/spaces/BlinkDL/RWKV-Gradio-2" target="_blank" rel="noopener">G1 1.5B Demo</a><a class="contact-button" href="https://huggingface.co/spaces/RWKV-Red-Team/RWKV-LatestSpace" target="_blank" rel="noopener">G1 Chat 💬</a><a class="contact-button" href="https://huggingface.co/spaces/BlinkDL/RWKV-Gradio-1" target="_blank" rel="noopener">v7 3B Demo</a></div> <a href="https://arxiv.org/abs/2503.14456" target="_blank" rel="noopener"><img itemprop="image" src="https://www.rwkv.com/images/RWKV-paper.png" alt="RWKV-7 paper"></a> <div>&nbsp;</div> </header> <section class="content-section"><header class="section-header"> <h2>RWKV-Projects</h2> </header><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://github.com/BlinkDL/RWKV-LM" target="_blank" rel="noopener"> <p class="project-item-title">RWKV-LM</p> <p class="project-item-description">Training RWKV (and latest developments)</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://github.com/josStorer/RWKV-Runner" target="_blank" rel="noopener"> <p class="project-item-title">RWKV-Runner</p> <p class="project-item-description">RWKV GUI with one-click install and API</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://pypi.org/project/rwkv/" target="_blank" rel="noopener"> <p class="project-item-title">RWKV pip package</p> <p class="project-item-description">Official RWKV pip package</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://github.com/JL-er/RWKV-PEFT" target="_blank" rel="noopener"> <p class="project-item-title">RWKV-PEFT</p> <p class="project-item-description">Finetuning RWKV (9GB VRAM can finetune 7B)</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://github.com/cgisky1980/ai00_rwkv_server" target="_blank" rel="noopener"> <p class="project-item-title">RWKV-server</p> <p class="project-item-description">Fast WebGPU inference (NVIDIA/AMD/Intel), nf4/int8/fp16</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://github.com/search?o=desc&amp;q=rwkv&amp;s=updated&amp;type=Repositories" target="_blank" rel="noopener"> <p class="project-item-title">More... (400+ RWKV projects)</p> <p class="project-item-description">&nbsp;</p> </a></section> <section class="content-section"><header class="section-header"> <h2>Misc</h2> </header><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://huggingface.co/BlinkDL" target="_blank" rel="noopener"> <p class="project-item-title">RWKV raw weights</p> <p class="project-item-description">All latest RWKV weights</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://huggingface.co/BlinkDL" target="_blank" rel="noopener"><img src="https://www.rwkv.com/images/v7-world-eval.png"></a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://huggingface.co/RWKV" target="_blank" rel="noopener"> <p class="project-item-title">RWKV weights</p> <p class="project-item-description">HuggingFace-compatible RWKV weights</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://scholar.google.com/scholar?scisbd=2&amp;q=rwkv&amp;as_sdt=0,5" target="_blank" rel="noopener"> <p class="project-item-title">RWKV-related papers</p> <p class="project-item-description">&nbsp;</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://wiki.rwkv.com/" target="_blank" rel="noopener"> <p class="project-item-title">RWKV wiki</p> <p class="project-item-description">Community wiki</p> </a></section>

microsoft phi
phi-4是一个最先进的开放模型,它基于合成数据集、来自筛选过的公共领域网站的数据以及获取的学术书籍和问答数据集构建而成。该方法的目标是确保小型模型能够使用专注于高质量和高级推理的数据进行训练。该模型 phi-4经过了严格的增强和校准过程,结合了监督微调和直接偏好优化,以确保精确的指令遵循和强大的安全措施。 14B 参数,密集解码器专用 Transformer 模型 我们的模型旨在加速语言模型的研究,并将其作为生成式人工智能功能的基石。它适用于通用人工智能系统和应用(主要针对英语),这些系统和应用需要: 1. 内存/计算受限的环境。2 . 延迟受限的场景。3 . 推理和逻辑。 训练数据集 我们的训练数据是用于 Phi-3 的数据的扩展,包括来自以下各种来源的数据: 对公开的文档进行严格的质量筛选,选择高质量的教育数据和代码。 新创建的合成“类似教科书”的数据,用于教授数学、编码、常识推理、世界常识(科学、日常活动、心理理论等)。 获得学术书籍和问答数据集。 高质量的聊天格式监督数据涵盖各种主题,以反映人类在遵循指示、真实性、诚实和乐于助人等不同方面的偏好。 多语言数据约占我们整体数据的 8%。我们注重能够提升模型推理能力的数据质量,并筛选公开的文档,确保其包含的知识水平符合要求。 基准数据集 我们phi-4使用OpenAI 的 SimpleEval和我们自己的内部基准进行了评估,以了解该模型的功能,更具体地说: MMLU:用于多任务语言理解的流行聚合数据集。 数学:具有挑战性的竞赛数学问题。 GPQA:复杂的、研究生水平的科学问题。 DROP:复杂的理解和推理。 MGSM:多语言小学数学。 HumanEval:功能代码生成。 SimpleQA:事实回应。

DeepSeek-Prover
我们在 Lean 4 中引入了 DeepSeek-Prover-V2,这是一个专为形式化定理证明而设计的开源大型语言模型,其初始化数据通过 DeepSeek-V3 驱动的递归定理证明流程收集。冷启动训练过程首先促使 DeepSeek-V3 将复杂问题分解为一系列子目标。已解决子目标的证明被合成为一个思路链,并结合 DeepSeek-V3 的逐步推理,为强化学习创建初始冷启动。这一过程使我们能够将非形式化和形式化的数学推理整合到一个统一的模型中。 通过递归证明搜索合成冷启动推理数据 为了构建冷启动数据集,我们开发了一个简单而有效的递归定理证明流程,并利用 DeepSeek-V3 作为子目标分解和形式化的统一工具。我们促使 DeepSeek-V3 将定理分解为高级证明草图,同时在 Lean 4 中将这些证明步骤形式化,从而生成一系列子目标。 我们使用规模较小的 7B 模型来处理每个子目标的证明搜索,从而减轻相关的计算负担。一旦解决了一个挑战性问题的分解步骤,我们就会将完整的分步形式化证明与 DeepSeek-V3 中的相应思路配对,以创建冷启动推理数据。 利用合成冷启动数据进行强化学习 我们以端到端的方式整理出一组尚未被 7B 证明器模型解决的挑战性问题子集,但所有分解后的子目标都已成功解决。通过组合所有子目标的证明,我们为原始问题构建了一个完整的形式化证明。然后,我们将该证明附加到 DeepSeek-V3 的思路链中,该思路链概述了相应的引理分解,从而将非形式化推理与后续形式化过程紧密结合。 在合成冷启动数据上对证明器模型进行微调后,我们执行强化学习阶段,以进一步增强其连接非形式化推理和形式化证明构造的能力。遵循推理模型的标准训练目标,我们使用二元正确或错误反馈作为奖励监督的主要形式。 最终模型 DeepSeek-Prover-V2-671B 在神经定理证明方面达到了最佳性能,在 MiniF2F 测试中达到了 $88.9$% 的通过率,并在 PutnamBench 的 658 个问题中解决了 49 个。DeepSeek-Prover-V2 为 miniF2F 数据集生成的证明可以ZIP 压缩包形式下载。 3. ProverBench:AIME 和教科书问题的形式化 我们推出了 ProverBench,这是一个包含 325 个问题的基准数据集。其中 15 个问题取自近期 AIME 竞赛(AIME 24 和 25)中的数论和代数问题,形式化后呈现出真实的高中竞赛水平挑战。其余 310 个问题则取自精选的教科书示例和教学教程,构成了一个丰富多样且以教学法为基础的形式化数学问题集合。该基准旨在对高中竞赛问题和本科数学进行更全面的评估。 4. 模型和数据集下载 我们发布了两种模型大小的 DeepSeek-Prover-V2:7B 和 671B 参数。DeepSeek-Prover-V2-671B 在 DeepSeek-V3-Base 基础上进行训练。DeepSeek-Prover-V2-7B 则基于 DeepSeek-Prover-V1.5-Base 构建,并扩展了上下文长度,最高可达 32K 个 token。

xiaomi mimo
在本研究中,我们推出了 MiMo-7B 系列模型,这一系列模型从零开始训练,专为推理任务而生。我们基于 MiMo-7B-Base 进行的强化学习实验表明,我们的模型拥有非凡的推理潜力,甚至超越了规模更大的 32B 模型。此外,我们还对冷启动的 SFT 模型进行了强化学习训练,最终形成了 MiMo-7B-RL,它在数学和代码推理任务上均表现出色,性能堪比 OpenAI o1-mini。 我们开源了 MiMo-7B 系列,包括基础模型、SFT 模型、基于基础模型训练的强化学习模型以及基于 SFT 模型训练的强化学习模型的检查点。我们相信,这份报告以及这些模型将为开发强大的推理 LLM 提供宝贵的见解,造福更广泛的社区。 亮点 预训练:为推理而生的基础模型 我们优化了数据预处理流程,增强了文本提取工具包,并应用多维数据过滤来提高预训练数据中的推理模式密度。我们还采用多种策略来生成海量多样化的合成推理数据。 我们采用三阶段数据混合策略进行预训练。总体而言,MiMo-7B-Base 在约 25 万亿个 token 上进行了预训练。 我们将多标记预测作为额外的训练目标,以增强模型性能并加速推理。 训练后食谱:先驱推理模型 我们精选了 13 万道数学和代码题作为强化学习训练数据,可供基于规则的验证器进行验证。每道题都经过仔细的清理和难度评估,以确保质量。我们仅采用基于规则的准确率奖励机制,以避免潜在的奖励黑客攻击。 为了缓解高难度代码问题的稀疏奖励问题,我们引入了测试难度驱动的代码奖励机制。通过为不同难度级别的测试用例分配细粒度的分数,我们能够利用密集的奖励信号更有效地优化策略。 我们针对简单问题实施数据重采样策略,以提高推出采样效率并稳定策略更新,特别是在 RL 训练的后期阶段。 强化学习基础设施 我们开发了无缝部署引擎 (Seamless Rollout Engine),以加速强化学习 (RL) 的训练和验证。

QwQ
QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比,QwQ 具备思考和推理能力,在下游任务,尤其是难题中能够取得显著的性能提升。QwQ-32B 是中型推理模型,其性能足以匹敌 DeepSeek-R1、o1-mini 等最先进的推理模型。 QwQ基于Qwen2.5开发,其代码已集成到最新的Hugging界面中transformers,建议您使用最新版本的transformers。 QwQ-32B 经过一系列基准测试,旨在评估其数学推理、编码能力和通用问题解决能力。 QwQ-32B 已在 Hugging Face 和 ModelScope 开源,采用了 Apache 2.0 开源协议。大家可通过 Qwen Chat 直接进行体验!

MAI-DS-R1
MAI-DS-R1 是 DeepSeek-R1 推理模型,经过微软 AI 团队的后期训练,提高了其对受阻主题的响应能力和风险状况,同时保持了其推理能力和竞争性能。基于 DeepSeek-R1,这是一种基于 Transformer 的自回归语言模型,利用多头自注意力和混合专家 (MoE) 进行可扩展和高效的推理。 MAI-DS-R1 是一个 DeepSeek-R1 推理模型,经过微软 AI 团队的后期训练,旨在填补先前版本模型中的信息空白,并提升其风险状况,同时保持 R1 推理能力。该模型使用来自Tulu 3 SFT 数据集的 11 万个安全和不合规示例进行训练,此外还使用了内部开发的约 35 万个多语言示例数据集,该数据集涵盖了各种存在偏差的主题。 MAI-DS-R1 成功解锁了原始 R1 模型中大多数先前被阻止的查询,同时在相关安全基准测试中超越了近期发布的 R1-1776 模型(由 Perplexity 进行后训练)。这些结果的实现同时保留了原始 DeepSeek-R1 的通用推理能力。

BitNet b1.58 2B4T
BitNet 是微软研究院开发的第一个开源、原生 1 位大型语言模型 (LLM),参数规模达 20 亿。 该模型在 4 万亿个标记的语料库上进行训练,表明原生 1 位 LLM 可以实现与类似大小的领先开放权重、全精度模型相当的性能,同时在计算效率(内存、能量、延迟)方面具有显著优势。 github地址:https://github.com/microsoft/BitNet

xinghuo
星火大模型是科大讯飞推出的AI大模型,支持对话、写作、编程等功能,还能提供语音交互方式。它具备跨语言、跨领域的知识理解和推理能力。

SenseChat
商量SenseChat是商汤科技基于自研的大型人工智能模型体系“日日新”(SenseNova)所开发的AI聊天助手,商量SenseChat是AI聊天问答助手,擅长总结财经资讯、解读政策、分析财报,也可以辅助文案创作、生成图片、编写代码,或畅聊你感兴趣的话题。

baichuan
百川智能核心团队由来自搜狗、百度、华为、微软、字节、腾讯等知名科技公司的AI顶尖人才组成。百川智能成立不到100天,便发布了Baichuan-7B、Baichuan-13B两款开源可免费商用的中文大模型。2025年1月24日,百川智能发布全场景深度思考模型Baichuan-M1-preview,该模型同时具备语言、视觉和搜索三大领域推理能力,现已在百小应中正式上线。

Qwen
通义千问模型,占比第一的开源大语言模型

DeepGemini缝合怪
由Deepseek和Gemini结合体,利用Deepseek的推理能力,以及Gemini的生成能力

通义tongyi
通义,由通义千问更名而来,是阿里云推出的语言模型,于2023年9月13日正式向公众开放。属于(AI Generated Content,AIGC)领域,是一个MaaS(模型即服务)的底座。为多模态大模型(Multimodal Models)。通义意为“通情,达义”,具备全副AI能力

Kimi智能助手---月之暗面
月之暗面 (Moonshot AI) 创立于2023年3月,致力于寻求将能源转化为智能的最优解,通过产品与用户共创智能,2023年10月推出全球首个支持输入20万汉字的智能助手产品Kimi。

豆包Doubao
豆包是字节跳动公司基于云雀模型开发的AI工具,提供聊天机器人、写作助手以及英语学习助手等功能,它可以回答各种问题并进行对话,帮助人们获取信息,支持网页 Web 平台, Windows/macOS 电脑版客户端,iOS 以及安卓平台。

腾讯元宝
腾讯的AI产品,集成至微信

文心一言
AI content partner for copywriting and chatting.

智谱清言chatGLM
Large Chinese conversational language model