MMaDA(Multimodal Large Diffusion Language Models)是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型,支持跨文本推理、多模态理解和文本到图像生成等多个领域实现卓越性能。模型用统一的扩散架构,具备模态不可知的设计,消除对特定模态组件的需求,引入混合长链推理(CoT)微调策略,统一跨模态的CoT格式,推出UniGRPO,针对扩散基础模型的统一策略梯度强化学习算法,基于多样化的奖励建模,统一推理和生成任务的后训练,确保性能一致提升。MMaDA在多项任务上展现出超越现有模型的性能,为多模态AI的发展提供新的方向。

MMaDA的主要功能

  • 文本生成:能生成高质量的文本内容,支持从简单的文本描述到复杂的推理任务。
  • 多模态理解:理解和处理文本与图像的结合,支持对图像内容的详细描述和基于图像的问答。
  • 文本到图像生成:根据文本描述生成相应的图像,支持从抽象概念到具体场景的生成。
  • 复杂推理任务:支持处理数学问题、逻辑推理等复杂任务,提供详细的推理过程和准确的答案。
  • 跨模态协同学习:基于统一的架构和训练策略,实现文本和图像模态之间的协同学习和优化。

MMaDA的技术原理

  • 统一的扩散架构:用统一的扩散架构,基于共享的概率公式和模态不可知的设计,消除对特定模态组件的需求。模型能无缝处理文本和图像数据。在预训练阶段,模型基于掩码标记预测任务联合训练文本和图像模态。模型学习从噪声数据中恢复原始数据。
  • 混合长链推理(Mixed Long Chain-of-Thought, CoT)微调策略:基于统一的CoT格式对齐不同任务的推理过程。CoT格式包括逐步推理轨迹和最终结果,模型能生成详细的推理过程。用多样化的推理数据进行微调,包括数学问题、逻辑推理和多模态推理任务。让模型在处理复杂任务时表现出色。
  • 统一的策略梯度强化学习算法(UniGRPO):UniGRPO基于多样化的奖励建模,统一推理和生成任务的后训练。奖励函数包括正确性、格式、CLIP分数等,确保模型在不同任务上都能表现出色。UniGRPO用多步去噪学习,让模型能从部分噪声数据中学习,更好地用扩散模型的多步生成能力。

MMaDA的项目地址

MMaDA 包括一系列反映不同训练阶段的检查点:

  1. MMaDA-8B-Base:经过预训练和指令调整。具备基本的文本生成、图像生成、图像字幕和思维能力。
  2. MMaDA-8B-MixCoT(即将推出):经过混合长链思维(CoT)微调。能够进行复杂的文本、多模态和图像生成推理。将于两周内发布。
  3. MMaDA-8B-Max(即将推出):基于UniGRPO强化学习。擅长复杂推理和出色的视觉生成。将于1个月后发布。

MMaDA 功能概述。

待办事项

  • 发布 MMaDA-8B-MixCoT 和 MMaDA-8B-Max
  • 发布基于OpenRLHF的UniGRPO训练代码。

⚙️ 快速入门

首先,搭建环境:

pip install -r requirements.txt
 

启动本地 Gradio 演示:

python app.py
 

或者通过我们的Huggingface Demo在线试用。

🚀 推理

对于批次级推理,我们在此提供推理脚本。

1.文本生成

对于文本生成,我们遵循LLaDA的配置和生成脚本。简单运行:

python generate.py
 

2. 多模态生成

对于多模式生成和文本到图像生成,首先登录您的 wandb 帐户:

wandb login
 

多模式生成的推理演示,您可以在 wandb 上查看结果:

python3 inference_mmu.py config=configs/mmada_demo.yaml mmu_image_root=./mmu_validation question='Please describe this image in detail.' 
 

3. 文本到图像生成

对于多模式生成和文本到图像生成,首先登录您的 wandb 帐户:

wandb login
 

文本到图像生成的推理演示,您可以在 wandb 上查看结果:

python3 inference_t2i.py config=configs/mmada_demo.yaml batch_size=1 validation_prompts_file=validation_prompts/text2image_prompts.txt guidance_scale=3.5 generation_timesteps=15
mode='t2i'
 
 

相关推荐

Gemini Diffusion

Gemini Diffusion

<p>Gemini Diffusion是谷歌推出的实验性文本扩散模型。与传统自回归模型逐词生成文本不同,基于逐步细化噪声生成输出,能快速迭代纠正错误,让Gemini Diffusion在文本生成任务中表现出色,具备快速响应、生成更连贯文本和迭代细化等能力。Gemini Diffusion性能在外部基准测试中与更大规模模型相当,速度更快。Gemini Diffusion作为实验性演示提供,用户加入等待名单获取访问权限。</p> <h2 style="font-size: 20px;">Gemini Diffusion的主要功能</h2> <ul> <li>快速响应:Gemini Diffusion能用显著高于传统模型的速度生成文本内容,极大地提高文本生成的效率。</li> <li>更连贯的文本:模型支持一次性生成整个文本块,让生成的文本在逻辑和连贯性上更接近人类的写作风格。</li> <li>迭代细化:在生成过程中,逐步纠正错误。</li> <li>强大的编辑能力:在文本编辑任务中表现出色,例如在数学和代码生成中,快速优化和修正错误。</li> <li>高效生成:在外部基准测试中,性能与更大规模的模型相当,生成速度更快,适合需要快速生成高质量文本的场景。</li> </ul> <h2 style="font-size: 20px;">Gemini Diffusion的技术原理</h2> <ul> <li>扩散模型的工作原理:扩散模型是生成模型,基于逐步去除噪声生成目标内容。与传统的自回归模型(如GPT)不同,后者是逐词生成文本,扩散模型能并行生成文本,显著提高生成速度。</li> <li>噪声细化过程:在生成过程中,模型基于多个步骤逐步减少噪声,每一步都对生成的文本进行细化和优化。逐步细化的过程让模型在生成过程中纠正错误,生成更高质量的文本。</li> <li>优化与训练:基于大量的文本数据进行训练,学习如何从噪声中生成高质量的文本。在训练过程中,模型不断优化参数,更好地理解和生成各种类型的文本内容。</li> </ul> <h2 style="font-size: 20px;">Gemini Diffusion的项目地址</h2> <ul> <li>项目官网:<a class="external" href="https://deepmind.google/models/gemini-diffusion/?utm_source=medsci" target="_blank" rel="noopener">https://deepmind.google/models/gemini-diffusion/</a></li> </ul>

NVILA

NVILA

<p>NVILA是NVIDIA推出的系列视觉语言模型,能平衡效率和准确性。模型用“先扩展后压缩”策略,有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化,减少资源消耗,在多项图像和视频基准测试中达到或超越当前领先模型的准确性,包括Qwen2VL、InternVL和Pixtral在内的多种顶尖开源模型,及GPT-4o和Gemini等专有模型。NVILA引入时间定位、机器人导航和医学成像等新功能,拓宽其在多个领域的应用潜力。</p> <p><img src="https://img.medsci.cn/aisite/img//WYi46KaJqJeee2iQHNZVUhQnRPi5OqY21fF1nk5k.png"></p> <h2 style="font-size: 20px;">NVILA的主要功能</h2> <ul> <li>高分辨率图像和长视频处理:NVILA能高效处理高分辨率图像和长视频,保持高准确性。</li> <li>效率优化:在整个生命周期中,从训练到部署,NVILA进行了系统化的效率优化。</li> <li>时间定位:支持视频中的时间定位功能。</li> <li>机器人导航:作为机器人导航的基础,实现实时部署。</li> <li>医疗多模态应用:在医疗领域整合多个专家模型,提高诊断和决策的准确性。</li> </ul> <h2 style="font-size: 20px;">NVILA的技术原理</h2> <ul> <li>“扩展-压缩”方法:先提升空间和时间分辨率,再压缩视觉令牌平衡准确性和效率。</li> <li>动态S2:适应不同长宽比的图像,提取多尺度高分辨率特征。</li> <li>FP8混合精度训练:加速模型训练,且保持准确性。</li> <li>数据集修剪:用DeltaLoss方法筛选训练数据,去除过于简单或困难的样本。</li> <li>量化技术:用W8A8和W4A16量化技术,提高模型部署的效率。</li> <li>参数高效微调:针对不同下游任务,选择性地微调模型的不同部分,减少内存需求。</li> </ul> <h2 style="font-size: 20px;">NVILA的项目地址</h2> <ul> <li>GitHub仓库:<a class="external" href="https://github.com/NVlabs/VILA" target="_blank" rel="noopener nofollow">https://github.com/NVlabs/VILA</a>(即将开源)</li> <li>HuggingFace模型库:<a class="external" href="https://huggingface.co/collections/Efficient-Large-Model/nvila-674f8163543890b35a91b428" target="_blank" rel="noopener nofollow">https://huggingface.co/collections/Efficient-Large-Model/nvila</a>(即将开源)</li> <li>arXiv技术论文:<a class="external" href="https://arxiv.org/pdf/2412.04468" target="_blank" rel="noopener nofollow">https://arxiv.org/pdf/2412.04468</a></li> </ul>

BAGEL

BAGEL

<p>BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语义级特征。BAGEL遵循“下一个标记组预测”范式进行训练,使用海量多模态标记数据进行预训练,包括语言、图像、视频和网络数据。在性能方面,BAGEL在多模态理解基准测试中超越了Qwen2.5-VL和InternVL-2.5等顶级开源视觉语言模型。文本到图像生成质量与SD3相当,在图像编辑场景中也优于许多开源模型。BAGEL能进行自由形式的图像编辑、未来帧预测、三维操作和世界导航等任务。</p> <p><img src="https://img.medsci.cn/aisite/img//FIs3cV9aGm5V4DFjJR9Bc1bLGxg3CQ5wHx1m8I9R.png"></p> <h2 style="font-size: 20px;">BAGEL的主要功能</h2> <ul> <li>图像与文本融合理解:BAGEL能深入理解图像和文本之间的关系,准确地将图像内容与文本描述相结合。</li> <li>视频内容理解:BAGEL能处理视频数据,理解视频中的动态信息和语义内容。能捕捉视频的关键信息并进行有效的分析。</li> <li>文本到图像生成:用户可以通过输入文本描述来生成相应的图像。BAGEL能根据文本内容生成高质量、与描述匹配的图像。</li> <li>图像编辑与修改:BAGEL支持对现有图像进行编辑和修改。BAGEL能根据指令生成修改后的图像,实现自由形式的图像编辑。</li> <li>视频帧预测:BAGEL能预测视频中的未来帧。基于视频的前几帧,模型可以生成后续的帧内容,恢复视频的完整性。</li> <li>三维场景理解与操作:BAGEL能理解和操作三维场景。可以对三维物体进行识别、定位和操作,例如在虚拟环境中移动物体、改变物体的属性等。</li> <li>世界导航:BAGEL具备世界导航能力,可以在虚拟或现实的三维环境中进行路径规划和导航。</li> <li>跨模态检索:BAGEL能实现跨模态检索功能,例如根据文本描述检索与之匹配的图像或视频,或者根据图像内容检索相关的文本信息。</li> <li>多模态融合任务:在多模态融合任务中,BAGEL可以将来自不同模态的数据(如图像、文本、语音等)进行有效融合,生成综合的结果。</li> </ul> <h2 style="font-size: 20px;">BAGEL的技术原理</h2> <ul> <li>双编码器设计:BAGEL采用了混合变换器专家架构(MoT),架构包含两个独立的编码器。一个编码器负责处理图像的像素级特征,另一个编码器则专注于图像的语义级特征。双编码器设计使模型能同时捕捉图像的低层次细节和高层次语义信息。</li> <li>专家混合机制:在MoT架构中,每个编码器内部包含多个专家(Expert)模块。这些专家模块可以看作是小的子网络,每个专家专注于处理特定类型的特征或任务。通过在训练过程中动态选择最合适的专家组合,模型能更高效地处理复杂的多模态数据。</li> <li>标记化处理:BAGEL将输入的多模态数据(如图像、文本)转化为一系列标记(Token)。对于图像,模型会将其分割成多个小块(Patch),每个小块被视为一个标记;对于文本,每个单词或子词也被视为一个标记。</li> <li>预测任务:模型的训练目标是预测下一个标记组。在训练过程中,模型会看到一部分标记序列,尝试预测接下来的标记。</li> <li>压缩与学习:通过这种预测任务,模型能学习到多模态数据的内在结构和关系。预测下一个标记的过程迫使模型压缩和理解输入数据的关键信息,提高其对多模态数据的理解和生成能力。</li> <li>海量数据:为了训练BAGEL,字节跳动使用了来自语言、图像、视频和网络数据的数万亿个多模态标记进行预训练。数据涵盖了各种场景和领域,模型能学习到广泛的多模态特征和模式。</li> <li>优化策略:在训练过程中,BAGEL采用了先进的优化策略,如混合精度训练、分布式训练等,提高训练效率和模型性能。</li> </ul> <h2 style="font-size: 20px;">BAGEL的项目地址</h2> <ul> <li>项目官网:<a class="external" href="https://bagel-ai.org/?utm_source=medsci" target="_blank" rel="noopener">https://bagel-ai.org/</a></li> <li>Github仓库:<a class="external" href="https://github.com/bytedance-seed/BAGEL" target="_blank" rel="noopener nofollow">https://github.com/bytedance-seed/BAGEL</a></li> <li>HuggingFace模型库:<a class="external" href="https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT" target="_blank" rel="noopener nofollow">https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT</a></li> <li>arXiv技术论文:<a class="external" href="https://arxiv.org/pdf/2505.14683" target="_blank" rel="noopener nofollow">https://arxiv.org/pdf/2505.14683</a></li> </ul>

FastVLM

FastVLM

<p>苹果 FastVLM 的模型让你的 iPhone 瞬间拥有了“火眼金睛”,不仅能看懂图片里的各种复杂信息,还能像个段子手一样跟你“贫嘴”!而且最厉害的是,它速度快到飞起,苹果官方宣称,<span class="spamTxt">首次</span>给你“贫嘴”的速度比之前的一些模型快了足足85倍!这简直是要逆天啊!</p> <h2>视觉语言模型的 “成长烦恼”</h2> <p>现在的视觉语言模型,就像个不断进化的小天才,能同时理解图像和文本信息。它的应用可广了,从帮咱们理解图片里的内容,到辅助创作图文并茂的作品,都不在话下。一般来说,VLMs 是把预训练的视觉骨干网络提取的视觉 token,通过投影层传给预训练的大语言模型(LLM)。之前好多研究都在探索怎么训练和微调这几个组件,让模型变得更强。</p> <p><img src="https://img.medsci.cn/aisite/img//U3ew2Zxe7xpStapByEFHD6dscHiRetGuexJZM0XD.png" alt=""></p> <p>研究发现,提高图像分辨率能显著提升 VLMs 在一些任务上的表现,尤其是处理那些文字和图表丰富的图像时。你想啊,图片越清晰,模型能 “看” 到的细节就越多,理解起来不就更准确嘛!但这也带来了不少麻烦。一方面,很多预训练的视觉编码器不太支持高分辨率图像,强行用的话,预训练效率会变得<span class="spamTxt">超级</span>低。为了解决这个问题,有人尝试持续预训练视觉骨干网络,让它适应高分辨率;还有人把图像切成小块,像拼图一样分别处理,不过这也挺麻烦的。</p> <p>另一方面,高分辨率推理的计算成本太高了!不管是直接进行高分辨率推理,还是把图像切块后进行低分辨率推理,都会产生很大的延迟。而且高分辨率图像生成的 token 更多,这又增加了 LLM 处理这些 token 的时间,导致整个模型输出首个 token 的时间(TTFT)变长。这就好比你让一个人一下子处理太多任务,他肯定会手忙脚乱,速度变慢。</p> <h2>FastVLM 来 “救场”</h2> <p>面对这些难题,苹果的研究团队搞出了 FastVLM,它就像是给 VLMs 注入了一剂 “加速药水”,能在保证性能的同时,大幅提升运行效率。</p> <h3>架构设计:另辟蹊径的 “智慧结晶”</h3> <p>FastVLM 的核心是 FastViTHD 这个新型混合视觉编码器。在探索 VLM 架构时,团队发现混合视觉编码器(卷积层加上 Transformer 块)是个不错的选择。卷积层可以轻松处理不同分辨率的图像,Transformer 块则能进一步优化视觉 token,让 LLM 更好地理解。</p> <p><img src="https://img.medsci.cn/aisite/img//5ph8Q2brWEUDkUKhT6IiBW2fZfTAod56cqTxuqzV.jpg" alt="" width="1296" height="511"></p> <p>他们用的 FastViT 就是基于这种架构,经过 MobileCLIP 预训练,效果还不错。比如,在相同的 VLM 基准测试中,FastViT 生成视觉 token 的速度比 ViT 模型快4倍多,准确率也更高。</p> <p><img src="https://img.medsci.cn/aisite/img//cXCHlcPxkiCJi7WaNZa0e0G02oPpOw2y8ccUPcHa.png" alt=""></p> <p>不过,团队并没有满足于此。为了让模型在高分辨率下表现更出色,他们又设计了 FastViTHD。这个新架构在 FastViT 的基础上做了不少改进。它增加了一个额外的阶段和下采样层,让 self - attention 层处理的张量更小,这样就能减少图像编码延迟,还能为计算密集型的 LLM 解码器生成更少的 token,从而降低 TTFT。打个比方,这就像是给模型的 “信息高速公路” 拓宽了车道,还优化了交通规则,让信息传递得又快又稳。</p> <h3>训练与优化:精心打磨的 “成长之路”</h3> <p>训练 FastVLM 就像培养一个优秀的运动员,需要精心规划。研究人员采用了两阶段训练法,和 LLaVA -1.5的设置类似。<span class="spamTxt">第一</span>阶段,只训练投影仪,用的是 LLaVA -558K 对齐数据集,训练时图像分辨率和骨干网络预训练分辨率一致。第二阶段,用 LLaVA -665K 监督微调数据集,把模型的所有模块都拿来训练,这时图像分辨率就设置成目标分辨率。</p> <p><img src="https://img.medsci.cn/aisite/img//6JnSmyX3jg8v775gb17Zrlko96eqdyJvjyQc9WFk.png" alt="" width="474" height="504"></p> <p>为了让模型更好地适应不同的任务和数据集,研究人员还做了很多优化。比如,他们尝试了多尺度特征提取,把网络不同阶段的信息整合起来,让模型能更好地理解图像。就像我们看一幅画,不仅要看整体,还要关注细节,多尺度特征提取就起到了这个作用。此外,他们还对比了不同的池化策略和连接器设计,发现用深度卷积进行池化能让模型性能更优。</p> <h3>实验结果:实力碾压的 “高光时刻”</h3> <p>在实验环节,FastVLM 简直就是 “学霸”,成绩相当亮眼!研究人员在主流基准测试中对 FastVLM 进行了全面评估,包括 GQA、ScienceQA、TextVQA 等多个任务。结果显示,在和其他模型的对比中,FastVLM 优势明显。</p> <p><img src="https://img.medsci.cn/aisite/img//pBqFFoYwxq7HE7g0VA9e1pOzJd9T89Zmgthk7lH5.png" alt="" width="598" height="257"></p> <p>和基于卷积的 ConvLLaVA 相比,同样的 LLM 和相似的训练数据规模下,FastVLM 在 TextVQA 任务上性能提升了8.4%,在 DocVQA 任务上提升了12.5%,而且速度还快了22%。在高分辨率下,这种优势更加明显,FastVLM 的速度比 ConvLLaVA 快了2倍,在多个基准测试中都取得了更好的成绩。</p> <p><img src="https://img.medsci.cn/aisite/img//V2o4nzMRSJ4GMgv59TbXxK9SbngIQ6acZK4fCPVk.png" alt="" width="462" height="474"></p> <p>和其他用多个视觉编码器的模型比,FastVLM 也毫不逊色。像 Cambrian -1用了多个视觉编码器,视觉编码在总 TTFT 中占比很大,而 FastVLM 用单个编码器,不仅速度比它快7.9倍,在相似的视觉指令调优数据集训练下,性能还超过了 Cambrian -1。就算是在对视觉 token 数量很敏感的文本丰富型评估任务中,FastVLM 也能凭借更少的视觉 token 取得更好的成绩。</p> <h2>FastVLM 的优势与意义</h2> <p>FastVLM 的出现,给视觉语言模型领域带来了新的希望。它<span class="spamTxt">最大</span>的优势就是在保证模型性能的同时,大幅提升了运行效率。以前的模型在处理高分辨率图像时,要么速度慢,要么准确率低,FastVLM 很好地解决了这些问题。</p> <p>对于我们普通用户来说,这意味着以后在手机上使用相关应用时,体验会大大提升。比如用图像搜索功能,以前可能要等半天才能出结果,现在用搭载 FastVLM 的应用,瞬间就能得到答案。对于开发者来说,FastVLM 提供了一个高效的模型框架,能让他们开发出更强大、更智能的应用。</p> <p>从更宏观的角度看,FastVLM 的成功也为未来的研究指明了方向。它证明了通过优化架构和训练方法,可以在资源有限的设备上实现高性能的视觉语言模型。相信在不久的将来,会有更多基于 FastVLM 的创新应用出现,让我们的生活变得更加智能和便捷。</p> <p>论文地址:https://www.arxiv.org/pdf/2412.13303 </p> <p>项目地址:https://github.com/apple/ml-fastvlm </p>

RWKV7-G1

RWKV7-G1

<p>RWKV开源发布了 RWKV7-G1 1.5B 推理模型(Reasoning Model)。模型基于 World v3.5 数据集训练,包含更多小说、网页、数学、代码和 reasoning 数据,总数据为 5.16T tokens。其具备其它同尺寸模型不具备的推理能力和任务能力,同时还支持现实世界 100+ 种语言。 在实际测试中,RWKV7-G1 1.5B 模型的推理逻辑性较强,能够完成有难度的多语言、数学和代码任务。该模型已上线始智AI-wisemodel开源社区</p> <header class="page-header"><img class="avatar" itemprop="image" src="https://www.rwkv.com/images/avatar.png" alt="RWKV"> <div class="title-bar"> <h2 class="header-title" itemprop="jobTitle">RWKV Language Model</h2> </div> <div class="executive-summary" itemprop="description"> <p>RWKV (pronounced RwaKuv) is an RNN with great LLM performance and parallelizable like a Transformer. We are at <a href="https://huggingface.co/BlinkDL/rwkv7-g1" target="_blank" rel="noopener">RWKV7-G1</a> "GooseOne" reasoning model.</p> <p>It's combining the best of RNN and transformer - great performance, linear time, constant space (no kv-cache), fast training, infinite ctxlen, and free text embedding. And it's 100% attention-free, and a <a href="https://lfaidata.foundation/projects/rwkv/" target="_blank" rel="noopener">Linux Foundation AI project</a>.</p> </div> <div><a class="contact-button" href="https://huggingface.co/spaces/BlinkDL/RWKV-Gradio-2" target="_blank" rel="noopener">G1 1.5B Demo</a><a class="contact-button" href="https://huggingface.co/spaces/RWKV-Red-Team/RWKV-LatestSpace" target="_blank" rel="noopener">G1 Chat 💬</a><a class="contact-button" href="https://huggingface.co/spaces/BlinkDL/RWKV-Gradio-1" target="_blank" rel="noopener">v7 3B Demo</a></div> <a href="https://arxiv.org/abs/2503.14456" target="_blank" rel="noopener"><img itemprop="image" src="https://www.rwkv.com/images/RWKV-paper.png" alt="RWKV-7 paper"></a> <div> </div> </header> <section class="content-section"><header class="section-header"> <h2>RWKV-Projects</h2> </header><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://github.com/BlinkDL/RWKV-LM" target="_blank" rel="noopener"> <p class="project-item-title">RWKV-LM</p> <p class="project-item-description">Training RWKV (and latest developments)</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://github.com/josStorer/RWKV-Runner" target="_blank" rel="noopener"> <p class="project-item-title">RWKV-Runner</p> <p class="project-item-description">RWKV GUI with one-click install and API</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://pypi.org/project/rwkv/" target="_blank" rel="noopener"> <p class="project-item-title">RWKV pip package</p> <p class="project-item-description">Official RWKV pip package</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://github.com/JL-er/RWKV-PEFT" target="_blank" rel="noopener"> <p class="project-item-title">RWKV-PEFT</p> <p class="project-item-description">Finetuning RWKV (9GB VRAM can finetune 7B)</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://github.com/cgisky1980/ai00_rwkv_server" target="_blank" rel="noopener"> <p class="project-item-title">RWKV-server</p> <p class="project-item-description">Fast WebGPU inference (NVIDIA/AMD/Intel), nf4/int8/fp16</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://github.com/search?o=desc&q=rwkv&s=updated&type=Repositories" target="_blank" rel="noopener"> <p class="project-item-title">More... (400+ RWKV projects)</p> <p class="project-item-description"> </p> </a></section> <section class="content-section"><header class="section-header"> <h2>Misc</h2> </header><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://huggingface.co/BlinkDL" target="_blank" rel="noopener"> <p class="project-item-title">RWKV raw weights</p> <p class="project-item-description">All latest RWKV weights</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://huggingface.co/BlinkDL" target="_blank" rel="noopener"><img src="https://www.rwkv.com/images/v7-world-eval.png"></a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://huggingface.co/RWKV" target="_blank" rel="noopener"> <p class="project-item-title">RWKV weights</p> <p class="project-item-description">HuggingFace-compatible RWKV weights</p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://scholar.google.com/scholar?scisbd=2&q=rwkv&as_sdt=0,5" target="_blank" rel="noopener"> <p class="project-item-title">RWKV-related papers</p> <p class="project-item-description"> </p> </a><a class="project-item" itemscope="" itemtype="http://schema.org/CreativeWork" href="https://wiki.rwkv.com/" target="_blank" rel="noopener"> <p class="project-item-title">RWKV wiki</p> <p class="project-item-description">Community wiki</p> </a></section>

microsoft phi

microsoft phi

phi-4是一个最先进的开放模型,它基于合成数据集、来自筛选过的公共领域网站的数据以及获取的学术书籍和问答数据集构建而成。该方法的目标是确保小型模型能够使用专注于高质量和高级推理的数据进行训练。该模型 phi-4经过了严格的增强和校准过程,结合了监督微调和直接偏好优化,以确保精确的指令遵循和强大的安全措施。 14B 参数,密集解码器专用 Transformer 模型 我们的模型旨在加速语言模型的研究,并将其作为生成式人工智能功能的基石。它适用于通用人工智能系统和应用(主要针对英语),这些系统和应用需要: 1. 内存/计算受限的环境。2 . 延迟受限的场景。3 . 推理和逻辑。 训练数据集 我们的训练数据是用于 Phi-3 的数据的扩展,包括来自以下各种来源的数据: 对公开的文档进行严格的质量筛选,选择高质量的教育数据和代码。 新创建的合成“类似教科书”的数据,用于教授数学、编码、常识推理、世界常识(科学、日常活动、心理理论等)。 获得学术书籍和问答数据集。 高质量的聊天格式监督数据涵盖各种主题,以反映人类在遵循指示、真实性、诚实和乐于助人等不同方面的偏好。 多语言数据约占我们整体数据的 8%。我们注重能够提升模型推理能力的数据质量,并筛选公开的文档,确保其包含的知识水平符合要求。 基准数据集 我们phi-4使用OpenAI 的 SimpleEval和我们自己的内部基准进行了评估,以了解该模型的功能,更具体地说: MMLU:用于多任务语言理解的流行聚合数据集。 数学:具有挑战性的竞赛数学问题。 GPQA:复杂的、研究生水平的科学问题。 DROP:复杂的理解和推理。 MGSM:多语言小学数学。 HumanEval:功能代码生成。 SimpleQA:事实回应。

DeepSeek-Prover

DeepSeek-Prover

我们在 Lean 4 中引入了 DeepSeek-Prover-V2,这是一个专为形式化定理证明而设计的开源大型语言模型,其初始化数据通过 DeepSeek-V3 驱动的递归定理证明流程收集。冷启动训练过程首先促使 DeepSeek-V3 将复杂问题分解为一系列子目标。已解决子目标的证明被合成为一个思路链,并结合 DeepSeek-V3 的逐步推理,为强化学习创建初始冷启动。这一过程使我们能够将非形式化和形式化的数学推理整合到一个统一的模型中。 通过递归证明搜索合成冷启动推理数据 为了构建冷启动数据集,我们开发了一个简单而有效的递归定理证明流程,并利用 DeepSeek-V3 作为子目标分解和形式化的统一工具。我们促使 DeepSeek-V3 将定理分解为高级证明草图,同时在 Lean 4 中将这些证明步骤形式化,从而生成一系列子目标。 我们使用规模较小的 7B 模型来处理每个子目标的证明搜索,从而减轻相关的计算负担。一旦解决了一个挑战性问题的分解步骤,我们就会将完整的分步形式化证明与 DeepSeek-V3 中的相应思路配对,以创建冷启动推理数据。 利用合成冷启动数据进行强化学习 我们以端到端的方式整理出一组尚未被 7B 证明器模型解决的挑战性问题子集,但所有分解后的子目标都已成功解决。通过组合所有子目标的证明,我们为原始问题构建了一个完整的形式化证明。然后,我们将该证明附加到 DeepSeek-V3 的思路链中,该思路链概述了相应的引理分解,从而将非形式化推理与后续形式化过程紧密结合。 在合成冷启动数据上对证明器模型进行微调后,我们执行强化学习阶段,以进一步增强其连接非形式化推理和形式化证明构造的能力。遵循推理模型的标准训练目标,我们使用二元正确或错误反馈作为奖励监督的主要形式。 最终模型 DeepSeek-Prover-V2-671B 在神经定理证明方面达到了最佳性能,在 MiniF2F 测试中达到了 $88.9$% 的通过率,并在 PutnamBench 的 658 个问题中解决了 49 个。DeepSeek-Prover-V2 为 miniF2F 数据集生成的证明可以ZIP 压缩包形式下载。 3. ProverBench:AIME 和教科书问题的形式化 我们推出了 ProverBench,这是一个包含 325 个问题的基准数据集。其中 15 个问题取自近期 AIME 竞赛(AIME 24 和 25)中的数论和代数问题,形式化后呈现出真实的高中竞赛水平挑战。其余 310 个问题则取自精选的教科书示例和教学教程,构成了一个丰富多样且以教学法为基础的形式化数学问题集合。该基准旨在对高中竞赛问题和本科数学进行更全面的评估。 4. 模型和数据集下载 我们发布了两种模型大小的 DeepSeek-Prover-V2:7B 和 671B 参数。DeepSeek-Prover-V2-671B 在 DeepSeek-V3-Base 基础上进行训练。DeepSeek-Prover-V2-7B 则基于 DeepSeek-Prover-V1.5-Base 构建,并扩展了上下文长度,最高可达 32K 个 token。

xiaomi mimo

xiaomi mimo

在本研究中,我们推出了 MiMo-7B 系列模型,这一系列模型从零开始训练,专为推理任务而生。我们基于 MiMo-7B-Base 进行的强化学习实验表明,我们的模型拥有非凡的推理潜力,甚至超越了规模更大的 32B 模型。此外,我们还对冷启动的 SFT 模型进行了强化学习训练,最终形成了 MiMo-7B-RL,它在数学和代码推理任务上均表现出色,性能堪比 OpenAI o1-mini。 我们开源了 MiMo-7B 系列,包括基础模型、SFT 模型、基于基础模型训练的强化学习模型以及基于 SFT 模型训练的强化学习模型的检查点。我们相信,这份报告以及这些模型将为开发强大的推理 LLM 提供宝贵的见解,造福更广泛的社区。 亮点 预训练:为推理而生的基础模型 我们优化了数据预处理流程,增强了文本提取工具包,并应用多维数据过滤来提高预训练数据中的推理模式密度。我们还采用多种策略来生成海量多样化的合成推理数据。 我们采用三阶段数据混合策略进行预训练。总体而言,MiMo-7B-Base 在约 25 万亿个 token 上进行了预训练。 我们将多标记预测作为额外的训练目标,以增强模型性能并加速推理。 训练后食谱:先驱推理模型 我们精选了 13 万道数学和代码题作为强化学习训练数据,可供基于规则的验证器进行验证。每道题都经过仔细的清理和难度评估,以确保质量。我们仅采用基于规则的准确率奖励机制,以避免潜在的奖励黑客攻击。 为了缓解高难度代码问题的稀疏奖励问题,我们引入了测试难度驱动的代码奖励机制。通过为不同难度级别的测试用例分配细粒度的分数,我们能够利用密集的奖励信号更有效地优化策略。 我们针对简单问题实施数据重采样策略,以提高推出采样效率并稳定策略更新,特别是在 RL 训练的后期阶段。 强化学习基础设施 我们开发了无缝部署引擎 (Seamless Rollout Engine),以加速强化学习 (RL) 的训练和验证。

QwQ

QwQ

QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比,QwQ 具备思考和推理能力,在下游任务,尤其是难题中能够取得显著的性能提升。QwQ-32B 是中型推理模型,其性能足以匹敌 DeepSeek-R1、o1-mini 等最先进的推理模型。 QwQ基于Qwen2.5开发,其代码已集成到最新的Hugging界面中transformers,建议您使用最新版本的transformers。 QwQ-32B 经过一系列基准测试,旨在评估其数学推理、编码能力和通用问题解决能力。 QwQ-32B 已在 Hugging Face 和 ModelScope 开源,采用了 Apache 2.0 开源协议。大家可通过 Qwen Chat 直接进行体验!

MAI-DS-R1

MAI-DS-R1

MAI-DS-R1 是 DeepSeek-R1 推理模型,经过微软 AI 团队的后期训练,提高了其对受阻主题的响应能力和风险状况,同时保持了其推理能力和竞争性能。基于 DeepSeek-R1,这是一种基于 Transformer 的自回归语言模型,利用多头自注意力和混合专家 (MoE) 进行可扩展和高效的推理。 MAI-DS-R1 是一个 DeepSeek-R1 推理模型,经过微软 AI 团队的后期训练,旨在填补先前版本模型中的信息空白,并提升其风险状况,同时保持 R1 推理能力。该模型使用来自Tulu 3 SFT 数据集的 11 万个安全和不合规示例进行训练,此外还使用了内部开发的约 35 万个多语言示例数据集,该数据集涵盖了各种存在偏差的主题。 MAI-DS-R1 成功解锁了原始 R1 模型中大多数先前被阻止的查询,同时在相关安全基准测试中超越了近期发布的 R1-1776 模型(由 Perplexity 进行后训练)。这些结果的实现同时保留了原始 DeepSeek-R1 的通用推理能力。

BitNet b1.58 2B4T

BitNet b1.58 2B4T

BitNet 是微软研究院开发的第一个开源、原生 1 位大型语言模型 (LLM),参数规模达 20 亿。 该模型在 4 万亿个标记的语料库上进行训练,表明原生 1 位 LLM 可以实现与类似大小的领先开放权重、全精度模型相当的性能,同时在计算效率(内存、能量、延迟)方面具有显著优势。 github地址:https://github.com/microsoft/BitNet

xinghuo

xinghuo

星火大模型是科大讯飞推出的AI大模型,支持对话、写作、编程等功能,还能提供语音交互方式。它具备跨语言、跨领域的知识理解和推理能力。

SenseChat

SenseChat

商量SenseChat是商汤科技基于自研的大型人工智能模型体系“日日新”(SenseNova)所开发的AI聊天助手,商量SenseChat是AI聊天问答助手,擅长总结财经资讯、解读政策、分析财报,也可以辅助文案创作、生成图片、编写代码,或畅聊你感兴趣的话题。

baichuan

baichuan

百川智能核心团队由来自搜狗、百度、华为、微软、字节、腾讯等知名科技公司的AI顶尖人才组成。百川智能成立不到100天,便发布了Baichuan-7B、Baichuan-13B两款开源可免费商用的中文大模型。2025年1月24日,百川智能发布全场景深度思考模型Baichuan-M1-preview,该模型同时具备语言、视觉和搜索三大领域推理能力,现已在百小应中正式上线。

Qwen

Qwen

通义千问模型,占比第一的开源大语言模型

DeepGemini缝合怪

DeepGemini缝合怪

由Deepseek和Gemini结合体,利用Deepseek的推理能力,以及Gemini的生成能力

通义tongyi

通义tongyi

通义,由通义千问更名而来,是阿里云推出的语言模型,于2023年9月13日正式向公众开放。属于(AI Generated Content,AIGC)领域,是一个MaaS(模型即服务)的底座。为多模态大模型(Multimodal Models)。通义意为“通情,达义”,具备全副AI能力

Kimi智能助手---月之暗面

Kimi智能助手---月之暗面

月之暗面 (Moonshot AI) 创立于2023年3月,致力于寻求将能源转化为智能的最优解,通过产品与用户共创智能,2023年10月推出全球首个支持输入20万汉字的智能助手产品Kimi。