关键词 "基准" 的搜索结果, 共 12 条, 只显示前 480 条
多语言医学语料库 MMedC。该语料库涵盖六种主要语言、约 255 亿标记,并用于通用大语言模型的自回归训练和领域适配。同时,研究者开发了具有推理能力的多语言医学多选问答基准MMedBench,以评估多语言医学模型的性能。在此基础上,通过在 MMedC 上训练多个开源模型,研究者提出了多语言医学大模型MMed-Llama 3。该模型在MMedBench 和英语基准测试中表现出色,在推理能力和问答准确率方面均达到领先水平。
语料库数据集。为了实现多语言医学专用适配,我们构建了一个新的多语言医学语料库(MMedC),其中包含约 255 亿个标记,涵盖 6 种主要语言,可用于对现有的通用 LLM 进行自回归训练。 基准。为了监测医学领域多语言法学硕士 (LLM) 的发展,我们提出了一个新的、具有合理性的多语言医学多项选择题答疑基准,称为 MMedBench。 模型评估。我们在基准测试中评估了许多流行的 LLM,以及在 MMedC 上进一步进行自回归训练的模型。最终,我们最终的模型(称为 MMedLM 2)仅具有 70 亿个参数,与所有其他开源模型相比,其性能更为卓越,甚至可以与 MMedBench 上的 GPT-4 相媲美。
计算病理学基础模型的标准化基准。
出于基准测试或研究目的,Giga-SSL 嵌入提供了一种在 TCGA 上执行分类任务的极其快速的方法。
sand.ai是清华大学曹越教授团队创立的视频生成AI平台,目前刚刚开源了全球首个自回归扩散视频生成模型 Magi-1 ,生成长视频效果在行业领先。 马尔奖、清华特奖得主曹越的创业公司 Sand AI 推出了自己的视频生成大模型 ——MAGI-1,该模型权重和代码完全开源,支持无限生成,能将生成时长精确控制到每一秒,在基准测试中更是吊打 Sora,领先了 5 倍。
MAI-DS-R1 是 DeepSeek-R1 推理模型,经过微软 AI 团队的后期训练,提高了其对受阻主题的响应能力和风险状况,同时保持了其推理能力和竞争性能。基于 DeepSeek-R1,这是一种基于 Transformer 的自回归语言模型,利用多头自注意力和混合专家 (MoE) 进行可扩展和高效的推理。 MAI-DS-R1 是一个 DeepSeek-R1 推理模型,经过微软 AI 团队的后期训练,旨在填补先前版本模型中的信息空白,并提升其风险状况,同时保持 R1 推理能力。该模型使用来自Tulu 3 SFT 数据集的 11 万个安全和不合规示例进行训练,此外还使用了内部开发的约 35 万个多语言示例数据集,该数据集涵盖了各种存在偏差的主题。 MAI-DS-R1 成功解锁了原始 R1 模型中大多数先前被阻止的查询,同时在相关安全基准测试中超越了近期发布的 R1-1776 模型(由 Perplexity 进行后训练)。这些结果的实现同时保留了原始 DeepSeek-R1 的通用推理能力。
Wan2.1,这是一套全面开放的视频基础模型,旨在突破视频生成的界限。Wan2.1提供以下主要功能: 👍 SOTA 性能:Wan2.1在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。 👍支持消费级 GPU:T2V-1.3B 型号仅需 8.19 GB VRAM,兼容几乎所有消费级 GPU。它可在约 4 分钟内在 RTX 4090 上生成一段 5 秒的 480P 视频(无需量化等优化技术)。其性能甚至可与一些闭源型号相媲美。 👍多任务:Wan2.1在文本转视频、图像转视频、视频编辑、文本转图像和视频转音频方面表现出色,推动了视频生成领域的发展。 👍视觉文本生成:Wan2.1是第一个能够生成中文和英文文本的视频模型,具有强大的文本生成功能,可增强其实际应用。 👍强大的视频 VAE:Wan-VAE提供卓越的效率和性能,可对任意长度的 1080P 视频进行编码和解码,同时保留时间信息,使其成为视频和图像生成的理想基础。
QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比,QwQ 具备思考和推理能力,在下游任务,尤其是难题中能够取得显著的性能提升。QwQ-32B 是中型推理模型,其性能足以匹敌 DeepSeek-R1、o1-mini 等最先进的推理模型。 QwQ基于Qwen2.5开发,其代码已集成到最新的Hugging界面中transformers,建议您使用最新版本的transformers。 QwQ-32B 经过一系列基准测试,旨在评估其数学推理、编码能力和通用问题解决能力。 QwQ-32B 已在 Hugging Face 和 ModelScope 开源,采用了 Apache 2.0 开源协议。大家可通过 Qwen Chat 直接进行体验!
Kimi-Audio,这是一个开源音频基础模型,在音频理解、生成和对话方面表现出色。此存储库包含 Kimi-Audio 的官方实现、模型和评估工具包。 通用功能:处理语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)和端到端语音对话等多种任务。 最先进的性能:在众多音频基准测试中取得 SOTA 结果(参见评估和技术报告)。 大规模预训练:对超过 1300 万小时的不同音频数据(语音、音乐、声音)和文本数据进行预训练,实现强大的音频推理和语言理解。 新颖的架构:采用混合音频输入(连续声学+离散语义标记)和具有并行头的 LLM 核心,用于文本和音频标记生成。 高效推理:具有基于流匹配的分块流式去标记器,可生成低延迟音频。 开源:我们发布代码、模型检查点和综合评估工具包,以促进社区研究和开发。 架构概述 Kimi-Audio 由三个主要组件组成: 音频标记器:将输入音频转换为: 使用矢量量化的离散语义标记(12.5Hz)。 来自 Whisper 编码器的连续声学特征(下采样至 12.5Hz)。 音频 LLM:基于转换器的模型(由预训练的文本 LLM(如 Qwen 2.5 7B)初始化),具有处理多模态输入的共享层,然后是并行头,用于自回归生成文本标记和离散音频语义标记。 音频解析器:使用流匹配模型和声码器(BigVGAN)将预测的离散语义音频标记转换回高保真波形,支持分块流传输,并采用前瞻机制实现低延迟。
Paper2Code:机器学习中科学论文的自动代码生成 PaperCoder是一个多智能体 LLM 系统,可将论文转化为代码库。它遵循三阶段流程:规划、分析和代码生成,每个阶段均由专门的智能体处理。 我们的方法在 Paper2Code 和 PaperBench 上的表现均优于强大的基准测试,并能生成忠实、高质量的实现。
我们在 Lean 4 中引入了 DeepSeek-Prover-V2,这是一个专为形式化定理证明而设计的开源大型语言模型,其初始化数据通过 DeepSeek-V3 驱动的递归定理证明流程收集。冷启动训练过程首先促使 DeepSeek-V3 将复杂问题分解为一系列子目标。已解决子目标的证明被合成为一个思路链,并结合 DeepSeek-V3 的逐步推理,为强化学习创建初始冷启动。这一过程使我们能够将非形式化和形式化的数学推理整合到一个统一的模型中。 通过递归证明搜索合成冷启动推理数据 为了构建冷启动数据集,我们开发了一个简单而有效的递归定理证明流程,并利用 DeepSeek-V3 作为子目标分解和形式化的统一工具。我们促使 DeepSeek-V3 将定理分解为高级证明草图,同时在 Lean 4 中将这些证明步骤形式化,从而生成一系列子目标。 我们使用规模较小的 7B 模型来处理每个子目标的证明搜索,从而减轻相关的计算负担。一旦解决了一个挑战性问题的分解步骤,我们就会将完整的分步形式化证明与 DeepSeek-V3 中的相应思路配对,以创建冷启动推理数据。 利用合成冷启动数据进行强化学习 我们以端到端的方式整理出一组尚未被 7B 证明器模型解决的挑战性问题子集,但所有分解后的子目标都已成功解决。通过组合所有子目标的证明,我们为原始问题构建了一个完整的形式化证明。然后,我们将该证明附加到 DeepSeek-V3 的思路链中,该思路链概述了相应的引理分解,从而将非形式化推理与后续形式化过程紧密结合。 在合成冷启动数据上对证明器模型进行微调后,我们执行强化学习阶段,以进一步增强其连接非形式化推理和形式化证明构造的能力。遵循推理模型的标准训练目标,我们使用二元正确或错误反馈作为奖励监督的主要形式。 最终模型 DeepSeek-Prover-V2-671B 在神经定理证明方面达到了最佳性能,在 MiniF2F 测试中达到了 $88.9$% 的通过率,并在 PutnamBench 的 658 个问题中解决了 49 个。DeepSeek-Prover-V2 为 miniF2F 数据集生成的证明可以ZIP 压缩包形式下载。 3. ProverBench:AIME 和教科书问题的形式化 我们推出了 ProverBench,这是一个包含 325 个问题的基准数据集。其中 15 个问题取自近期 AIME 竞赛(AIME 24 和 25)中的数论和代数问题,形式化后呈现出真实的高中竞赛水平挑战。其余 310 个问题则取自精选的教科书示例和教学教程,构成了一个丰富多样且以教学法为基础的形式化数学问题集合。该基准旨在对高中竞赛问题和本科数学进行更全面的评估。 4. 模型和数据集下载 我们发布了两种模型大小的 DeepSeek-Prover-V2:7B 和 671B 参数。DeepSeek-Prover-V2-671B 在 DeepSeek-V3-Base 基础上进行训练。DeepSeek-Prover-V2-7B 则基于 DeepSeek-Prover-V1.5-Base 构建,并扩展了上下文长度,最高可达 32K 个 token。
phi-4是一个最先进的开放模型,它基于合成数据集、来自筛选过的公共领域网站的数据以及获取的学术书籍和问答数据集构建而成。该方法的目标是确保小型模型能够使用专注于高质量和高级推理的数据进行训练。该模型 phi-4经过了严格的增强和校准过程,结合了监督微调和直接偏好优化,以确保精确的指令遵循和强大的安全措施。 14B 参数,密集解码器专用 Transformer 模型 我们的模型旨在加速语言模型的研究,并将其作为生成式人工智能功能的基石。它适用于通用人工智能系统和应用(主要针对英语),这些系统和应用需要: 1. 内存/计算受限的环境。2 . 延迟受限的场景。3 . 推理和逻辑。 训练数据集 我们的训练数据是用于 Phi-3 的数据的扩展,包括来自以下各种来源的数据: 对公开的文档进行严格的质量筛选,选择高质量的教育数据和代码。 新创建的合成“类似教科书”的数据,用于教授数学、编码、常识推理、世界常识(科学、日常活动、心理理论等)。 获得学术书籍和问答数据集。 高质量的聊天格式监督数据涵盖各种主题,以反映人类在遵循指示、真实性、诚实和乐于助人等不同方面的偏好。 多语言数据约占我们整体数据的 8%。我们注重能够提升模型推理能力的数据质量,并筛选公开的文档,确保其包含的知识水平符合要求。 基准数据集 我们phi-4使用OpenAI 的 SimpleEval和我们自己的内部基准进行了评估,以了解该模型的功能,更具体地说: MMLU:用于多任务语言理解的流行聚合数据集。 数学:具有挑战性的竞赛数学问题。 GPQA:复杂的、研究生水平的科学问题。 DROP:复杂的理解和推理。 MGSM:多语言小学数学。 HumanEval:功能代码生成。 SimpleQA:事实回应。
只显示前20页数据,更多请搜索