搜索结果

关键词 "基准" 的搜索结果, 共 12 条, 只显示前 480

Kimi-Audio

Kimi-Audio

Kimi-Audio,这是一个开源音频基础模型,在音频理解、生成和对话方面表现出色。此存储库包含 Kimi-Audio 的官方实现、模型和评估工具包。 通用功能:处理语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)和端到端语音对话等多种任务。 最先进的性能:在众多音频基准测试中取得 SOTA 结果(参见评估和技术报告)。 大规模预训练:对超过 1300 万小时的不同音频数据(语音、音乐、声音)和文本数据进行预训练,实现强大的音频推理和语言理解。 新颖的架构:采用混合音频输入(连续声学+离散语义标记)和具有并行头的 LLM 核心,用于文本和音频标记生成。 高效推理:具有基于流匹配的分块流式去标记器,可生成低延迟音频。 开源:我们发布代码、模型检查点和综合评估工具包,以促进社区研究和开发。 架构概述 Kimi-Audio 由三个主要组件组成: 音频标记器:将输入音频转换为: 使用矢量量化的离散语义标记(12.5Hz)。 来自 Whisper 编码器的连续声学特征(下采样至 12.5Hz)。 音频 LLM:基于转换器的模型(由预训练的文本 LLM(如 Qwen 2.5 7B)初始化),具有处理多模态输入的共享层,然后是并行头,用于自回归生成文本标记和离散音频语义标记。 音频解析器:使用流匹配模型和声码器(BigVGAN)将预测的离散语义音频标记转换回高保真波形,支持分块流传输,并采用前瞻机制实现低延迟。

DeepSeek-Prover

DeepSeek-Prover

我们在 Lean 4 中引入了 DeepSeek-Prover-V2,这是一个专为形式化定理证明而设计的开源大型语言模型,其初始化数据通过 DeepSeek-V3 驱动的递归定理证明流程收集。冷启动训练过程首先促使 DeepSeek-V3 将复杂问题分解为一系列子目标。已解决子目标的证明被合成为一个思路链,并结合 DeepSeek-V3 的逐步推理,为强化学习创建初始冷启动。这一过程使我们能够将非形式化和形式化的数学推理整合到一个统一的模型中。 通过递归证明搜索合成冷启动推理数据 为了构建冷启动数据集,我们开发了一个简单而有效的递归定理证明流程,并利用 DeepSeek-V3 作为子目标分解和形式化的统一工具。我们促使 DeepSeek-V3 将定理分解为高级证明草图,同时在 Lean 4 中将这些证明步骤形式化,从而生成一系列子目标。 我们使用规模较小的 7B 模型来处理每个子目标的证明搜索,从而减轻相关的计算负担。一旦解决了一个挑战性问题的分解步骤,我们就会将完整的分步形式化证明与 DeepSeek-V3 中的相应思路配对,以创建冷启动推理数据。 利用合成冷启动数据进行强化学习 我们以端到端的方式整理出一组尚未被 7B 证明器模型解决的挑战性问题子集,但所有分解后的子目标都已成功解决。通过组合所有子目标的证明,我们为原始问题构建了一个完整的形式化证明。然后,我们将该证明附加到 DeepSeek-V3 的思路链中,该思路链概述了相应的引理分解,从而将非形式化推理与后续形式化过程紧密结合。 在合成冷启动数据上对证明器模型进行微调后,我们执行强化学习阶段,以进一步增强其连接非形式化推理和形式化证明构造的能力。遵循推理模型的标准训练目标,我们使用二元正确或错误反馈作为奖励监督的主要形式。 最终模型 DeepSeek-Prover-V2-671B 在神经定理证明方面达到了最佳性能,在 MiniF2F 测试中达到了 $88.9$% 的通过率,并在 PutnamBench 的 658 个问题中解决了 49 个。DeepSeek-Prover-V2 为 miniF2F 数据集生成的证明可以ZIP 压缩包形式下载。 3. ProverBench:AIME 和教科书问题的形式化 我们推出了 ProverBench,这是一个包含 325 个问题的基准数据集。其中 15 个问题取自近期 AIME 竞赛(AIME 24 和 25)中的数论和代数问题,形式化后呈现出真实的高中竞赛水平挑战。其余 310 个问题则取自精选的教科书示例和教学教程,构成了一个丰富多样且以教学法为基础的形式化数学问题集合。该基准旨在对高中竞赛问题和本科数学进行更全面的评估。 4. 模型和数据集下载 我们发布了两种模型大小的 DeepSeek-Prover-V2:7B 和 671B 参数。DeepSeek-Prover-V2-671B 在 DeepSeek-V3-Base 基础上进行训练。DeepSeek-Prover-V2-7B 则基于 DeepSeek-Prover-V1.5-Base 构建,并扩展了上下文长度,最高可达 32K 个 token。

microsoft phi

microsoft phi

phi-4是一个最先进的开放模型,它基于合成数据集、来自筛选过的公共领域网站的数据以及获取的学术书籍和问答数据集构建而成。该方法的目标是确保小型模型能够使用专注于高质量和高级推理的数据进行训练。该模型 phi-4经过了严格的增强和校准过程,结合了监督微调和直接偏好优化,以确保精确的指令遵循和强大的安全措施。 14B 参数,密集解码器专用 Transformer 模型 我们的模型旨在加速语言模型的研究,并将其作为生成式人工智能功能的基石。它适用于通用人工智能系统和应用(主要针对英语),这些系统和应用需要: 1. 内存/计算受限的环境。2 . 延迟受限的场景。3 . 推理和逻辑。 训练数据集 我们的训练数据是用于 Phi-3 的数据的扩展,包括来自以下各种来源的数据: 对公开的文档进行严格的质量筛选,选择高质量的教育数据和代码。 新创建的合成“类似教科书”的数据,用于教授数学、编码、常识推理、世界常识(科学、日常活动、心理理论等)。 获得学术书籍和问答数据集。 高质量的聊天格式监督数据涵盖各种主题,以反映人类在遵循指示、真实性、诚实和乐于助人等不同方面的偏好。 多语言数据约占我们整体数据的 8%。我们注重能够提升模型推理能力的数据质量,并筛选公开的文档,确保其包含的知识水平符合要求。 基准数据集 我们phi-4使用OpenAI 的 SimpleEval和我们自己的内部基准进行了评估,以了解该模型的功能,更具体地说: MMLU:用于多任务语言理解的流行聚合数据集。 数学:具有挑战性的竞赛数学问题。 GPQA:复杂的、研究生水平的科学问题。 DROP:复杂的理解和推理。 MGSM:多语言小学数学。 HumanEval:功能代码生成。 SimpleQA:事实回应。

只显示前20页数据,更多请搜索