LLaSO – 大型语言和语音模型中可重复研究的基础框架

LLaSO – 大型语言和语音模型中可重复研究的基础框架

访问网站

LLaSO:大型语言和语音模型中可重复研究的基础框架

完全开放的语料库+基准+参考模型,用于组合语音语言理解。

LLaSO-Base 在涵盖语言、语义和副语言类别的 20 项任务中获得LLaSO-Eval 的最佳标准化总体得分。


???? LLaSO 是什么?

LLaSO 是第一个完全开放的端到端大规模语音语言建模堆栈,在一个框架中统一数据、评估和建模。

  • LLaSO-Align (12.0M):基于 ASR 的对齐,用于将语音置于文本语义空间中。
  • LLaSO-Instruct(13.5M/20 个任务/3 种模态配置):跨语言、语义和副语言目标的多任务指令调整。
  • LLaSO-Eval(15,044):用于指令遵循和跨模态泛化的分层基准。
  • LLaSO-Base (3.8B):两阶段训练参考模型,改编自 LLaVA 风格的架构,以实现强大的组合理解。

LLaSO 堆栈:用于组合语音语言建模的数据、基准和参考模型。

✨ 主要特点

  • 完全开放、端到端堆栈:统一发布语料库、基准和模型,支持语音语言建模的开源研究和公平比较。
  • 25.5M 个样本、20 个任务、3 种模态配置:支持所有主要的文本↔音频组合(文本+音频、音频+文本、纯音频),涵盖语言、语义和副语言任务。
  • 分层评估(15,044):训练集和测试集之间的凝聚性设计可以系统地评估指令遵循、跨模态泛化、弃权率和稳定性。
  • 稳健参考模型(3.8B):两阶段训练(ASR 对齐→指令调整),易于重现和扩展以供进一步研究。
  • 实证见解:更广泛的任务和模态覆盖范围始终会带来更强的整体性能,但看不见的模态/任务配置(尤其是纯音频)仍然具有挑战性;交错和并行解码策略可以弥补一些差距。