小红书hi lab(Humane Intelligence Lab,人文智能实验室)团队首次开源文本大模型 dots.llm1。 dots.llm1是一个中等规模的Mixture of Experts (MoE)文本大模型,在较小激活量下取得了不错的效果。该模型充分融合了团队在数据处理和模型训练效率方面的技术积累,并借鉴了社区关于 MoE 的最新开源成果。hi lab团队开源了所有模型和必要的训练信息,包括Instruct模型、长文base模型、退火阶段前后的多个base模型及超参数等内容,希望能对大模型社区有所贡献。
模型地址:
https://huggingface.co/rednote-hilab
https://github.com/rednote-hilab/dots.llm1
先来了解下dots.llm1的基本情况:
-
模型参数:总参数量142B、激活参数14B
-
MoE配置:6in128 Expert、2个共享Expert
-
预训练数据:11.2T token高质量数据,显著优于开源数据
-
训练效率:基于Interleaved 1F1B 流水并行的AlltoAll overlap和高效Grouped GEMM的MoE训练框架
再来看下dots.llm1的模型效果,dots.llm1在预训练阶段一共使用了11.2T 高质量token,然后经过两阶段sft训练,得到dots.llm1 base模型和instruct模型,在综合指标上打平Qwen2.5 72B模型,具体指标对照情况如下:
关于dots.llm1开源,hi lab团队做到了迄今为止行业最大力度:
-
开源dots.llm1.inst模型,做到开箱即用
-
开源一系列pretrain base模型,包括预训练过程中每经过1T tokens后所保存的checkpoint——是目前开源中间checkpoint模型中,首个参数超过千亿的大模型
-
退火两阶段训练对应的模型checkpoint
-
长文base模型
-
详细介绍了lr schedule和batch size等信息,便于大家做Continue Pretraining和Supervised Fine-tuning
-
基于Interleaved 1F1B流水并行的AlltoAll overlap优化已经提交至NVIDIA Megatron-LM社区,会在未来一段时间正式发版