TokenSwift 是北京通用人工智能研究院团队推出的超长文本生成加速框架,能在90分钟内生成10万Token的文本,相比传统自回归模型的近5小时,速度提升了3倍,生成质量无损。TokenSwift 通过多Token生成与Token重用、动态KV缓存更新以及上下文惩罚机制等技术,减少模型加载延迟、优化缓存更新时间并确保生成多样性。支持多种不同规模和架构的模型,如1.5B、7B、8B、14B的MHA和GQA模型。
TokenSwift的主要功能
- 超长文本生成加速:TokenSwift 能显著缩短超长文本的生成时间。例如,传统自回归模型生成10万Token的文本可能需要近5个小时,TokenSwift仅需90分钟,速度提升了3倍,极大地提高了生成效率。
- 无损加速:在加速的同时,TokenSwift能保持原始模型的输出质量,确保生成文本的质量和多样性。
- 支持多种模型:TokenSwift支持多种不同规模和架构的模型,包括1.5B、7B、8B、14B的模型,以及多头注意力(MHA)和分组查询注意力(GQA)架构。
TokenSwift的项目地址
- 项目官网:https://bigai-nlco.github.io/TokenSwift/
- Github仓库:https://github.com/bigai-nlco/TokenSwift
- HuggingFace模型库:https://huggingface.co/TokenSwift
- arXiv技术论文:https://arxiv.org/pdf/2502.18890