LMEval 是谷歌推出的开源框架,用在简化大型模型(LLMs)的跨提供商评估。框架支持多模态(文本、图像、代码)和多指标评估,兼容 Google、OpenAI、Anthropic 等主流模型提供商。LMEval 基于增量评估引擎,运行必要的测试,节省时间和计算资源。框架自加密的 SQLite 数据库确保评估结果的安全存储。LMEvalboard 提供交互式可视化界面,帮助用户快速分析模型性能,直观比较不同模型的优缺点。
LMEval的主要功能
- 多提供商兼容:支持主流模型提供商,如 Google、OpenAI 等。
- 增量高效评估:智能评估引擎仅运行必要测试,避免重复计算,节省时间和资源。
- 多模态支持:支持文本、图像、代码等多种模态的评估。
- 多指标支持:支持多种评分指标,包括布尔问题、多项选择、自由文本生成等。
- 安全存储:用自加密的 SQLite 数据库,确保数据安全。
- 可视化工具:LMEvalboard 提供交互式可视化界面,帮助用户快速分析模型性能。