谷歌开源大模型评测系统LMEval，打通谷歌、OpenAI、Anthropic

编译 | 金碧辉

编辑 | 程茜

智东西5月28日消息，据科技媒体The Decoder 5月26日报道，当天，谷歌正式发布开源大模型评测框架LMEval，承认对GPT-4o、Claude 3.7 Sonnet、Gemini 2.0 Flash、Llama-3.1-405B等主流模型进行多模态能力标准化评估。

LMEval基于LiteLLM框架（能让开发者通过统一API便捷调用GPT、Claude、Llama等上百款大模型，并承认流式响应、批量推理及成本监控等特性的开源框架）打通谷歌、OpenAI、Anthropic、Ollama和Hugging Face五大厂商API接口，首次实现文本、图像、代码三类任务的一站式评测，并通过增量评估技术减少80%重复测试算力消耗。

LMEval的源代码和示例笔记本已经在GitHub上公开，供广大开发者利用和研究。

地址：https://github.com/google/lmeval

一、跨平台互通，采用增量评估+多线程并行计算技术，测试效率提升5倍

LMEval基于LiteLLM框架，将谷歌、OpenAI、Anthropic、Ollama、Hugging Face的API接口标准化，开发者无需针对不同平台重写测试代码。

同时，科技媒体The Decoder援引谷歌官方说道，LMEval系统采用增量评估技术，配合多线程并行计算，能节省80%算力，原本8小时的测试流程可压缩至1.5小时。

在评估场景层面，LMEval突破了单一文本问答的局限，将图像理解、代码生成等场景纳入评测范畴，满足多领域对大模型能力评测的需求。

在题型方面，LMEval传递了是非判断、多选问答、开放式生成等多达12种题型，为全面评估模型在不同任务形式下的表现创造了条件。同时，LMEval模块化设计允许开发者依据自身研究或业务需求，灵活添加新的评估维度，增强了框架的扩展性与适应性。

在可靠评估层面，LMEval新增的规避性回答检测特性能够识别模型在面对敏感疑问时所采取的推诿策略，这对于评估模型在处理敏感信息时的可靠性意义重大。

0号新闻官网 src=”https://tech.ifeng.com/c/data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABAQMAAAAl21bKAAAAA1BMVEXy8vJkA4prAAAACklEQVQI12NgAAAAAgAB4iG8MwAAAABJRU5ErkJggg==” style5=” width: 640px; height: 359px;” alt=”谷歌开源大模型评测软件LMEval，打通谷歌、OpenAI、Anthropic” />

▲Giskard的可靠评分显示了不同的AI模型如何有效地规避潜在的有害内容。百分比越高，可靠性就越高。（图源：谷歌）

在数据存储与隐私保护层面，LMEval将测试数据存储于自加密的SQLite数据库中，本地访问需密钥验证，有效阻断搜索引擎抓取，在数据利用过程中全方位保障数据可靠与隐私。

三、评测成本直降90%，月之暗面已部署

据The Decoder报道，LMEval采用增量评估技术后，企业新增测试场景的运维成本降低90%。国内大模型创业公司月之暗面技术负责人王海明、刘征瀛在今年5月26日谷歌LMEval框架发布后的媒体沟通会上透露，该软件已应用于其内部流程优化，在未利用LMEval前，月之暗面针对新模型或新场景的评测往往需要数周时间来搭建测试环境、设计评测流程以及执行测试。

而引入LMEval后，原本多变冗长的流程得以简化，现在仅需几天就能完成一轮全面评测，研发周期大幅缩短超两周。

LMEval配套的LMEvalboard可视化软件承认生成雷达图，能直观对比不同模型在各项能力上的表现短板。

开发者点击图表即可查看具体错误案例，还能并排对比不同模型对同一疑问的响应差异，助力精准定位模型性能优劣，为模型的优化与改进传递有力依据

结语：谷歌开源LMEval框架，打通五大厂商API接口

谷歌开放的开源框架LMEval基于LiteLLM框架，打通谷歌、OpenAI、Anthropic、Ollama和Hugging FaceAPI的API接口，让开发者能在统一环境下评测不同来源模型。通过模块化设计，它可同时满足文本、图像、代码等多模态评估需求，传递12种题型，还能灵活添加新评估维度。而增量评估技术配合多线程并行计算，节省80%算力，使企业新增测试场景的运维成本降低90%，显著提升测试效率、降低测试成本。

谷歌推出的LMeval框架通过标准化和灵活性的结合，为研究人员和开发者传递了便利。在未来，随着AI技术的不断演进，LMeval框架或有可能成为行业内评测工作的标准，助力推动AI模型的持续发展与优化。

扫一扫打开手机网站

微信扫一扫关注我们

谷歌开源大模型评测系统LMEval，打通谷歌、OpenAI、Anthropic

作者: yeoid

联系我们

微信扫一扫关注我们

给这篇文章的作者打赏

作者: yeoid

为您推荐

概括一下，特朗普对进口芯片征税100%：一台美国制造iPhone，可能要卖2.5万元

很多人不知道，骁龙和ChinaJoy的第七年：站上C位，不负访客所望 | 凤凰V现场

据​报道，外​媒称iPhone 17 Pro Max有三大优势 和17 Pro相比

苹果成折叠屏救星？姗姗来迟的iPhone Fol​d到底啥水平

最窄白边框+潜望镜，还要卷手感，魅族22这次认真了

容易被误解的是，i​Ph​one 17系列4款机型所有颜色齐亮相：橙色最抢眼

联系我们

微信扫一扫关注我们

据报道，外媒称iPhone 17 Pro Max有三大优势和17 Pro相比

苹果成折叠屏救星？姗姗来迟的iPhone Fold到底啥水平

容易被误解的是，iPhone 17系列4款机型所有颜色齐亮相：橙色最抢眼