Meta 新旗舰 AI 模型 Llama 4 Maverick 测试成绩遭质疑,被指针对性优化

来源:88乐园网 时间:2025-04-07 15:10:31

本站 4 月 7 日消息,Meta 公司上周发布了一款名为 Maverick 的新旗舰 AI 模型,并在 LM Arena 测试中取得了第二名的成绩。然而,这一成绩的含金量却引发了诸多质疑。据多位 AI 研究人员在社交平台 X 上指出,Meta 在 LM Arena 上部署的 Maverick 版本与广泛提供给开发者的版本并不一致。

Meta 在其公告中明确提到,参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”。而根据官方 Llama 网站上公布的信息,Meta 在 LM Arena 的测试中所使用的实际上是“针对对话性优化的 Llama 4 Maverick”。这表明,该版本经过了专门的优化调整,以适应 LM Arena 的测试环境和评分标准。

然而,LM Arena 作为一项测试工具,其可靠性本身就存在一定的争议。尽管如此,以往 AI 公司通常不会对模型进行专门的定制或微调,以在 LM Arena 上获得更高的分数,至少没有公开承认过这种做法。

这种对模型进行针对性优化,然后只发布一个“普通版”的行为,给开发者带来了诸多困扰。因为这使得开发者难以准确预测该模型在特定场景下的实际表现。此外,这种行为也具有一定的误导性。理想情况下,尽管现有的基准测试存在诸多不足,但它们至少能够为人们提供一个关于单一模型在多种任务中优缺点的概览。

事实上,研究人员在 X 上已经观察到了公开可下载的 Maverick 版本与 LM Arena 上托管的模型之间存在显著的行为差异。例如,LM Arena 版本似乎更倾向于使用大量的表情符号,并且给出的答案往往冗长且拖沓。

截至本站发稿,Meta 公司以及负责维护 LM Arena 的 Chatbot Arena 组织暂未对此做出回应。

上一篇:《寂静岭f》以日本岐阜县为原型 现实和游戏场景对比
相关资讯 更多+
  • 巅峰70w在线玩家 Steam爆款游戏回归 合作中国厂商出手游
    巅峰70w在线玩家 Steam爆款游戏回归 合作中国厂商出手游

    最近几年,游戏市场出现了一种特殊的游戏类型,那就是主播游戏。它们往往属于低成本开发的独立游戏,没有太多投入用于宣发,却靠着主播带来的直播效果而迅速爆火。发布于2021年的《鹅鸭杀》,就是这样一款作品。

    新游风向标 2023-04-14

  • 《刺客信条:影》部分媒体评分提前泄露 综分约在8分
    《刺客信条:影》部分媒体评分提前泄露 综分约在8分

    育碧的《刺客信条:影》即将发售,在此之前媒体评分还未正式解禁,但就像所有协议一样都会出现差错,一部分的媒体不小心已经提前泄露了评分。就目前来看,游戏的接受度还不错。根据海外网游分享,媒体 Consol

    新游风向标 2023-04-14

  • 《双影奇境》工作室已在开发下一款游戏
    《双影奇境》工作室已在开发下一款游戏

    《双影奇境》才发售没多久,Hazelight工作室已经在着手开发新作了。游戏总监Josef Fares在接受外媒Skill Up采访时确认正在开发一个新的游戏。他表示关于游戏的元素,他们有一个长达13

    新游风向标 2023-04-14

  • 2025 ChinaJoy洛裳华服 新秀大赛报名开启!
    2025 ChinaJoy洛裳华服 新秀大赛报名开启!

    2025 ChinaJoy洛裳华服·新秀大赛报名通道现已盛大开启!全国11大赛区——北京、华北、上海、东北、东南、华东北、华东南、西南、西北、华中、华南,任你选择

    新游风向标 2023-04-14

最新录入 更多+
确定