0次浏览 发布时间:2025-04-07 07:28:00
IT之家 4 月 7 日消息,Meta 公司上周发布了一款名为 Maverick 的新旗舰 AI 模型,并在 LM Arena 测试中取得了第二名的成绩。然而,这一成绩的含金量却引发了诸多质疑。据多位 AI 研究人员在社交平台 X 上指出,Meta 在 LM Arena 上部署的 Maverick 版本与广泛提供给开发者的版本并不一致。
Meta 在其公告中明确提到,参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”。而根据官方 Llama 网站上公布的信息,Meta 在 LM Arena 的测试中所使用的实际上是“针对对话性优化的 Llama 4 Maverick”。这表明,该版本经过了专门的优化调整,以适应 LM Arena 的测试环境和评分标准。
然而,LM Arena 作为一项测试工具,其可靠性本身就存在一定的争议。尽管如此,以往 AI 公司通常不会对模型进行专门的定制或微调,以在 LM Arena 上获得更高的分数,至少没有公开承认过这种做法。而 Meta 此次的行为。
这种对模型进行针对性优化,然后只发布一个“普通版”的行为,给开发者带来了诸多困扰。因为这使得开发者难以准确预测该模型在特定场景下的实际表现。此外,这种行为也具有一定的误导性。理想情况下,尽管现有的基准测试存在诸多不足,但它们至少能够为人们提供一个关于单一模型在多种任务中优缺点的概览。
事实上,研究人员在 X 上已经观察到了公开可下载的 Maverick 版本与 LM Arena 上托管的模型之间存在显著的行为差异。例如,LM Arena 版本似乎更倾向于使用大量的表情符号,并且给出的答案往往冗长且拖沓。
截至IT之家发稿,Meta 公司以及负责维护 LM Arena 的 Chatbot Arena 组织暂未对此做出回应。
力挺资本市场!一图梳理多方重磅发声
2025-04-08 13:31:00晓达股份拟出资 80 万美金在泰国设立控股孙公司
2025-04-08 04:32:002025年,“美育”首次纳入枣庄中考,如何考?官方解读来了
2025-04-07 19:05:00A股消费电子公司回应美国关税:属于“有限冲击”
2025-04-07 18:03:00国网登封市供电公司:保电防火“双管齐下” 护航清明假期
2025-04-07 15:53:00苏州恒泰控股集团有限公司2025年面向专业投资者公开发行碳中和绿色公司债券(第一期)(长三角一体化)获“AAA”评级
2025-04-07 12:11:00游戏周报:2024年全球移动游戏内购收入达820亿美元,网易雷火负责人升任集团执行副总裁
2025-04-07 09:39:00联特科技:与苏州卡恩联特无关联关系
2025-04-07 08:26:00【视频】“决胜收官‘十四五’聚焦聚力打好‘八场硬仗‘”咸阳市广播电视台2025年大型全媒体行动今日启动!
2025-03-25 23:17:03本周陕西上演“气温过山车” 强降温+吹风即将来袭!
2025-03-26 12:35:12强化风险源头治理 高质量推进法治鞍钢建设
2025-03-25 23:20:19突然!知名品牌 多地闭店!
2025-03-26 12:38:00向农民学习种田 到美院进修文创 樱花小院主理人有个“五年计划”
2025-03-25 23:24:03济南这一片区征收!
2025-03-26 12:42:04OPPO Find X8 Ultra参数全曝光 Find X8现谷底价遭疯抢
2025-03-25 23:27:11轻微刑事案件最快一天审结,上栗县人民检察院成立专业团队高效办理轻罪案件
2025-03-26 12:45:03全国社会保障基金理事会:已主动增持国内股票 将继续增持
2025-04-08 15:23:00五一起能发电报的城市只剩北京,西单窗口怀旧体验“惜字如金”
2025-04-08 15:15:00日经225指数收盘涨6.03%
2025-04-08 15:09:00中国人保:坚定看好中国资本市场 稳步加大A股市场投资规模
2025-04-08 15:04:00联播观察|“新赛道”加速跑
2025-04-08 14:56:00康缘药业:转型阵痛中凸显创新韧性 数智化发展开辟增长新赛道
2025-04-08 14:56:00玉米皮“开”出牡丹花
2025-04-08 14:49:00发车!沈阳新增一条跨境公路运输线路!
2025-04-08 14:45:00