Neue Modelle für künstliche Intelligenz von Meta, darunter Scout Light und Mittelformat-Maverick, die GPT-4O- und Gemini 2.0-Flash in populären Tests ausgesetzt sind, sind durch Tests mit Testergebnissen zum Objekt des Skandals geworden. Wie sich herausstellte, wurde die Werbung der öffentlichen Version des Modells Statistiken der experimentellen Version verwendet, die für ein breites Publikum nicht zugänglich ist, was bei Benutzern und Analysten Empörung verursachte.
Die Pressemitteilung von Meta besagte, dass das Maverick-Modell den zweiten Platz in der ELO-Bewertung (1417 Punkte) belegte, wobei der GPT-4O von OpenAI übertrifft und sich Gemini 2.5 Pro näherte. Diese Ergebnisse sahen zunächst beeindruckend aus und trugen zum positiven Bild neuer Modelle bei. Benutzer der LMAARAena -Plattform, auf der verschiedene Modelle für künstliche Intelligenz verglichen werden, stellten jedoch schnell fest, dass die Meta -Dokumentation einen Hinweis darauf hatte, dass die öffentliche Version des Modells getestet wurde, eine speziell abgestimmte experimentelle Version, die zur Optimierung der Ergebnisse in den Chats erstellt wurde, jedoch erstellt wurde.
Meta zeigte nicht sofort, dass eine angepasste Version von Lama-4-Maverick-03-26-Expert zum Testen verwendet wurde. Nachdem diese Informationen bekannt sind, bestätigte das Unternehmen, dass die für die Werbung verwendeten Statistiken nicht die tatsächlichen Merkmale der öffentlichen Version der für Benutzer zur Verfügung stehenden Modelle anzeigen. Dies hat Kritik der Gemeinschaft verursacht, die solche Manipulationen unzulässig betrachtet.
Das LMAarena -Management beschuldigte wiederum Meta, die Standards der ehrlichen Tests nicht einzuhalten, was das Vertrauen in ihre Plattform als Indikator für die echte Produktivität von AI -Modellen untergrub. Als Reaktion auf den Skandal hat Lmaarena bereits seine Absicht angekündigt, ihre Regeln zu ändern, um solche Situationen in Zukunft zu vermeiden. Sie stellten fest, dass Lieferanten, die speziell optimierte Versionen ihrer Modelle für das Testen bereitstellen und dann andere öffentliche Versionen freigeben können, gegen die Transparenz und Objektivität des Tests verstoßen.