Nowe meta modele sztucznej inteligencji, w tym harcerka światła i średnio-formatowy Maverick, które są narażone na GPT-4O i BLASG 2.0 w popularnych testach, stały się przedmiotem skandalu poprzez testowanie z wynikami testu. Jak się okazało, reklamę publicznej wersji modelu wykorzystano statystyki wersji eksperymentalnej, niedostępna dla szerokiej publiczności, która spowodowała oburzenie użytkowników i analityków.
W komunikacie prasowym Meta stwierdzono, że model Maverick zajął drugie miejsce w ELO Rating (1417 punktów), przekraczając GPT-4O z Openai i zbliżając się do Gemini 2.5 Pro. Wyniki te początkowo wyglądały imponująco i przyczyniły się do pozytywnego obrazu nowych modeli. Jednak użytkownicy platformy Lmaarena, w której porównywane są różne modele sztucznej inteligencji, szybko zauważyli, że dokumentacja meta dokumentacja wskazała, że publiczna wersja modelu została przetestowana, ale specjalnie dostrojona wersja eksperymentalna stworzona w celu optymalizacji wyników na czacie.
Meta nie ujawniła od razu, że do testowania zastosowano dostosowaną wersję LLAMA-4-Maverick-03-26-Expert. Po tym, jak te informacje stały się znane, firma potwierdziła, że statystyki wykorzystywane do reklamy nie wyświetlają prawdziwych cech publicznej wersji modeli dostępnych użytkownikom. Spowodowało to krytykę ze strony społeczności, która rozważa takie manipulacje za niedopuszczalne.
Z kolei zarządzanie Lmaarena oskarżyło meta o nie przestrzeganie standardów uczciwych testów, które podważało zaufanie do platformy jako wskaźnika prawdziwej wydajności modeli AI. W odpowiedzi na skandal Lmaarena ogłosiła już zamiar zmiany swoich zasad, aby uniknąć takich sytuacji w przyszłości. Zauważyli, że dostawcy, którzy mogą dostarczyć specjalnie zoptymalizowane wersje swoich modeli do testowania, a następnie wydać inne wersje publiczne, naruszają przejrzystość i obiektywność testowania.