RZECZYWISTY

Meta wdał się w skandal z powodu manipulacji z wynikami nowych modeli sztucznej inteligencji

Nowe meta modele sztucznej inteligencji, w tym harcerka światła i średnio-formatowy Maverick, które są narażone na GPT-4O i BLASG 2.0 w popularnych testach, stały się przedmiotem skandalu poprzez testowanie z wynikami testu. Jak się okazało, reklamę publicznej wersji modelu wykorzystano statystyki wersji eksperymentalnej, niedostępna dla szerokiej publiczności, która spowodowała oburzenie użytkowników i analityków.

W komunikacie prasowym Meta stwierdzono, że model Maverick zajął drugie miejsce w ELO Rating (1417 punktów), przekraczając GPT-4O z Openai i zbliżając się do Gemini 2.5 Pro. Wyniki te początkowo wyglądały imponująco i przyczyniły się do pozytywnego obrazu nowych modeli. Jednak użytkownicy platformy Lmaarena, w której porównywane są różne modele sztucznej inteligencji, szybko zauważyli, że dokumentacja meta dokumentacja wskazała, że ​​publiczna wersja modelu została przetestowana, ale specjalnie dostrojona wersja eksperymentalna stworzona w celu optymalizacji wyników na czacie.

Meta nie ujawniła od razu, że do testowania zastosowano dostosowaną wersję LLAMA-4-Maverick-03-26-Expert. Po tym, jak te informacje stały się znane, firma potwierdziła, że ​​statystyki wykorzystywane do reklamy nie wyświetlają prawdziwych cech publicznej wersji modeli dostępnych użytkownikom. Spowodowało to krytykę ze strony społeczności, która rozważa takie manipulacje za niedopuszczalne.

Z kolei zarządzanie Lmaarena oskarżyło meta o nie przestrzeganie standardów uczciwych testów, które podważało zaufanie do platformy jako wskaźnika prawdziwej wydajności modeli AI. W odpowiedzi na skandal Lmaarena ogłosiła już zamiar zmiany swoich zasad, aby uniknąć takich sytuacji w przyszłości. Zauważyli, że dostawcy, którzy mogą dostarczyć specjalnie zoptymalizowane wersje swoich modeli do testowania, a następnie wydać inne wersje publiczne, naruszają przejrzystość i obiektywność testowania.

NIE PRZEGAP

CIEKAWE MATERIAŁY NA TEMAT