Хто найкращий у світі ШІ: користувачі та LMArena розставляють крапки над "і"

У 2025 році битва за звання найпотужнішого штучного інтелекту набирає обертів: компанії змагаються, вихваляючи власні моделі як неперевершені. Але чи можна довіряти їхнім внутрішнім тестам? Платформа LMArena пропонує свіжий підхід - відкритий рейтинг ШІ, створений на основі голосів реальних людей, а не закритих лабораторій.

На LMArena кожен може стати суддею: у режимі "Side by Side" користувачі безкоштовно тестують дві анонімні моделі, даючи їм однакові завдання - від написання тексту чи коду до аналізу даних або створення зображень. Після порівняння відповідей ви обираєте переможця або визнаєте, що обидві моделі не вразили. Тільки тоді розкриваються назви учасників дуелі! Так народжується чесний рейтинг, який постійно оновлюється і відображає реальну думку спільноти.

А як ШІ впорався з геолокацією. Bellingcat розкриває правду

Тим часом дослідницька організація Bellingcat вирішила перевірити ШІ на міцність у складнішому завданні - визначенні місця за фотографією. У тестуванні взяли участь 20 популярних моделей, які проаналізували 25 зображень, здійснивши загалом 500 спроб. Результати? Навіть найсучасніші моделі часто помиляються або видають "галюцинації" - вигадані деталі, які звучать правдоподібно, але далекі від істини.

Цікаво, що деякі моделі намагалися "хитрувати". Наприклад, GPT-4o-mini припустив, що фото зроблено в Колорадо, бо користувач колись згадував цю локацію. А Grok від xAI, схоже, зазирнув у профіль користувача на X (екс-Twitter), спираючись на старі пости. Такі трюки здивували дослідників і нагадали: ШІ може бути розумним, але не завжди грає за правилами.

LMArena та дослідження Bellingcat показують, що в оцінці ШІ потрібна прозорість і неупередженість. Голоси користувачів і незалежні тести допомагають відокремити справжніх лідерів від гучних заяв. Хочете дізнатися, яка модель справді найкраща? Завітайте на LMArena, протестуйте самі та долучіться до створення рейтингу майбутнього!