Генерація AI: DeepSeek та еволюція Chatbot Arena у 2025 році
Для більшості світу, DeepSeek з’явився нізвідки в січні з програмним забезпеченням штучного інтелекту з відкритим кодом, яке конкурує з моделями від OpenAI та Google, і, як стверджується, було створено за частку вартості конкурентів.
Однак для фанатів сайту Chatbot Arena це був момент розчарування: вони вже місяці спостерігали за прогресом моделей, що належать китайській компанії, яка стоїть за DeepSeek.
Chatbot Arena була створена на початку 2023 року на фоні френзі, що спостерігала після випуску ChatGPT від OpenAI всього за кілька місяців до цього. Створений як дослідницький проект лабораторії Sky Computing в університеті Каліфорнії в Берклі, сайт пропонує безліч сучасних AI-моделей. Відвідувачі використовують чат-ботів, підтримуваних цими моделями, і підвищують або знижують їхні позиції в рейтинг-листах, голосуючи за те, як, на їхню думку, моделі працюють. “Незалежна третя сторона, зацікавлена у правдивому вимірюванні прогресу в AI-просторі, буде критично важливою,” говорить Вей-Лін Чіанг, лідер Chatbot Arena та молодший дослідник в UC Berkeley. “Кожен говорить, що його модель найкраща. Тому прозорість і незалежність дуже допомагають.
Chatbot Arena швидко стала популярним місцем для ранніх адоптерів і провідним індикатором у швидко розвиваючійся області тестування AI: сюди заходять мільйон відвідувачів на місяць. Кращі AI-компанії та стабільні новачки приходять тут випробувати свої нові моделі. Деякі компанії навіть публікують моделі до того, як вони буде загальнодоступними (як це зробила OpenAI з GPT-4o минулої весни).
Коли все йде добре, це стає джерелом хвастощів, а як показав DeepSeek, навіть міжнародної популярності. Користувачі Chatbot Arena протестували кілька моделей з відкритим кодом DeepSeek, кожна з яких піднімалася на більш високе місце в основному рейтингу сайту. Останні пропозиції компанії – V3, великий мовний модель, схожа на ту, що потужна ChatGPT, та R1, яка витрачає більше часу на обробку відповіді перед тим, як вивести її. Ці моделі з’явилися в Chatbot Arena наприкінці грудня та січні відповідно, і швидко піднялися у рейтингах.
Днями після випуску, в п’ятницю, R1 стрибнув на третє місце, перевершивши o1, схожий на модель OpenAI. Чат-бот додатку DeepSeek став на чолі чартів у магазинах мобільних додатків, зокрема в американському App Store компанії Apple у той вікенд і в Google Play Store кілька днів потому. Видатні постаті, такі як ризиковий капіталіст Марк Андріссен та генеральний директор OpenAI Сем Альтман, похвалили його. Того понеділка інвестори знищили майже 1 трильйон доларів з вартості технологічних акцій США та Європи, оскільки DeepSeek підняв можливість того, що технологічна індустрія витратила занадто багато на інфраструктуру AI.
Лідери Chatbot Arena, Чіанг та Анастасіос Анджелопулос також не були сильно вражені. “Це насправді не надто дивно, що ми бачимо модель, як ця, дійсно досягнула вершини,” говорить Анджелопулос. “Екосистема буде продовжувати еволюціонувати. Через місяць це буде не DeepSeek-R1, а інша модель.”
Chatbot Arena не є єдиним проектом, що надає публічно доступні AI-бенчмарки. Такі зусилля, як SWE-Bench або Humanity’s Last Exam, оцінюють, як добре сучасні AI-моделі справляються з різними завданнями, такими як вирішення математичних або кодових питань, чи вирішення деяких із найскладніших проблем, відомих людству. Стандартизації не так багато, і жодна офіційна група не контролює методи, якими моделі тестуються. Прогрес в цій галузі настільки швидкий, що нові моделі можуть швидко зробити наявні оцінки застарілими. (Пам’ятаєте тест Тюринга?)
Chatbot Arena оцінює, яке це відчувати, використовуючи кожен продукт. “Настрої – це один спосіб висловити це; інший спосіб – це тестування випадків реального використання,” говорить Чіанг. “Якщо ви OpenAI, що створює ChatGPT, вам важливо ваше користувачі.
Станом на початок лютого, Chatbot Arena розмістила більш ніж 200 моделей загалом, включно з моделями від Anthropic, Google, Meta Platforms, OpenAI та xAI, з 90 з них все ще доступними для користувачів. Компанії зазвичай працюють з Chatbot Arena, щоб розмістити свої моделі на сайті, а потім оплачують витрати, які виникли через користувачів, які їх тестують. Сайт є відкритим кодом, з даними та кодом, доступними для інших, і підтримується деякими зовнішніми грантами, такими як від ризикових капітальних компаній Андріссена Хоровіца та Секвойя Капіталу. Оскільки це академічний дослідницький проект, студенти UC Berkeley в основному є тими, хто підтримує роботу Chatbot Arena.
Відвідувачі зустрічають спливаюче повідомлення про те, що сайт є дослідницьким проектом. Їм пропонують задати питання двом анонімним чат-ботам, а потім вибрати того, кого їм більше подобається. Після голосування ім’я кожного чат-бота розкривається. Ці голоси використовуються для створення рейтингу, що оцінює силу кожної моделі; це різновид системи Ело для шахів, яка присвоює рейтинги на основі результатів змагань один на один.
Користувачі зареєстрували більш ніж 2.6 мільйона голосів за свої улюблені мовні моделі до цих пір. Вони не входять в систему, тож члени команди Chatbot Arena не знають про окремих користувачів. Проте вони зазвичай класифікують, які типи запитів користувачі намагаються запропонувати чат-ботам. Питання про комп’ютерне програмування та креативне письмо особливо популярні, з прикладами запитів на кшталт: “Напишіть вірш у двох рядках, який використовує перерви, щоб створити відчуття руху та напруженості; він повинен бути про яблука.”
Рейтинг Chatbot Arena має ауру остаточності. Насправді, вони вимірюють щось дуже специфічне: реакцію аудиторії Chatbot Arena (яка, здається, схиляється до академічних, зацікавлених темами, такими як машинне навчання). Система рейтингів “дійсно крута, і нам подобається подавати наші моделі, але це не дійсно означає: ‘Чи гарна ця модель для роботи? Чи легко її прийняти для підприємств?’” говорить Нік Фрост, співзасновник Cohere, яка створює AI-моделі та налаштовує їх для бізнесу.
Є також певні занепокоєння щодо можливості маніпуляцій з рейтингами. У нещодавньому документі, який був опублікований на Arxiv, відкритому архіві досліджень, який не проходить рецензування, дослідники змоделювали фальсифікацію голосів, щоб вказати на можливі вразливості Chatbot Arena. Анджелопулос та Чіанг зазначають, що сайт має ряд захистів проти зловмисного використання. Вони не бачили доказів успішної атаки проти сайту, говорить Анджелопулос.
Чіанг, Анджелопулос і їхні колеги зосереджені на тому, як поліпшити спільноту Chatbot Arena, водночас розширюючи типи тестувань, які вони проводять. Вони почали підтримувати інші типи AI-моделей, включаючи генератори зображень. З огляду на увагу, яку вони отримали, дослідники також не виключають можливості, що тут може бути бізнес. “Звісно, ми про це думаємо,” говорить Чіанг.
Залишити відповідь