Alibaba представляє Qwen3, сімейство «гібридних» моделей мислення на основі штучного інтелекту

30 апреля 2025
3 Mins Read
10 Views

Китайська технологічна компанія Alibaba випустила Qwen3, сімейство моделей штучного інтелекту, які, за твердженням компанії, можуть зрівнятися, а в деяких випадках навіть перевершити найкращі моделі, доступні від Google та OpenAI.

Більшість моделей доступні — або незабаром будуть — для завантаження за «відкритою» ліцензією на платформі розробки штучного інтелекту Hugging Face та GitHub . Їх розмір коливається від 0,6 мільярда параметрів до 235 мільярдів параметрів. (Параметри приблизно відповідають навичкам моделі вирішення проблем, і моделі з більшою кількістю параметрів зазвичай працюють краще, ніж ті, що мають меншу кількість параметрів.)

Зростання популярності серій моделей китайського виробництва, таких як Qwen, посилило тиск на американські лабораторії, такі як OpenAI, з вимогою розробляти більш потужні технології штучного інтелекту. Це також спонукало політиків запровадити обмеження, спрямовані на обмеження можливостей китайських компаній, що займаються штучним інтелектом, отримувати чіпи, необхідні для навчання моделей.

За даними Alibaba, моделі Qwen3 є «гібридними» — вони можуть витрачати час на «розуміння» складних проблем або швидко відповідати на простіші запити. Міркування дозволяють моделям ефективно перевіряти факти самостійно, подібно до моделей, таких як o3 від OpenAI , але ціною більшої затримки.

«Ми бездоганно інтегрували режими мислення та недумки, пропонуючи користувачам гнучкість у контролі бюджету мислення», – написала команда Qwen у блозі . «Цей дизайн дозволяє користувачам легше налаштовувати бюджети для конкретних завдань».

Деякі моделі також використовують архітектуру змішаних експертів (MoE), яка може бути більш обчислювально ефективною для відповідей на запити. MoE розбиває завдання на підзадачі та делегує їх меншим, спеціалізованим «експертним» моделям. 

За словами Alibaba, моделі Qwen3 підтримують 119 мов і були навчені на наборі даних з понад 36 трильйонів токенів. (Токени – це необроблені біти даних, які обробляє модель; 1 мільйон токенів еквівалентний приблизно 750 000 слів). Компанія повідомила, що Qwen3 була навчена на комбінації підручників, «пар запитань-відповідей», фрагментів коду, даних, згенерованих штучним інтелектом, тощо.

Ці покращення, разом з іншими, значно розширили можливості Qwen3 порівняно з його попередником, Qwen2, заявили в Alibaba. Жодна з моделей Qwen3, здається, не перевершує новітні моделі, такі як o3 та o4-mini від OpenAI, але вони, з усім тим, демонструють високі результати.

На Codeforces, платформі для конкурсів програмування, найбільша модель Qwen3 — Qwen-3-235B-A22B — трохи перевершує o3-mini від OpenAI та Gemini 2.5 Pro від Google . Qwen-3-235B-A22B також перевершує o3-mini в останній версії AIME, складного математичного бенчмарку, та BFCL, тесті для оцінки здатності моделі «міркувати» про проблеми.

Найбільша публічна модель Qwen3, Qwen3-32B, все ще конкурує з низкою власних та відкритих моделей штучного інтелекту, включаючи R1 китайської лабораторії штучного інтелекту DeepSeek . Qwen3-32B перевершує модель o1 від OpenAI у кількох тестах, включаючи бенчмарк кодування LiveCodeBench.

Alibaba заявила, що Qwen3 «відмінно справляється» з можливостями виклику інструментів, а також з виконанням інструкцій та копіюванням певних форматів даних. Окрім моделей для завантаження, Qwen3 доступний від постачальників хмарних послуг, включаючи Fireworks AI та Hyperbolic.

Тухін Шрівастава, співзасновник і генеральний директор хмарного хостингу штучного інтелекту Baseten, сказав, що Qwen3 — це ще одна точка в тренді відкритих моделей, які йдуть в ногу з системами із закритим кодом, такими як OpenAI.

«США подвоюють обмеження продажу чіпів до Китаю та закупівель з Китаю, але такі моделі, як Qwen 3, які є найсучаснішими та відкритими […], безсумнівно, будуть використовуватися всередині країни», – сказав він TechCrunch. «Це відображає реальність того, що компанії як створюють власні інструменти [а також] купують готові через компанії закритої моделі, такі як Anthropic та OpenAI».

internetua.com

Exit mobile version