Цього тижня китайська лабораторія штучного інтелекту DeepSeek увірвалася в загальну свідомість після того, як її додаток для чат-ботів піднявся на вершину чартів Apple App Store ( а також Google Play ). Моделі штучного інтелекту DeepSeek, які були навчені з використанням обчислювально-ефективних методів, змусили аналітиків Уолл-стріт — і технологів — поставити під сумнів, чи зможуть США зберегти лідерство в гонці штучного інтелекту та чи збережеться попит на мікросхеми ШІ.
Але звідки взявся DeepSeek і як він так швидко здобув міжнародну популярність?
Походження трейдерів DeepSeek
DeepSeek підтримується High-Flyer Capital Management, китайським кількісним хедж-фондом, який використовує штучний інтелект для прийняття торгових рішень.
У 2015 році ентузіаст штучного інтелекту Лян Венфен став співзасновником High-Flyer. Венфен, який, як повідомляється, почав займатися трейдингом, коли був студентом Чжецзянського університету, у 2019 році запустив High-Flyer Capital Management як хедж-фонд, який зосереджується на розробці та впровадженні алгоритмів штучного інтелекту.
У 2023 році High-Flyer заснувала DeepSeek як лабораторію, що займається дослідженням інструментів ШІ окремо від фінансового бізнесу. Завдяки High-Flyer як одному з інвесторів лабораторія відокремилася у власну компанію, яка також називається DeepSeek.
З першого дня DeepSeek створив власні кластери центрів обробки даних для навчання моделей. Але, як і інші компанії штучного інтелекту в Китаї, DeepSeek постраждала від заборони США на експорт апаратного забезпечення . Щоб навчити одну зі своїх останніх моделей, компанія була змушена використовувати чіпи Nvidia H800, менш потужну версію чіпа, H100, доступну для американських компаній.
Кажуть, що технічна команда DeepSeek перекошує молодь. Повідомляється, що компанія агресивно набирає докторантів ШІ з провідних китайських університетів. Згідно з The New York Times, DeepSeek також наймає людей без будь-якого досвіду в інформатиці, щоб допомогти своїм технологам краще зрозуміти широкий спектр тем.
Сильні моделі DeepSeek
DeepSeek представив свій перший набір моделей — DeepSeek Coder, DeepSeek LLM і DeepSeek Chat — у листопаді 2023 року. Але індустрія ШІ почала звертати увагу лише навесні минулого року, коли стартап випустив сімейство моделей наступного покоління DeepSeek-V2.
DeepSeek-V2, універсальна система аналізу тексту та зображень, добре показала себе в різних тестах штучного інтелекту — і була набагато дешевшою в експлуатації, ніж аналогічні моделі на той час. Це змусило внутрішніх конкурентів DeepSeek, зокрема ByteDance та Alibaba, знизити ціни на використання деяких своїх моделей і зробити інші повністю безкоштовними.
DeepSeek-V3 , запущений у грудні 2024 року, лише додав DeepSeek слави.
Відповідно до внутрішнього порівняльного тестування DeepSeek, DeepSeek V3 перевершує як завантажувані, відкрито доступні моделі, як-от Meta’s Llama , так і «закриті» моделі, до яких можна отримати доступ лише через API, як-от OpenAI GPT-4o .
Не менш вражаючою є модель «міркування» DeepSeek R1. DeepSeek, випущений у січні, стверджує, що R1 працює так само добре, як і модель OpenAI o1 за ключовими тестами .
Будучи моделлю міркування, R1 ефективно перевіряє факти, що допомагає йому уникнути деяких пасток, які зазвичай спотикають моделі. Моделі міркування займають трохи більше часу — зазвичай секунди або хвилини — щоб знайти рішення порівняно з типовою моделлю без міркування. Перевагою є те, що вони, як правило, більш надійні в таких сферах, як фізика, природничі науки та математика.
Однак у R1, DeepSeek V3 та інших моделей DeepSeek є недоліки. Будучи штучним інтелектом, розробленим у Китаї, вони підлягають порівняльному аналізу китайським регулятором Інтернету, щоб переконатися, що його відповіді «втілюють основні соціалістичні цінності». Наприклад, у чат-боті DeepSeek R1 не відповідатиме на запитання про площу Тяньаньмень чи автономію Тайваню.
У березні DeepSeek перевищив 16,5 мільйонів відвідувань . «У березні DeepSeek займає друге місце, незважаючи на падіння трафіку на 25% порівняно з лютим на основі щоденних відвідувань», — сказав TechCrunch Девід Карр, редактор Similarweb. Він все ще тьмяний у порівнянні з ChatGPT, кількість активних користувачів якого перевищила 500 мільйонів щотижня в березні.
Підривний підхід
Якщо у DeepSeek є бізнес-модель, то незрозуміло, що це за модель. Компанія оцінює свої продукти та послуги набагато нижче ринкової вартості — і роздає іншим безкоштовно. Це також не забирає гроші інвесторів , попри масу відсотків венчурного капіталу.
Як розповідає DeepSeek, прорив у ефективності дозволив йому підтримувати надзвичайну конкурентоспроможність за витратами. Однак деякі експерти заперечують цифри, надані компанією.
У будь-якому випадку розробники скористалися моделями DeepSeek, які не є відкритими, як це прийнято розуміти, але доступні за дозвільними ліцензіями, які дозволяють комерційне використання. За словами Клема Деланга, генерального директора Hugging Face, однієї з платформ, на якій розміщено моделі DeepSeek, розробники Hugging Face створили понад 500 «похідних» моделей R1 , які разом зібрали 2,5 мільйона завантажень.
Успіх DeepSeek у боротьбі з більшими та відомішими конкурентами був описаний як «штучний інтелект, що перевертає» та «надмірний розквіт». Успіх компанії принаймні частково спричинив падіння ціни акцій Nvidia на 18% у січні та викликав публічну реакцію генерального директора OpenAI Сема Альтмана. У березні бюро Міністерства торгівлі США повідомило співробітникам, що DeepSeek буде заборонено на їхніх державних пристроях , повідомляє Reuters.
Корпорація Майкрософт оголосила, що DeepSeek доступний у її службі Azure AI Foundry , платформі Microsoft, яка об’єднує служби ШІ для підприємств під одним банером. Коли його запитали про вплив DeepSeek на витрати Meta на штучний інтелект під час телефонної розмови про прибутки за перший квартал, генеральний директор Марк Цукерберг сказав, що витрати на інфраструктуру штучного інтелекту й надалі будуть «стратегічною перевагою» для Meta. У березні OpenAI назвав DeepSeek «субсидованим державою» та «контрольованим державою» та рекомендував уряду США розглянути питання про заборону моделей у DeepSeek.
Під час телефонної розмови про прибутки Nvidia за четвертий квартал генеральний директор Дженсен Хуанг підкреслив «чудову інновацію» DeepSeek, сказавши, що вона та інші «розумні» моделі є чудовими для Nvidia, оскільки їм потрібно набагато більше обчислювальних ресурсів.
Водночас деякі компанії забороняють DeepSeek , а також цілі країни та уряди , включаючи Південну Корею . Штат Нью-Йорк також заборонив використовувати DeepSeek на державних пристроях .
Що стосується майбутнього DeepSeek, це не ясно. Покращені моделі є даністю. Але уряд США, схоже, починає насторожено ставитися до того, що він сприймає як шкідливий зовнішній вплив . У березні The Wall Street Journal повідомила, що США, ймовірно, заборонять DeepSeek на урядових пристроях .
No Comment! Be the first one.