Новий голосовий помічник з ШІ від Apple буде кращий за Siri

7 мая 2024
7 Mins Read
78 Views

Новий голосовий помічник з ШІ від Apple буде кращий за Siri

Попри те, що Apple, безумовно, говорила про штучний інтелект і навіть випустила деякі продукти з урахуванням штучного інтелекту, здавалося, що вона занурилася в це, а не пірнала головою вперед.

Але протягом останніх кількох місяців чутки та звіти свідчать про те, що Apple насправді чекала свого часу, чекаючи свого кроку. Останніми тижнями з’явилися повідомлення про те, що Apple веде переговори як з OpenAI, так і з Google щодо посилення деяких своїх функцій ШІ, і компанія також працює над власною моделлю під назвою Ajax .

Якщо ви подивитеся на опубліковане Apple дослідження штучного інтелекту, ви побачите, як підхід Apple до штучного інтелекту може втілитися в життя. Тепер, очевидно, робити припущення щодо продукту на основі дослідницьких статей — це дуже неточна наука — лінія від дослідження до полиць магазину вітряна та повна вибоїн. Але ви можете принаймні отримати уявлення про те, про що думає компанія — і як можуть працювати її функції ШІ, коли Apple почне говорити про них на своїй щорічній конференції розробників WWDC у червні.

Менші та ефективніші моделі

Я підозрюю, що ми з вами сподіваємося на те саме: кращу Siri. І це дуже схоже на те, що Better Siri приходить! У багатьох дослідженнях Apple (і в багатьох галузях технологій, у світі та всюди) є припущення, що великі мовні моделі негайно зроблять віртуальних помічників кращими та розумнішими. Для Apple отримати Better Siri означає зробити ці моделі якомога швидше — і переконатися, що вони всюди.

В iOS 18 Apple планує запустити всі функції штучного інтелекту на моделі пристрою, повністю офлайн, нещодавно повідомило Bloomberg . Важко побудувати хорошу багатоцільову модель, навіть якщо у вас є мережа центрів обробки даних і тисячі найсучасніших графічних процесорів — значно важче зробити це, маючи лише нутрощі свого смартфона. Тож Apple має бути креативним.

У статті під назвою « Швидко за все: ефективне висновок моделі великої мови з обмеженою пам’яттю » (усі ці статті мають дуже нудні назви, але вони справді цікаві, обіцяю!), дослідники розробили систему для зберігання даних моделі, яка зазвичай зберігається в оперативній пам’яті вашого пристрою, а не на SSD. «Ми продемонстрували здатність запускати LLM, що вдвічі перевищує доступну DRAM [на SSD], — пишуть дослідники, — досягаючи прискорення швидкості висновку в 4-5 разів порівняно з традиційними методами завантаження в CPU, і в 20- 25x у GPU». Використовуючи переваги найдешевшої та доступної пам’яті на вашому пристрої, вони виявили, що моделі можуть працювати швидше та ефективніше. 

Дослідники Apple також створили систему під назвою EELBERT , яка фактично може стискати LLM до набагато меншого розміру, не погіршуючи його. Їхній стислий варіант моделі Bert від Google був у 15 разів меншим — лише 1,2 мегабайта — і спостерігав лише 4-відсоткове зниження якості. Однак він мав деякі компроміси щодо затримки.

Загалом Apple намагається вирішити основну суперечність у світі моделей: чим більшою стає модель, тим кращою та кориснішою вона може бути, але також тим громіздкішою, енергоємнішою та повільнішою вона може стати. Як і багато інших, компанія намагається знайти правильний баланс між усіма цими речами, а також шукає спосіб мати все це.

Siri, але добре

Багато з того, про що ми говоримо, коли ми говоримо про продукти штучного інтелекту, — це віртуальні помічники — помічники, які знають речі, які можуть нагадувати нам про речі, які можуть відповідати на запитання та виконувати завдання від нашого імені. Тож не зовсім шокуюче, що багато досліджень Apple щодо штучного інтелекту зводяться до одного питання: а що, якби Siri була дійсно, дійсно, дуже хорошою?

Група дослідників Apple працювала над тим, щоб використовувати Siri взагалі без необхідності використовувати слово пробудження; замість того, щоб слухати «Hey Siri» або «Siri», пристрій може просто інтуїтивно визначити, чи ви з ним розмовляєте. «Ця проблема значно складніша, ніж виявлення голосового тригера, — визнають дослідники, — оскільки може не бути початкової фрази тригера, яка позначає початок голосової команди». Можливо, тому інша група дослідників розробила систему для більш точного визначення слів для пробудження . Інша робота навчила модель краще розуміти рідкісні слова, які часто погано розуміють асистенти.

В обох випадках привабливість LLM полягає в тому, що він теоретично може обробляти набагато більше інформації набагато швидше. Наприклад, у статті про wake-word дослідники виявили, що, не намагаючись відкинути всі непотрібні звуки, а натомість передаючи все це в модель і дозволяючи їй обробляти те, що має, а що не має значення, wake-слово працювало набагато краще. надійно.

Коли Siri почує вас, Apple виконує багато роботи, щоб переконатися, що вона краще розуміє та спілкується. В одній статті було розроблено систему під назвою STEER (що розшифровується як Semantic Turn Extension-Expansion Recognition, тому ми будемо використовувати STEER), яка має на меті покращити ваше зворотне спілкування з помічником, намагаючись визначити, коли ви задаєте додаткове запитання та коли ви ставите нове. В іншому він використовує LLM, щоб краще розуміти «неоднозначні запити», щоб зрозуміти, що ви маєте на увазі, незалежно від того, як ви це говорите. «У невизначених обставинах, — писали вони, — розумним учасникам розмови може знадобитися проявити ініціативу, щоб зменшити свою невизначеність, заздалегідь ставлячи хороші запитання, тим самим ефективніше вирішуючи проблеми». Інша стаття також має на меті допомогти в цьому: дослідники використовували LLM, щоб зробити помічників менш багатослівними та більш зрозумілими, коли вони генерують відповіді.

Невдовзі ви зможете редагувати свої зображення, просто попросивши внести зміни. Зображення: Apple AI у здоров’ї, редактори зображень, у ваших Memojis

Щоразу, коли Apple публічно говорить про штучний інтелект, вона зосереджується менше на сирій технологічній потужності, а більше на повсякденних речах, які штучний інтелект може зробити для вас. Отже, попри те, що Siri приділяє велику увагу — особливо враховуючи те, що Apple намагається конкурувати з такими пристроями, як Humane AI Pin, Rabbit R1 і Google, що продовжує вбивати Gemini в усі Android, Apple, здається, бачить багато інших способів. ШІ корисний.

Одне з очевидних місць, на яких Apple зосереджується, — це здоров’я: LLM теоретично можуть допомогти пробратися крізь океани біометричних даних, зібраних різними пристроями, і допомогти вам зрозуміти все це. Отже, Apple досліджувала, як збирати та порівнювати всі ваші дані про рух, як використовувати розпізнавання ходи та ваші навушники, щоб ідентифікувати вас, і як відстежувати та розуміти дані про ваш пульс. Apple також створила та випустила «найбільший набір даних про людську активність на основі датчиків на кількох пристроях і локаціях», доступний після збору даних від 50 учасників за допомогою кількох датчиків на тілі.

Apple також, здається, уявляє ШІ як творчий інструмент. Для однієї статті дослідники опитали групу аніматорів, дизайнерів та інженерів і створили систему під назвою Keyframer , яка «дає змогу користувачам ітеративно створювати та вдосконалювати згенеровані проекти». Замість того, щоб вводити підказку й отримувати зображення, а потім вводити іншу підказку, щоб отримати інше зображення, ви починаєте з підказки, а потім отримуєте набір інструментів для налаштування та вдосконалення частин зображення на свій смак. Ви можете собі уявити, що цей різновид художнього процесу вперед-назад з’являється де завгодно, від творця Memoji до деяких більш професійних художніх інструментів Apple.

В іншій статті Apple описує інструмент під назвою MGIE, який дозволяє редагувати зображення, просто описуючи зміни, які ви хочете зробити. («Зробіть небо більш блакитним», «зробіть моє обличчя менш дивним», «додайте каміння» тощо.) «Замість коротких, але неоднозначних вказівок, MGIE виводить явні візуальні наміри та веде до розумного редагування зображень. ”, – пишуть дослідники. Його початкові експерименти не були ідеальними, але вони були дивовижними.

Можливо, ми навіть отримаємо штучний інтелект в Apple Music: у статті під назвою « Скасування голосу при стереоспіві з обмеженими ресурсами » дослідники досліджували способи відокремлення голосів від інструментів у піснях — це може стати в нагоді, якщо Apple хоче дати людям інструменти, скажімо, , реміксуйте пісні так, як ви можете в TikTok або Instagram.

У майбутньому Siri зможе розуміти ваш телефон і використовувати його замість вас. Зображення: Apple

Згодом я можу посперечатися, що це те, до чого Apple приверне увагу, особливо на iOS. Дещо з цього Apple вбудує у власні програми; деякі він пропонуватиме стороннім розробникам як API. (Остання функція журналювання пропозицій, мабуть, є гарним посібником щодо того, як це може працювати.) Apple завжди сурмила про свої апаратні можливості, особливо в порівнянні з вашим середнім пристроєм Android; Поєднання цієї потужності з вбудованим у пристрій штучним інтелектом, орієнтованим на конфіденційність, може стати великою відмінністю.

Але якщо ви хочете побачити найбільшу та найамбітнішу справу штучного інтелекту в Apple, вам потрібно знати про Ferret . Ferret — це мультимодальна велика мовна модель, яка може сприймати інструкції, зосереджуватися на чомусь конкретному, що ви обвели або іншим чином вибрали, і розуміти навколишній світ. Він розроблений для звичайного використання штучного інтелекту, коли запитує пристрій про навколишній світ, але він також може зрозуміти, що на вашому екрані. У статті Ferret дослідники показують, що це може допомогти вам орієнтуватися в програмах, відповісти на запитання про рейтинги App Store, описати те, що ви дивитеся, тощо. Це має справді захоплюючі наслідки для доступності, але також може повністю змінити те, як ви використовуєте свій телефон — і свого Vision Pro та/або розумні окуляри колись.

Тут ми значно випереджаємо себе, але ви можете собі уявити, як це буде працювати з деякими іншими речами, над якими працює Apple. Siri, яка може зрозуміти, що ви хочете, у поєднанні з пристроєм, який може бачити та розуміти все, що відбувається на вашому дисплеї, — це телефон, який може буквально використовувати сам себе. Apple не потребує глибокої інтеграції з усім; він міг просто запускати програми та автоматично натискати потрібні кнопки. 

Знову ж таки, все це лише дослідження, і щоб усе це добре запрацювало, починаючи з цієї весни, було б законно нечуваним технічним досягненням. (Я маю на увазі, що ви пробували чат-ботів — ви знаєте, що вони не чудові.) Але я б’юся об заклад, що на WWDC ми отримаємо серйозні оголошення про штучний інтелект. Генеральний директор Apple Тім Кук навіть дражнив це в лютому, і в основному пообіцяв це під час телефонної розмови про прибутки цього тижня. І дві речі дуже очевидні: Apple дуже активно бере участь у гонці ШІ, і це може означати повну переробку iPhone. Чорт, ти навіть можеш охоче почати використовувати Siri! І це було б неабияким досягненням.

internetua.com

Exit mobile version