Google випустив оновлення для кількох своїх власних моделей штучного інтелекту для створення медіафайлів, доступних через хмарну платформу Vertex AI.
Lyria , модель Google для перетворення тексту в музику, тепер доступна в попередній версії для вибраних клієнтів, а модель компанії для створення відео Veo 2 була вдосконалена новими параметрами редагування та налаштування візуальних ефектів. Компанія також запустила функцію клонування голосу на базі Chirp 3 , моделі розуміння аудіо від Google, для користувачів із «дозволеного списку». А генератор зображень Imagen 3 тепер забезпечує, як компанія описує, «значно» кращу продуктивність.
Оновлення, приурочені до Cloud Next, є останнім поштовхом Google, щоб завоювати корпоративний ринок генеративного ШІ. Компанія, мабуть, найбільше конкурує з Amazon, яка пропонує порівнянну хмарну платформу ШІ під назвою Bedrock із власним набором власних генеративних моделей ШІ.
Google пропонує Lyria як альтернативу безкоштовним музичним бібліотекам. Використовуючи модель, клієнти можуть створювати пісні в різних стилях і жанрах, від джазових фортепіанних соло до lo-fi треків, повідомила компанія.
Тим часом Chirp 3 може синтезувати мову приблизно 35 мовами. Вперше представлений на початку цього року, Chirp 3 керує Instant Custom Voice, який нібито може клонувати голос із 10 секундами аудіо. Тепер це загальнодоступно. Ця модель також лежить в основі нового інструменту, що запускається в попередньому перегляді, під назвою «Транскрипція з діаризацією», який розділяє та ідентифікує мовців у записах із кількома учасниками.
Щоб запобігти зловживанням, Instant Custom Voice підлягає процесу «ретельної перевірки», щоб перевірити «належні дозволи на використання голосу», каже Google.
Що стосується Veo 2, модель тепер може видаляти фонові зображення, логотипи та об’єкти з наявних відео, а також розширювати кадр відеоматеріалу (наприклад, перетворювати альбомне відео в портретне). Тепер він також може регулювати кути камери та темп у сценах, згенерованих штучним інтелектом, для створення інтервалів, кліпів у стилі дронів тощо, а також може інтерполювати між вказаними початковим і кінцевим кадрами.
Ці функції Veo наразі доступні в попередній версії.
Що стосується вищезгаданих оновлень Imagen 3, Google сказав, що вони покращують здатність моделі видаляти об’єкти та реконструювати відсутні або пошкоджені частини зображень.
Усі медіафайли, створені Imagen, Veo та Lyria (але не Chirp), мають водяні знаки за допомогою технології Google SynthID . Компанія заявила, що всі її генеративні моделі ШІ мають «вбудовані засоби захисту» для захисту від створення шкідливого контенту.
Історично Google не вказував, які конкретні дані він використовує для навчання своїх моделей, і сьогодні технологічний гігант дотримується цього прецеденту. Навчальні дані, як правило, є суперечливим питанням через причини, пов’язані з IP. Деякі фірми навчають своїх моделей на роботах, захищених авторським правом, без попереднього отримання дозволу від власників прав. Хоча ці компанії стверджують, що доктрина добросовісного використання США захищає цю практику, деякі творці, зрозуміло, не погоджуються з цим. Багато хто бореться з продавцями в суді .
Раніше Google повідомляв TechCrunch, що пропонує механізми відмови від навчання моделей, а також політику відшкодування, щоб захистити клієнтів Google Cloud і Vertex AI від суперечок щодо авторських прав, пов’язаних із штучним інтелектом.
No Comment! Be the first one.