科技

OpenAI выпускает гиперреалистичный голос ChatGPT для некоторых платящих пользователей

WMNASaturday, August 10 2024

OpenAI начала поэтапное внедрение Расширенного голосового режима ChatGPT во вторник, предоставляя пользователям первый доступ к гиперреалистичным аудиоответам GPT-4o. Альфа-версия будет доступна сегодня небольшой группе пользователей ChatGPT Plus, и OpenAI говорит, что возможность постепенно распространится на всех пользователей Plus осенью 2024 года.

Когда OpenAI впервые показала голос GPT-4o в мае, функция поразила аудиторию быстрыми ответами и поразительным сходством с голосом настоящего человека - в частности. Голос, Sky, напоминал голос актрисы Скарлетт Йоханссон, стоявшей за искусственным ассистентом в фильме «Она». Немного позже после демонстрации OpenAI, Йоханссон заявила, что отказалась от нескольких запросов ГПД Сэма Альтмана на использование своего голоса, и, посмотрев демонстрацию GPT-4o, наняла юридического консультанта для защиты своего образа. OpenAI отрицала использование голоса Йоханссон, но позже убрала показанный в демонстрации голос. В июне OpenAI сообщила, что отложит выпуск Расширенного голосового режима для улучшения мер безопасности.

Через месяц и ожидание окончено (в каком-то смысле). OpenAI сообщает, что способности к видео и обмену экраном, показанные во время весеннего обновления, не будут включены в эту альфа-версию и будут запущены в «позднем сроке». Пока что демонстрационный материал GPT-4o, который поразил всех, остается всего лишь демонстрацией, но некоторым премиум-пользователям теперь будет доступна функция голоса ChatGPT, показанной там.

ChatGPT теперь может говорить и слушать

Возможно, вы уже пробовали режим голоса, который в настоящее время доступен в ChatGPT, но OpenAI говорит, что Расширенный голосовой режим другой. Прежнее решение ChatGPT для аудио использовало три отдельные модели: одну для преобразования вашего голоса в текст, GPT-4 для обработки вашего запроса, а затем третью для преобразования текста ChatGPT в голос. Но GPT-4o является мультимодальным, способным выполнять эти задачи без помощи дополнительных моделей, создавая значительно меньшую задержку в разговорах. Кроме того, OpenAI утверждает, что GPT-4o может чувствовать эмоциональные интонации в вашем голосе, включая печаль, волнение или пение.

В этом пилотном проекте пользователи ChatGPT Plus смогут увидеть своими глазами, насколько гиперреалистичен Расширенный голосовой режим OpenAI. TechCrunch не смог проверить функцию до публикации этой статьи, но мы протестируем ее, когда получим доступ.

OpenAI говорит, что выпускает новый голос ChatGPT постепенно, чтобы тщательно контролировать его использование. Люди из альфа-группы получат оповещение в приложении ChatGPT, а затем электронное письмо с инструкциями по использованию.

За период с демонстрации OpenAI компания говорит, что тестировала голосовые возможности GPT-4o более чем с 100 внешними красными командами, говорящими на 45 различных языках. OpenAI говорит, что отчет об этих мерах безопасности будет представлен в начале августа.

Компания говорит, что Расширенный голосовой режим будет ограничен четырьмя предустановленными голосами ChatGPT - Juniper, Breeze, Cove и Ember - созданными в сотрудничестве с платными озвучивающими актерами. Голос Sky, показанный в мае на демонстрации OpenAI, больше не доступен в ChatGPT. Представитель OpenAI Линдсей МакКаллум говорит: «ChatGPT не может подражать голосам других людей, как частных лиц, так и общественных деятелей, и будет блокировать результаты, которые отличаются от одного из этих предустановленных голосов».

OpenAI пытается избежать контроверзий с глубокими фейками. В январе технология клонирования голоса стартапа ElevenLabs использовалась для подражания президенту Байдену, обманывая первичных избирателей в Нью-Гэмпшире.

OpenAI также говорит, что введены новые фильтры для блокирования определенных запросов на создание музыки или другого защищенного авторским правом аудио. За последний год компании по искусственному интеллекту оказались в правовых затруднениях из-за нарушения авторских прав, и аудиомодели, такие как GPT-4o, создают целый новый круг компаний, которые могут подать жалобу. В частности, звукозаписывающие компании, которые имеют историю быть судебно разбирательствами, и уже судились с генераторами песен на ИИ Suno и Udio.

WMNA November 11, 2022

ChatGPT теперь может говорить и слушать

WMNA

Statter Network Creates a Special SPoW Mechanism to Promote Metaverse Innovation

Police Hackers Blackmailing Medibank | Silicon UK Tech News

Related Articles

Стример Plex запускает свой давно обещанный магазин проката фильмов

Cherub, общество ангелов инвесторов, вдохновленное приложениями для знакомств, привлекает инвесторов и основателей для совместной работы

Компания Lucid теряет директора по программному обеспечению, бывшего сотрудника Apple и Intel, который руководил отделом программного обеспечения

Акции сегодня: Уолл-стрит к краю рекордов в надеждах на снижение ставок

Новый умный холодильник для кормления мокрым кормом от Petlibro - то, что заслуживает ваша кошка

Индия, вероятно, отложит рыночные ограничения UPI в пользу дуополии PhonePe-Google Pay