В мае 2024 года компания OpenAI разработала новую версию ИИ на базе GPT-4. GPT-4 Omni (GPT-4o) — революционное обновление, которое, по словам некоторых экспертов, разделит историю развития технологий искусственного интеллекта на до и после. Новая нейросеть понимает голос, эмоции людей и способна имитировать их.
В этой статье разобрали, что умеет GPT-4o и в чем новая версия ИИ отличается от GPT-4 и GPT-3.
Кратко о GPT-4o
GPT-4o — наиболее продвинутая модель в линейке OpenAI. Нейросеть работает в 2 раза быстрее стандартного GPT-4, а также имеет возможность отвечать на голосовые сообщения. Разработчики презентовали новую нейросеть и показали, как она справляется с ранее невозможными задачами и как ведет себя. ИИ решил уравнения, написанные от руки. При этом он шутил и даже спел короткую песню.
Стоит отметить, что GPT-4o будет доступен всем пользователям. Разница между платной и бесплатной подпиской заключается только в количестве запросов. Пользователям уже доступны такие опции, как:
- Ответы на вопросы с использованием собственных данных ИИ и информации из интернета.
- Анализ изображений.
- Работа с файлами.
- Улучшенная память.
В будущем разработчики будут расширять возможности искусственного интеллекта, особенно в плане анализа данных.
Функции GPT-4o
Разработчики в GPT-4o улучшили все возможности GPT-4 и добавили ряд новых. Основные функции последней версии ИИ:
- Продвинутый голосовой ассистент. Он распознает речь пользователя и может поддерживать диалоги в реальном времени. При этом диалог стал более естественным и «живым», поскольку разработчики смогли сократить время реагирования на запрос до 0,3 секунды. Кроме того, нужно отметить качество синтеза голоса. В OpenAI сделали речь более человечной. Нейросеть отвечает не роботизированным голосом, а выражает определенные эмоции, меняет интонации в зависимости от диалога и даже смеется.
- Распознавание видео и изображений. GPT-4o имеет улучшенные алгоритмы анализа и интерпретации визуальных данных. Она обнаруживает объекты, определяет действия и сцены в роликах. К примеру, во время теста ИИ смог выделить разных спикеров, выступающих на конференции. Отметим, что предыдущие версии ИИ могут работать только со статичными картинками и справляются только с простыми задачами.
- Мультимодальность. Языковая модель поддерживает любые комбинации текстовых данных, изображений и аудио. Она работает по методу end-to-end, т.е. все виды информации обрабатываются одной нейросетью и анализирует их в комплексе.
- Расширенное контекстное меню. На официальной презентации ИИ поддерживал диалог с пользователем в течение 7 минут. Кроме того, разработчик опубликовал на сайте пример сгенерированного пересказа ролика на 40 минут.
- Генерация изображений. Разработчики улучшили алгоритмы генерации картинок. Количество артефактов стало меньше, даже при создании сложных 3D-моделей.
Отличия GPT-4 Omni от GPT-4 и GPT-3
Новая модель превосходит базовую версию нейросети по всем аспектам, особенно в программировании и переводе текста на разные языки. Запустив GPT-4 Omni, вы сразу почувствуете разницу, поскольку искусственный интеллект стал быстрее и «живее».
Мы задали вопрос GPT-4, чтобы нейросеть сама объяснила различия. Она сравнила обе модели. Особенности GPT-4 Turbo:
- Контекстное окно. Нейросеть поддерживает окно до 128 000 токенов, т.е. пользователь за раз может обработать до 300 страниц текста.
- Обновление знаний. ИИ не имеет подключения к интернету, поэтому база данных пополняется пользователями и разработчиками. Последний раз разработчики добавляли информацию в базу в апреле 2023 года. Из-за этого ИИ не может общаться на актуальные темы (например, обсуждать новости), поскольку не обладает нужными данными.
- Функции. GPT-4 Turbo имеет улучшенную функцию вызова и режим JSON для получения правильных выходных данных. Это важно при выполнении задач, требующих генерации информации в определенном формате.
Особенности GPT-4o (Omni):
- Универсальность. В отличие от предыдущих версий и поколений ИИ, новая модель способна работать с любыми типами данных.
- Интеграции. GPT-4o имеет функции для загрузки документов, скриншотов, а также использования встроенной памяти для продолжения длинных разговоров. Кроме того, нейросеть способна искать информацию в открытых источниках.
- Производительность. Нейросеть справляется с обработкой данных в 2 раза быстрее предыдущих версий.
Хотя GPT-4o превосходит GPT-4 Turbo по ряду параметров, нужно учитывать, что у них немного разный фокус. GPT-4 Turbo создавался для обработки Big Data с максимальной скоростью, поэтому он медленнее реагирует на запросы, но быстрее решает задачи, связанные с анализом данных. GPT-4o предлагает пользователю более интегрированный опыт взаимодействия. Новая модель поддерживает больше типов данных, может отвечать голосом и принимает аудио запросы.
Кроме того, стоит отметить, что GPT-4o лучше справляется с переводом текста и аудио на различные языки. Сейчас нейросеть способна общаться на 50 языках, включая русский. Она поддерживает их как на входе, так и на выходе. Это означает, что пользователь может задать вопрос на одном языке и получить ответ на другом.
Продвинутые возможности перевода стали причиной дискуссии в сообществе переводчиков. Возникли опасения, что GPT-4o может стать полноценным решением для синхронного перевода, т.е. люди смогут общаться друг с другом без знания языка. ИИ может выполнять перевод в моменте речи с задержкой не более 0,3 секунды.
Стоимость GPT-4o
Еще одна особенность новой языковой модели — цена. Несмотря на то что разработчики расширяют возможности своих продуктов, они стабильно снижают их стоимость. К примеру, пользователи платят 36 долларов за 1 миллион токенов для GPT-4, за GPT-4 Turbo — 14 долларов, а за GPT-4o — всего 7 долларов.
Кроме того, нужно отметить, что разработчики оптимизировали токенизатор. Он лучше «сжимает» вход, поэтому пользователи тратят меньше токенов для обработки промпта. К примеру, запросы на русском языке стали в 3,5 раза дешевле.
Я уже могу попробовать GPT-4o?
Да, но пока не все. Разработчики из OpenAI уже открыли доступ к нейросети. Однако не все ее возможности доступны пользователям. Сторонние разработчики могут интегрировать языковую модель в свои проекты по API, а обычные пользователи — попробовать сгенерировать и перевести текст.
Пока OpenAI еще тестирует ряд продвинутых функций, например, анализ видео. Поэтому они доступны только ограниченным группам пользователей. Предполагается, что все возможности GPT-4o станут доступны ближе к концу 2024 года.
Заключение
GPT-4o — новый виток развития технологий искусственного интеллекта. Разработчики из OpenAI стремятся создать универсальное решение, которое сможет справиться с любой задачей, и при этом будет поддерживать диалог с пользователем, как реальный человек. Поэтому одно из ключевых направлений развития ИИ — это качество и человечность ответов. Пока еще не все возможности GPT-4o доступны пользователям, но вы уже можете познакомиться с новой версией GPT-4.