AI4BIZ logo

OpenAI объявляет о запуске новых моделей ИИ и продуктов для разработчиков

На мероприятии DevDay компания OpenAI представила несколько важных новых моделей ИИ и инструментов для разработчиков. Эти новые решения значительно расширяют возможности ИИ и делают его более доступным для создателей программного обеспечения.

Среди ключевых объявлений — запуск модели GPT-4, которая является преемником популярной модели GPT-3. GPT-4 демонстрирует значительно более глубокое понимание контекста и смысла. Она может писать код, отвечать на вопросы, генерировать изображения и многое другое.

Другим важным релизом стала Whisper — система для распознавания и синтеза речи. Whisper обучена на огромном количестве данных и достигает почти человеческого качества. Это открывает новые горизонты для голосовых приложений.

Кроме того, OpenAI выпустила инструмент под названием Image Synthesis API для простого создания изображений с помощью ИИ. Разработчики могут встраивать генерацию картинок напрямую в свои приложения.

В дополнение к этим моделям, компания также представила Codex 2 — обновлённую версию своего инструмента для автоматизированного написания кода на основе естественного языка запросов.

В целом, эти новые продукты значительно расширяют возможности ИИ, в особенности чат-бота ChatGPT, предоставляя разработчикам мощные инструменты для создания следующего поколения интеллектуальных приложений. Благодаря OpenAI теперь легче, чем когда-либо, встраивать возможности ИИ в программное обеспечение.

Это только начало — компания обещает и дальше расширять доступ к своим моделям для создателей технологий. Можно ожидать множества инновационных продуктов, использующих ИИ, в ближайшие месяцы и годы.

GPT-4 Turbo с контекстом в 128 тысяч слов

GPT-4 Turbo с контекстом в 128 тысяч слов — это один из вариантов новой модели языкового ИИ от OpenAI, который имеет значительно расширенные возможности по сравнению с предыдущей моделью GPT-3.

В частности, 128K контекст означает, что во время генерации текста эта модель теперь обладает «памятью» в 128 тысяч слов предшествующего текста. То есть она может опираться на информацию из 128 тысяч слов, чтобы понимать контекст и генерировать логичное продолжение.

Благодаря такой существенно большей памяти, GPT-4 Turbo демонстрирует гораздо лучшее восприятие контекста, смысла и семантических связей в тексте по сравнению с GPT-3.

Что ещё важнее — модель смогла обучиться на гигантских объёмах данных, во много раз больших, чем GPT-3. Именно обучение на таких огромных данных позволяет достичь качественно нового уровня языкового понимания.

Соотвественно, GPT-4 Turbo гораздо лучше справляется с творческим письмом, ответами на вопросы, объяснением концепций, написанием кода — практически со всеми задачами, связанными со сложной работой с языком и текстами.

По сравнению с человеком, пока нельзя сказать, что модель полностью эквивалентна в понимании смыслов. Но она всё же значительно ближе к человеческим способностям, чем любые предыдущие модели ИИ.

Таким образом, благодаря своим расширенным возможностям, GPT-4 Turbo открывает потенциал для множества новых приложений ИИ, которые раньше было сложно или невозможно реализовать в полной мере. Это значительный шаг в развитии ИИ.

GPT-3.5 Turbo

GPT-3.5 Turbo — это мощное обновление флагманской модели ИИ для обработки естественного языка от компании OpenAI. Эта модель демонстрирует существенный прогресс в понимании и генерации человеческой речи и текстов.

В частности, в GPT-3.5 Turbo используются технологии, позволяющие модели впитывать беспрецедентные объемы текстовых данных для машинного обучения. Речь идет о сотнях триллионов слов!

Обучаясь на таком гигантском корпусе данных, нейросеть способна гораздо лучше понимать нюансы человеческого языка, контекст и смысл написанного. Это повышает качество генерируемого моделью текста.

Дополнительно, инженеры OpenAI усовершенствовали архитектуру модели таким образом, чтобы она могла лучше обобщать знания из обучающей выборки и применять их для решения совершенно новых задач.

В итоге, по сравнению с предыдущей версией GPT-3, новая GPT-3.5 Turbo демонстрирует существенные улучшения практически во всех областях, связанных с текстами — будь то написание статей, поэзии и прозы, ответы на вопросы, решение математических задач, написание программного кода и т.д.

При этом модель стала намного более эффективной в плане вычислительных ресурсов для обучения и работы. Это позволит сделать такой мощный ИИ доступнее для широкого круга разработчиков приложений.

Без сомнения, GPT-3.5 Turbo — это качественно новая веха в развитии искусственного интеллекта, способного все глубже понимать и порождать человеческий язык и речь.

Assistants API, Retrieval API и интерпретатор кода

Одним из ключевых объявлений на DevDay от OpenAI стал запуск набора новых инструментов для разработчиков под общим названием Assistants API (Интерфейс программирования помощников). Эти инструменты призваны упростить создание «интеллектуальных помощников» на основе возможностей ИИ компании.

Во-первых, это Retrieval API — программный интерфейс для мгновенного поиска нужной информации в огромных массивах текстов и данных. Это позволит приложениям находить релевантную информацию в интернете или корпоративных хранилищах по запросу пользователя, чтобы предоставить точный ответ.

Во-вторых, Code Interpreter — система для интерпретации и выполнения фрагментов кода на десятках популярных языков программирования. Разработчики смогут встраивать возможность понимания и выполнения кода в свои приложения.

И наконец, Assistants API объединяет все эти инструменты в единый интерфейс для создания «виртуальных ассистентов». Разработчики получат набор готовых блоков для реализации сложного диалога с пользователем на естественном языке, понимания контекста, поиска информации и выполнения действий.

Такие помощники на основе ИИ смогут, например, предоставлять персонализированную поддержку клиентам, обрабатывать текстовые, голосовые или визуальные запросы, находить нужную информацию в базах знаний и выполнять различные действия — без необходимости сложного программирования со стороны разработчика.

Это значительно расширит возможности по созданию «интеллектуальных» приложений с помощью технологий ИИ от OpenAI. Многие задачи станут гораздо проще реализуемыми для программистов в самых разных областях.

Поддержка новых модальностей

Одним из важных объявлений на мероприятии DevDay стала поддержка новых модальностей (типов данных) в интерфейсах программирования приложений (API) от OpenAI.

В частности, теперь API поддерживают не только текст, но и изображения, аудио, видео и даже физические действия в виртуальной среде.

Например, новый Image API позволяет разработчикам легко интегрировать возможности ИИ по генерации реалистичных изображений напрямую в свои приложения. Просто вставив несколько строк кода, можно создавать уникальные картинки на основе текстовых описаний.

Другой пример — поддержка большого набора естественных языков в Speech API для распознавания и синтеза речи. Раньше работала только английская речь, теперь же доступно более 15 языков.

Кроме того, Code API теперь поддерживает автоматическое написание кода сразу на десятках языков программирования вместо одного-двух ранее.

Всё это существенно расширяет горизонты разработчиков в использовании ИИ в своих приложениях. Новые API упрощают создание «интеллектуальных» функций для манипулирования изображениями, звуком, видео, физическими действиями в виртуальной реальности и т.д.

Благодаря этой многомодальной поддержке, ИИ от OpenAI становится более универсальным. Теперь машинное обучение может применяться к растущему числу типов данных и задач за пределами одного лишь текста. Это открывает огромные перспективы для развития искусственного интеллекта.

Кастомизация моделей

Модель GPT-3.5 Turbo — это мощная базовая нейросеть от OpenAI для работы с естественным языком. Но что если адаптировать её под конкретные потребности клиента? Теперь это возможно благодаря инструментам для кастомизации моделей.

Во-первых, API Fine-Tuning (Точная настройка) позволяет разработчикам немного дополнительно обучить (fine-tune) базовую модель на собственных текстовых данных заказчика из специфической предметной области.

Например, на юридических документах и кейсах, если нужен помощник в области права. Такая дополнительная настройка позволяет адаптировать ИИ к особой терминологии, логике и контексту задач клиента.

Во-вторых, Chain of Thought API дает возможность встраивать в ответы ИИ промежуточные фрагменты рассуждений — «цепочку мыслей», приводящую к ответу. Таким образом можно прозрачно объяснить процесс решения задачи для клиента.

Это повышает доверие и интерпретируемость результатов работы ИИ при решении различных прикладных задач.

Такие инструменты позволяют гибко настраивать общие модели под нужды конкретных клиентов. Компании и разработчики могут получить высокоточный и понятный ИИ для автоматизации критических бизнес-процессов. Это открывает широкие горизонты для прикладного ИИ.

Новые цены и лимиты на доступ к моделям OpenAI

OpenAI объявила об улучшениях в ценообразовании и лимитах использования для своих моделей ИИ в рамках презентации на DevDay. Главная цель — сделать передовые возможности ИИ более доступными для разработчиков и бизнесов.

В частности, с января 2023 года компания переходит на гибкую систему ценообразования для доступа к API на базе так называемых «кредитных» токенов.

Клиенты смогут выбирать один из тарифных планов с фиксированным количеством токенов в месяц. Каждый запрос к API будет стоить некоторое количество токенов в зависимости от сложности. Если токены закончатся, можно будет докупить дополнительные.

Помимо этого, стоимость токенов снижается по мере увеличения объёма потребления. Таким образом, чем больше клиент использует ИИ, тем выгоднее для него цена за каждый запрос.

Кроме того, с января значительно повышаются бесплатные лимиты использования моделей. Теперь вместо пары тысяч запросов в месяц можно будет сделать до 500 тысяч запросов абсолютно бесплатно.

Всё это должно серьёзно улучшить экономику применения ИИ для бизнесов и стартапов. Передовые модели OpenAI станут более выгодными и доступными для широкого внедрения в продукты и сервисы. Это ускорит появление новых «интеллектуальных» решений во многих отраслях.

Whisper v3

Whisper — это революционная система распознавания и синтеза речи, созданная компанией OpenAI. На мероприятии DevDay была анонсирована новейшая версия Whisper v3 с рядом значительных улучшений.

Во-первых, качество распознавания речи теперь сопоставимо с человеческим уровнем для широкого спектра языков и акцентов. Модель точно распознаёт даже быструю, нечеткую и «сбивчивую» речь.

Во-вторых, Whisper v3 демонстрирует огромный прогресс в естественности и разборчивости синтезированной речи. Благодаря новым алгоритмам голосовые ответы ИИ звучат как живая человеческая речь и при этом абсолютно понятны.

Кроме того, новая Whisper работает практически в режиме реального времени. Распознавание и синтез происходят мгновенно, позволяя создавать приложения со сложным голосовым интерфейсом.

На базе Whisper теперь можно легко разрабатывать «разговаривающие» чат-боты, виртуальных помощников, системы автоматизации колл-центров, приложения для людей с проблемами речи и многое другое.

При этом доступ к новой Whisper значительно упрощается. Есть гибкие варианты интеграции, выгодное ценообразование и высокие лимиты использования.

Таким образом, Whisper v3 расширяет горизонты разработки голосовых приложений с помощью ИИ. Технологии распознавания и синтеза речи от OpenAI теперь проще интегрировать в самые разные продукты и сервисы.

grok
Интеллектуальные чат-боты

Запуск чат-бота Grok от Илона Маска

Grok — это чат-бот с генеративным искусственным интеллектом, разработанный компанией xAI на основе большой языковой модели. Он был создан по инициативе Илона Маска в ответ на появление ChatGPT от OpenAI. Чат-бот Grok вдохновлен «Автостопом по галактике» и разработан для ответов на «острые» вопросы с использованием юмора и сарказма.

Читать полностью »

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *