AI4BIZ logo

Gemini 1.5, или как ИИ на миллион токенов от Google изменит нашу жизнь

Встречаем Gemini 1.5

За последний год компания Google достигла быстрого прогресса в разработке базовых моделей для искусственного интеллекта. После представления Gemini 1.0 и Gemini 1.0 Ultra в 2023 году, компания теперь выпускает Gemini 1.5 и делает резкий скачок вперед.

В основе Gemini 1.5 лежит ее прорывное окно контекста в миллион токенов. Используя эффективную архитектуру Mixture-of-Experts, модель может обрабатывать до 1 миллиона токенов за один раз по сравнению с 32 000 токенами для оригинальной Gemini. Это позволяет выполнять сложные рассуждения по огромным объемам текста, изображений, аудио, видео и других данных.

Что дает большое окно контекста

Большее окно контекста в 1 миллион токенов для модели Gemini 1.5 открывает следующие новые возможности:

  1. Возможность сложного рассуждения о больших объемах информации. Например, Gemini 1.5 Pro может проанализировать, классифицировать и резюмировать 402-страничные транскрипты миссии Аполлон-11 на Луну, рассуждая о разговорах, событиях и деталях по всему документу.
  2. Лучшее понимание и рассуждение с использованием разных типов данных, включая видео. Например, модель может проанализировать сюжетные повороты и события в 44-минутном немом фильме Бастера Китона.
  3. Более уместное решение проблем при работе с большими фрагментами кода. Модель может лучше рассуждать в примерах кода длиной более 100 000 строк, предлагать полезные модификации и объяснения о работе разных частей кода.
  4. «Обучение в контексте» — модель может учиться новым навыкам из информации, данной в длинном запросе, без дополнительной подстройки. Это позволяет Gemini 1.5 Pro решать задачи, которые раньше было сложно автоматизировать с помощью ИИ.

Таким образом, длинный контекст открывает новые горизонты для возможностей искусственного интеллекта.

Архитектура модели искусственного интеллекта Gemini 1.5 от Google

Gemini 1.5 построена на основе передовых исследований Google в области архитектур Transformer и Mixture-of-Experts (MoE). В то время как традиционный Transformer работает как одна большая нейронная сеть, модели MoE разделены на меньшие «экспертные» подсети.

В зависимости от типа входных данных, модели MoE обучаются выборочно активировать только наиболее релевантные экспертные пути в своей нейронной сети. Эта специализация резко повышает эффективность модели.

Последние инновации Google в архитектуре моделей позволяют Gemini 1.5 быстрее обучаться сложным задачам и поддерживать качество, при этом более эффективно масштабировать обучение и развертывание. Эти преимущества эффективности помогают командам Google быстрее итерировать, обучать и выпускать более продвинутые версии Gemini.

Таким образом, благодаря гибридной архитектуре MoE, Gemini 1.5 достигает значительно более высокой производительности и масштабируемости по сравнению с предыдущими моделями. Это открывает новые возможности для создания более полезных и «интеллектуальных» приложений на базе ИИ.

Различные версии Gemini 1.5

Первым воплощением поколения 1.5 является Gemini 1.5 Pro. Несмотря на то, что она намного меньше, чем 1.0 Ultra, тесты показывают, что она работает на сопоставимом уровне — анализируя 402-страничный транскрипт Apollo 11, понимая события в фильмах и решая сложные проблемы кодирования. Для полной миллионно-токенной версии по-прежнему оптимизируются задержка и скорость.

Модели Gemini прошли тщательную оценку безопасности, этики и потенциального вреда. Однако чрезвычайно длинное окно контекста требует новых методов тестирования. Ответственная разработка является основополагающим принципом принципов ИИ Google.

Доступность Gemini 1.5

Пока Gemini 1.5 Pro пока доступна в ограниченном предварительном просмотре для разработчиков через AI Studio и предприятий через Vertex AI. Стандартные цены будут начинаться с 128 000 токенов, масштабируясь до 1 миллиона токенов. Google привержена дальнейшему совершенствованию этой технологии и предоставлению ее преимуществ пользователям по всему миру.

Интерфейс Gemeni

Качество работы модели Gemini 1.5

По сравнению с предыдущей моделью Gemini 1.0, Gemini 1.5 демонстрирует значительно улучшенные показатели качества работы.

При тестировании на различных наборах данных для текста, кода, изображений, аудио и видео, Gemini 1.5 Pro показала более высокие результаты в 87% бенчмарков.

При сравнении с Gemini 1.0 Ultra на тех же тестовых наборах, производительность Gemini 1.5 Pro оказалась сопоставимой с самой большой предыдущей моделью. Это впечатляющий результат для относительно компактной архитектуры 1.5.

Кроме того, Gemini 1.5 Pro сохраняет высокое качество работы даже при увеличении размера окна контекста до 1 миллиона токенов. В тесте «Needle In A Haystack» модель находила вложенный текст с фактами внутри больших текстовых блоков в 99% случаев при размере контекста до 1 миллиона токенов.

Gemini 1.5 Pro также демонстрирует впечатляющие способности к «обучению в контексте». Например, она может научиться переводить с английского на экзотический язык Каламанг по предоставленному учебнику этого языка, не имея предварительных знаний о нём.

Новая архитектура Gemini 1.5 позволяет получить качественно новый уровень производительности и точности для моделей искусственного интеллекта. Это открывает путь к созданию ещё более полезных приложений ИИ.

По мере того, как технологии вроде Gemini развиваются такими быстрыми темпами, ИИ приближается к точке, когда он может быть глубоко полезен во многих реальных приложениях. Но успех требует неуклонного внимания к безопасности и ответственности наряду с инновациями. Google намерена лидировать в обоих направлениях.

P.S. Также смотрите анонс модели Gemeni от Google.

ChatGPT голос
Интеллектуальные чат-боты

Крупное обновление чат-бота OpenAI: ChatGPT теперь может «видеть, слышать и говорить»

Чат-бот ChatGPT от OpenAI получает значительное обновление, которое позволит этому популярному интеллектуальному чат-боту вести голосовые диалоги с пользователями и взаимодействовать с использованием изображений. 

Читать полностью »

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *