Исследования

Мультимодальные большие языковые модели: последние достижения

12 января, 2024

LLM, MM-LLM

За последний год мультимодальные большие языковые модели (MM-LLM) достигли существенного прогресса, дополняя существующие языковые модели (LLM) поддержкой мультимодальных входных данных или выходных результатов с помощью экономически эффективных стратегий обучения.

В результате получающиеся модели не только сохраняют присущие LLM свойства, такие как способность к рассуждениям и принятию решений, но и расширяют их применимость для различных мультимодальных задач.

Структурно MM-LLM обычно состоят из пяти компонентов:

Кодировщики модальностей (изображения, видео, аудио и т.д.)
Проекторы входных данных для выравнивания представлений разных модальностей
Основа в виде LLM для семантического понимания и рассуждений
Проекторы выходных данных для получения инструкций по генерации контента
Генераторы контента различных модальностей

Обучение MM-LLM обычно проходит в два этапа:

Мультимодальная предварительная тренировка на парах «модальность-текст»
Тонкая настройка на мультимодальных наборах с инструкциями

За последний год было представлено более 25 моделей MM-LLM, каждая из которых отличается своей специфической архитектурой и масштабом используемых данных.

Среди ключевых тенденций развития MM-LLM можно отметить:

Переход от понимания мультимодального контента к генерации контента в различных модальностях
Расширение поддерживаемых модальностей
Улучшение качества наборов данных
Повышение эффективности архитектуры

MM-LLM демонстрируют впечатляющие результаты на различных бенчмарках зрительно-языковых задач. Дальнейшее развитие моделей идет в направлении поддержки большего числа модальностей, лучшего понимания намерений пользователей и повышения интерактивности.

MM-LLM — это аббревиатура для multimodal large language models, что в переводе на русский означает «мультимодальные большие языковые модели».

Основные характеристики MM-LLM:

Основаны на больших языковых моделях (LLM), таких как GPT-3, которые хорошо показали себя в задачах обработки естественного языка.
Помимо текста, также могут обрабатывать данные из других модальностей — изображения, аудио, видео и т.д. Отсюда и название «мультимодальные».
За счет комбинирования разных типов данных, MM-LLM могут лучше понимать контекст, проводить логические рассуждения и генерировать более разнообразный и релевантный контент.
Обучаются на огромных объемах мультимодальных данных, часто состоящих из миллиардов изображений и текстов.
Могут быть использованы для широкого круга задач, требующих совместного анализа разных модальностей — например, для диалоговых систем, подбора изображений к текстам, автоматических описаний видео и т.д.

То есть если коротко, это мощные языковые модели нового поколения, которые благодаря мультимодальности обладают более совершенным контекстным пониманием и функциональностью.

Интеллектуальные чат-боты

Чат-бот с искусственным интеллектом от Google

Google запустила и начала тестирование своего собственного интеллектуального чат-бота, который получил название Bard. В настоящий момент к тестированию допущены только сотрудники компании Google.

Читать полностью »

07.02.2023

ИИ-сервисы

Google запустила Duet AI для генерации кода

Компания Google запустила своего конкурента GitHub Copilot, который скоро будет использовать модель Gemini. Duet AI в настоящее время уже поддерживает более 20 языков программирования, включая C, C++, Java, JavaScript и Python.

Читать полностью »

15.12.2023