За последний год мультимодальные большие языковые модели (MM-LLM) достигли существенного прогресса, дополняя существующие языковые модели (LLM) поддержкой мультимодальных входных данных или выходных результатов с помощью экономически эффективных стратегий обучения.
В результате получающиеся модели не только сохраняют присущие LLM свойства, такие как способность к рассуждениям и принятию решений, но и расширяют их применимость для различных мультимодальных задач.
Структурно MM-LLM обычно состоят из пяти компонентов:
- Кодировщики модальностей (изображения, видео, аудио и т.д.)
- Проекторы входных данных для выравнивания представлений разных модальностей
- Основа в виде LLM для семантического понимания и рассуждений
- Проекторы выходных данных для получения инструкций по генерации контента
- Генераторы контента различных модальностей
Обучение MM-LLM обычно проходит в два этапа:
- Мультимодальная предварительная тренировка на парах «модальность-текст»
- Тонкая настройка на мультимодальных наборах с инструкциями
За последний год было представлено более 25 моделей MM-LLM, каждая из которых отличается своей специфической архитектурой и масштабом используемых данных.
Среди ключевых тенденций развития MM-LLM можно отметить:
- Переход от понимания мультимодального контента к генерации контента в различных модальностях
- Расширение поддерживаемых модальностей
- Улучшение качества наборов данных
- Повышение эффективности архитектуры
MM-LLM демонстрируют впечатляющие результаты на различных бенчмарках зрительно-языковых задач. Дальнейшее развитие моделей идет в направлении поддержки большего числа модальностей, лучшего понимания намерений пользователей и повышения интерактивности.
MM-LLM — это аббревиатура для multimodal large language models, что в переводе на русский означает «мультимодальные большие языковые модели».
Основные характеристики MM-LLM:
- Основаны на больших языковых моделях (LLM), таких как GPT-3, которые хорошо показали себя в задачах обработки естественного языка.
- Помимо текста, также могут обрабатывать данные из других модальностей — изображения, аудио, видео и т.д. Отсюда и название «мультимодальные».
- За счет комбинирования разных типов данных, MM-LLM могут лучше понимать контекст, проводить логические рассуждения и генерировать более разнообразный и релевантный контент.
- Обучаются на огромных объемах мультимодальных данных, часто состоящих из миллиардов изображений и текстов.
- Могут быть использованы для широкого круга задач, требующих совместного анализа разных модальностей — например, для диалоговых систем, подбора изображений к текстам, автоматических описаний видео и т.д.
То есть если коротко, это мощные языковые модели нового поколения, которые благодаря мультимодальности обладают более совершенным контекстным пониманием и функциональностью.