AI4BIZ logo

Уменьшение стоимости работы с GPT-4 моделями за счет компрессии запросов

Прорыв в области крупных языковых моделей

Крупные языковые модели (LLM), такие как GPT-4 и Claude, способны изучать новые задачи с помощью эффективного подхода к написанию запросов (prompt engineering). Однако использование слишком длинных запросов может привести к увеличению стоимости и снижению скорости этих моделей.

Технология LLMLingua от Microsoft представляет новое решение для сжатия запросов путем удаления несущественных их частей. Данный метод способен сокращать запросы до 20 раз без потери качества реакции модели. Если использовать LLMLingua грамотно, это может уменьшить затраты на работу с передовыми LLM и сделать их доступными для более широкого круга пользователей и приложений.

Затраты на подготовку запросов

Создание запросов является фундаментальным элементом при работе с LLM для практических задач. Техники, такие как цепочки рассуждений (chain-of-thought), обучение в контексте и интеграция связанных документов или исторических диалогов, важны для повышения эффективности моделей в выполнении определенных задач. Однако эти методы обычно требуют длинных запросов, которые иногда достигают тысячи токенов. Это может существенно увеличивать стоимость использования продвинутых моделей, особенно таких дорогих LLM, как GPT-4.

Существуют разные подходы к оптимизации моделей и снижению затрат, одним из таких направлений является использование врожденной избыточности естественного языка для сжатия запросов. Некоторые подходы осваивают специализированные токены посредством настройки запросов (prompt tuning) для уменьшения их количества при выводе.

Тем не менее, эти методы обычно специфичны для задач и могут потребовать тонкой настройки всей модели, что ограничивает их использование и делает несовместимыми с моделями, управляемыми через API, такими как ChatGPT.

Другие техники используют LLM для суммирования бесед, создавая концентрированные представления памяти и знаний. Но эти методы обычно включают в себя множественные дорогостоящие вызовы LLM.

Замечательный метод, Selective Context, использует более мелкую языковую модель для оценки информативности текстовых сегментов, удаляя менее информативное содержимое для сжатия запросов. Новейшая технология Microsoft построена на этом методе и усовершенствует его.

LLMLingua

LLMLingua — это новаторская методика, которая сжимает запросы с грубого уровня до более детализированного. Она состоит из нескольких компонентов.

Первый компонент, «контроллер бюджета», динамически распределяет разные уровни сжатия элементам исходного запроса, таким как инструкция, примеры и вопрос. Основная идея состоит в том, что инструкции и вопросы обычно имеют более прямое влияние на получаемый результат, поскольку они содержат необходимые знания, нужные модели для формулировки ответа. В то же время, когда запрос содержит несколько примеров, информация может быть повторяющейся. Следовательно, контроллер бюджета выделяет больший бюджет — т.е. меньшие коэффициенты сжатия—для инструкций и вопросов, в то время как для примеров выделяется меньший бюджет.

LLMLingua использует более мелкую языковую модель, такую как GPT-2 или LLaMA, для управления этим распределением. Эта модель вычисляет перплексию для каждого примера, что служит показателем релевантности текста для ответа модели. LLMLingua затем отдает предпочтение примерам с самыми высокими значениями перплексии и включает их в запрос, пока не будет исчерпан бюджет на примеры. Оставшийся бюджет распределяется на корректировку инструкции и вопроса.

Второй компонент LLMLingua — это алгоритм итеративного сжатия запросов на уровне токенов (ITPC), который позволяет более детальное сжатие. ITPC начинается с сегментации запроса, а затем использует мелкую модель для определения распределения перплексии по этим сегментам. Алгоритм затем создает сжатый запрос, сохраняющий токены с высокой перплексией, чтобы важная информация не терялась, учитывая условные зависимости между токенами.

Третья часть включает в себя метод настройки инструкций, который синхронизирует паттерны распределения большой и малой языковых моделей. Этот процесс начинается с использованием предварительно обученной малой языковой модели, которая затем тонко настраивается с использованием данных, сгенерированных более крупной LLM. Благодаря настройке инструкций поведение мелкой модели теснее соответствует поведению большой модели, что улучшает общий процесс сжатия.

Тестирование LLMLingua

В своих экспериментах исследователи использовали GPT-3.5 Turbo и Claude 1.3 в качестве основных LLM и Alpaca-7B или GPT2-Alpaca для задач сжатия. Они протестировали LLMLingua в различных бенчмарках, включая GSM8k и BBH для рассуждений и обучения в контексте, а также ShareGPT и Arxiv-March23 для понимания контекстуальных бесед и задач суммирования соответственно.

«Предложенный нами метод последовательно превосходит предыдущие методы с большим отрывом практически во всех экспериментах», — сообщают исследователи.

В бенчмарках по рассуждению и обучению в контексте GSM8K и BBH LLMLingua не только показала более высокие результаты по сравнению с полным запросом (full-shot approach), но и достигла выдающихся коэффициентов сжатия в 5 раз и 3 раза.

«Это ясно демонстрирует, что наши сжатые запросы эффективно сохраняют информацию для рассуждений, содержащуюся в исходном запросе», — пишут исследователи.

На бенчмарках по пониманию контекста на ShareGPT и Arxiv-March23 LLMLingua сжимает запросы в 9 раз и 3,3 раза. Это указывает на то, что LLMLingua сохраняет семантическую целостность исходных запросов в процессе их сжатия. Кроме того, LLMLingua превзошла другие методы сжатия запросов как в точности, так и в степени сжатия. В некоторых случаях достигнуто сжатие исходного запроса до 20 раз.

Несмотря на сложность, связанную с многоэтапностью и использованием двух моделей, LLMLingua удалось ускорить процесс от 1,7 до 5,7 раз с минимальным вычислительным накладным расходом.

«Наш подход имеет существенные практические последствия, так как он не только снижает вычислительные затраты, но также предлагает потенциальное решение для работы с более длинными контекстами в LLM», — утверждают исследователи.

Для обеспечения более широкого распространения Microsoft сделала LLMLingua доступной через легко используемую библиотеку с открытым исходным кодом. Разработчики могут использовать эту библиотеку для интеграции LLMLingua в свои собственные приложения.

Midjourney_v6
Генеративные модели

Midjourney запускает версию 6

Команда разработчиков предоставила сообществу возможность тестирования альфа-версии новой модели Midjourney v6. Новый возможности включают Гораздо более точное следование командам пользователя, поддержка более длинных промптов, улучшенная связность и знания модели, возможность рисования текста, улучшенные апскейлеры и многое другое.

Читать полностью »
ИИ Microsoft copilot пишет музыку
ИИ-сервисы

Microsoft Copilot приобретает возможность создания музыки благодаря интеграции с приложением Suno

Чат-бот от Microsoft, работающий на базе искусственного интеллекта — Microsoft Copilot, теперь способен сочинять песни благодаря объединению с музыкальным приложением Suno, управляемым GenAI.

Читать полностью »

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *