Генеративные модели

Уменьшение стоимости работы с GPT-4 моделями за счет компрессии запросов

22 декабря, 2023

Alpaca-7B, BBH, ChatGPT, Claude, GPT-2, GPT-3.5, GPT-4, GPT2-Alpaca, GSM8k, LLaMA, LLM, LLMLingua, Microsoft, ShareGPT

Прорыв в области крупных языковых моделей

Крупные языковые модели (LLM), такие как GPT-4 и Claude, способны изучать новые задачи с помощью эффективного подхода к написанию запросов (prompt engineering). Однако использование слишком длинных запросов может привести к увеличению стоимости и снижению скорости этих моделей.

Технология LLMLingua от Microsoft представляет новое решение для сжатия запросов путем удаления несущественных их частей. Данный метод способен сокращать запросы до 20 раз без потери качества реакции модели. Если использовать LLMLingua грамотно, это может уменьшить затраты на работу с передовыми LLM и сделать их доступными для более широкого круга пользователей и приложений.

Затраты на подготовку запросов

Создание запросов является фундаментальным элементом при работе с LLM для практических задач. Техники, такие как цепочки рассуждений (chain-of-thought), обучение в контексте и интеграция связанных документов или исторических диалогов, важны для повышения эффективности моделей в выполнении определенных задач. Однако эти методы обычно требуют длинных запросов, которые иногда достигают тысячи токенов. Это может существенно увеличивать стоимость использования продвинутых моделей, особенно таких дорогих LLM, как GPT-4.

Существуют разные подходы к оптимизации моделей и снижению затрат, одним из таких направлений является использование врожденной избыточности естественного языка для сжатия запросов. Некоторые подходы осваивают специализированные токены посредством настройки запросов (prompt tuning) для уменьшения их количества при выводе.

Тем не менее, эти методы обычно специфичны для задач и могут потребовать тонкой настройки всей модели, что ограничивает их использование и делает несовместимыми с моделями, управляемыми через API, такими как ChatGPT.

Другие техники используют LLM для суммирования бесед, создавая концентрированные представления памяти и знаний. Но эти методы обычно включают в себя множественные дорогостоящие вызовы LLM.

Замечательный метод, Selective Context, использует более мелкую языковую модель для оценки информативности текстовых сегментов, удаляя менее информативное содержимое для сжатия запросов. Новейшая технология Microsoft построена на этом методе и усовершенствует его.

LLMLingua

LLMLingua — это новаторская методика, которая сжимает запросы с грубого уровня до более детализированного. Она состоит из нескольких компонентов.

Первый компонент, «контроллер бюджета», динамически распределяет разные уровни сжатия элементам исходного запроса, таким как инструкция, примеры и вопрос. Основная идея состоит в том, что инструкции и вопросы обычно имеют более прямое влияние на получаемый результат, поскольку они содержат необходимые знания, нужные модели для формулировки ответа. В то же время, когда запрос содержит несколько примеров, информация может быть повторяющейся. Следовательно, контроллер бюджета выделяет больший бюджет — т.е. меньшие коэффициенты сжатия—для инструкций и вопросов, в то время как для примеров выделяется меньший бюджет.

LLMLingua использует более мелкую языковую модель, такую как GPT-2 или LLaMA, для управления этим распределением. Эта модель вычисляет перплексию для каждого примера, что служит показателем релевантности текста для ответа модели. LLMLingua затем отдает предпочтение примерам с самыми высокими значениями перплексии и включает их в запрос, пока не будет исчерпан бюджет на примеры. Оставшийся бюджет распределяется на корректировку инструкции и вопроса.

Второй компонент LLMLingua — это алгоритм итеративного сжатия запросов на уровне токенов (ITPC), который позволяет более детальное сжатие. ITPC начинается с сегментации запроса, а затем использует мелкую модель для определения распределения перплексии по этим сегментам. Алгоритм затем создает сжатый запрос, сохраняющий токены с высокой перплексией, чтобы важная информация не терялась, учитывая условные зависимости между токенами.

Третья часть включает в себя метод настройки инструкций, который синхронизирует паттерны распределения большой и малой языковых моделей. Этот процесс начинается с использованием предварительно обученной малой языковой модели, которая затем тонко настраивается с использованием данных, сгенерированных более крупной LLM. Благодаря настройке инструкций поведение мелкой модели теснее соответствует поведению большой модели, что улучшает общий процесс сжатия.

Тестирование LLMLingua

В своих экспериментах исследователи использовали GPT-3.5 Turbo и Claude 1.3 в качестве основных LLM и Alpaca-7B или GPT2-Alpaca для задач сжатия. Они протестировали LLMLingua в различных бенчмарках, включая GSM8k и BBH для рассуждений и обучения в контексте, а также ShareGPT и Arxiv-March23 для понимания контекстуальных бесед и задач суммирования соответственно.

«Предложенный нами метод последовательно превосходит предыдущие методы с большим отрывом практически во всех экспериментах», — сообщают исследователи.

В бенчмарках по рассуждению и обучению в контексте GSM8K и BBH LLMLingua не только показала более высокие результаты по сравнению с полным запросом (full-shot approach), но и достигла выдающихся коэффициентов сжатия в 5 раз и 3 раза.

«Это ясно демонстрирует, что наши сжатые запросы эффективно сохраняют информацию для рассуждений, содержащуюся в исходном запросе», — пишут исследователи.

На бенчмарках по пониманию контекста на ShareGPT и Arxiv-March23 LLMLingua сжимает запросы в 9 раз и 3,3 раза. Это указывает на то, что LLMLingua сохраняет семантическую целостность исходных запросов в процессе их сжатия. Кроме того, LLMLingua превзошла другие методы сжатия запросов как в точности, так и в степени сжатия. В некоторых случаях достигнуто сжатие исходного запроса до 20 раз.

Несмотря на сложность, связанную с многоэтапностью и использованием двух моделей, LLMLingua удалось ускорить процесс от 1,7 до 5,7 раз с минимальным вычислительным накладным расходом.

«Наш подход имеет существенные практические последствия, так как он не только снижает вычислительные затраты, но также предлагает потенциальное решение для работы с более длинными контекстами в LLM», — утверждают исследователи.

Для обеспечения более широкого распространения Microsoft сделала LLMLingua доступной через легко используемую библиотеку с открытым исходным кодом. Разработчики могут использовать эту библиотеку для интеграции LLMLingua в свои собственные приложения.

Генеративные модели

Google запустила AI Studio – платформу для быстрой разработки ИИ-приложений и чат-ботов

Generative AI Studio — революционная облачная платформа от Google для работы с алгоритмами генеративного искусственного интеллекта. Этот инструмент открывает новые горизонты для создания контента и произведений искусства при помощи нейросетей.

Читать полностью »

16.12.2023

Интеллектуальные чат-боты

История ChatGPT

Проект, первоначально призванный поднять производительность труда путем написания эссе и кода с помощью коротких текстовых команд, превратился в настоящего гиганта, который теперь используется более чем 92% компаний из списка Fortune 500 для решения самых разных задач.

Читать полностью »

17.12.2023