Исследования

Large Action Models — что такое Большие Модели Действий или как автоматизировать выполнение задач при помощи ИИ

13 февраля, 2024

ChatGPT, LAM

В последние месяцы мы наблюдаем мощный новый тренд, при котором крупные языковые модели, на базе которых работают ИИ-чаты, такие как ChatGPT, дополняются возможностями, позволяющими им становиться «агентами» — программными сущностями, способными выполнять задачи самостоятельно, в конечном счете в интересах определенной цели, а не просто отвечая на запросы пользователей. Это может показаться незначительным изменением, но на самом деле это открывает целую вселенную новых возможностей.

Объединяя лингвистическую гибкость языковой модели и способность выполнять задачи и принимать решения независимо, генеративный ИИ получает возможность перейти от пассивного инструмента, каким бы мощным он ни был, к активному партнеру в выполнении работы в режиме реального времени.

Называются такие агенты Большими Моделями Действий (Large-Action Models) или LAMs. Они представляют столь же важный сдвиг в развитии ИИ, как и все, что мы видели в предыдущем десятилетии. Так же, как языковые модели сделали возможной автоматизацию генерации текста, а в своих мультимодальных формах — широкий спектр медиа, LAM вскоре могут сделать возможной автоматизацию целых процессов. И поскольку они естественным образом владеют языком, они будут разумно взаимодействовать с миром — общаться с людьми, адаптироваться по мере изменения обстоятельств и даже взаимодействовать с другими LAM.

Важным предназначением ИИ является достижение автоматизации, которая расширяет человеческие способности, а не пытается их заменить. Исходя из этого, LAM должны сосредоточиться на взятии на себя повторяющихся задач и другой рутинной работы, что большинство из нас и так не хочет делать, которые мешают тому виду значимой, высокоценной деятельности, в которой мы наиболее эффективны.

Таким образом, невероятный потенциал LAM можно проследить на двух уровнях: для отдельных лиц и для организаций. Давайте представим, как LAM могут применяться сегодня и как их роль в нашей работе и жизни может развиваться в ближайшие годы.

LAM сегодня: трансформация жизни отдельных лиц

Личные помощники веками были роскошью, доступной только богатым, хотя отрасль информационных технологий уже несколько десятилетий обещает виртуальные альтернативы для масс. LAM, однако, с их поразительной беглостью речи и способностью обобщать естественным образом практически во всех жизненных областях, могут стать поворотным моментом, которого мы ждали, — технологией, которая действительно может помочь нам с большой частью проницательности и проницательности, которую мы ожидали бы от человечка-коллеги.

Автоматизация деятельности маркетинговой кампании при помощи ИИ

В последнее время много говорят о влиянии языковых моделей на маркетинговые процессы, поскольку их способность генерировать копию, изображения и даже веб-макеты рассматривается как скачок для этой области. На практике картина более сложная, поскольку для интеграции вывода языковой модели в полный процесс, например, концепции новой кампании и внедрения результатов, необходимо немало ручного труда. В настоящее время даже лучший генеративный ИИ автоматизирует лишь избирательные части этого процесса.

Мы предполагаем, что ИИ-агенты для маркетинга, однако, будут использовать более широкий, более похожий на LAM подход для достижения результатов для маркетинговых команд путем использования интерфейса языковой модели для подключения данных, инструментов и агентов, специфичных для предметной области, в погоне за задачей высокого уровня. Представьте, например, такой запрос:

«Отправить маркетинговое электронное письмо, чтобы подчеркнуть ценность нашего нового шоколада Чочо. Дайте первым 100 людям, которые купят, купон на бесплатную доставку. Убедитесь, что каждый получатель получает персонализированное сообщение».

Сама по себе языковая модель вряд ли сможет его выполнить. Однако созвездие инструментов, агентов и источников данных, доступ к предыдущим маркетинговым материалам, данным клиентов, которыми организация решила поделиться с LAM, а также, конечно же, самим языковым моделям, могло бы сгенерировать копию («Отправить маркетинговое электронное письмо”), использовать документацию, подчеркивающую последние разработки продукта (“ценность нашего нового шоколада Чочо”), разбить логику запроса (“Дайте первым 100 людям, которые купят, купон”) и обрабатывать заказчик-специфичные касания (“Убедитесь, что каждый получатель получает персонализированное сообщение») с легкостью.

LAM в ближайшем будущем: помощники следующего поколения

Но личные помощники на базе ИИ предназначены для помощи во всей жизни человека, а не только на работе. Поэтому давайте представим, как они могут помочь с важным, но личным решением о покупке, например, автомобиля. Для многих процесс покупки транспортного средства может быть больше хлопотами, чем радостью, и особенно фаза исследований может быть подавляющей. С LAM, однако, это вскоре может потребовать чуть больше, чем подсказка: “Я ищу седан с хорошим рейтингом безопасности и много места, желательно темного цвета. Не раньше 2014 года, но не дороже 28 000 долларов. И пробег менее 90 000”.

Первым шагом как для человека, так и для LAM был бы поиск в сайтах по покупке автомобилей, чтобы собрать первоначальный список вариантов. Мощные возможности языковой модели по пониманию текста позволяют агенту потреблять огромное количество обзоров автомобилей от профессиональных и пользовательских источников, быстро определяя кандидатов, удовлетворяющих параметрам пользователя. Кроме того, LAM может заметить признаки опасности, например, что определенный год выпуска в целом подходящей модели автомобиля печально известен неисправными трансмиссиями или электрическими проблемами, и удалит его из списка (или, по крайней мере, снабдит предупреждением).

Следующим шагом LAM могло бы даже инициировать беседы с частными продавцами и местными дилерами, используя такие каналы, как электронная почта или SMS, для выхода на связь. Хотя хороший LAM, скорее всего, объявит, что он ИИ, чтобы люди никогда не вводились в заблуждение, он будет по-прежнему общаться на ясном, плавном и естественном языке с приветствиями, полными предложениями и четким запросом или утверждением в каждом сообщении. Банк пользователя даже может быть уведомлен о том, что необходимо подготовить кредит. Когда разговор приблизится к моменту принятия решения, пользователь может быть подключен для окончательного одобрения.

LAM завтрашнего дня: трансформация организаций

В конечном итоге, Salesforce AI привержена использованию мощи технологий для улучшения того, как компании работают на всех уровнях, и LAM — отличный пример того, как это может выглядеть в последующие годы. Я уверен, что это видение распространится на каждый аспект операций, от заднего офиса до передовой маркетинга, включая приложения, которые мы даже не можем себе представить, но, пожалуй, нет лучшего отдельного примера, чем взаимодействие с клиентами.

Представьте себе агента в страховой компании, например. Большая часть рабочего дня этого агента будет посвящена встречам с клиентами, как существующими, так и потенциальными, чтобы обсудить их потребности и развивать отношения. Сердцевиной этого процесса является человеческий контакт, который только агент из плоти и крови может обеспечить, но его окружают повторяющиеся задачи, которые LAM может значительно ускорить.

Рассмотрим следующий сценарий, который с каждым шагом дополняется генеративным ИИ:

Агент встречается с клиентом через Zoom, обсуждая их потребности, идеи и возможные следующие шаги.
Автоматически записывается и организуется транскрипция звонка вместе с другой соответствующей информацией CRM.
После звонка LAM просматривает транскрипцию, резюмируя ее важнейшие моменты и отправляя результат агенту для простого просмотра позже.
Кроме того, LAM определит шаги, которые стоит предпринять, например, предоставление дополнительной информации, упомянутой во время звонка. Это понимание используется для автоматического составления письма с последующими действиями, за которым следует поиск в документации компании любых относящихся документов, которые могут быть включены в виде вложений. Затем агент уведомляется о том, что последующие шаги готовы к выполнению, что позволяет провести окончательную проверку и быструю проверку орфографии перед этим.

Наконец, понимание LAM процессов агентства позволяет ему предложить дальнейшие шаги, чтобы помочь агенту оставаться продуктивным и сосредоточенным, будь то возможность дополнительной продажи на основе предыдущих решений клиента или просто последующая встреча с автоматически предлагаемой повесткой дня, чтобы продвинуть разговор.

На протяжении всего этого LAM может следить за признаками того, что других заинтересованных сторон, возможно, нужно подключить. Например, клиент, демонстрирующий признаки раздражения или колебаний, может быть признан «подверженным риску», и его передадут специалисту по обслуживанию клиентов, специально занимающемуся сохранением удовлетворенности.

Это убедительное видение индивидуального расширения возможностей, но реальная трансформация обеспечивается масштабируемостью LAM. Представьте себе весь бизнес, дополняющий свой персонал инструментами такой сложности, и сколько времени и расходов можно сэкономить в совокупности, не говоря уже о том, как предложения LAM могут помочь предотвратить ошибки, рекомендовать успешные стратегии и многое другое. Это технология, которая действительно может обеспечить ценность при любом масштабе развертывания.

LAM в предстоящие годы

До сих пор мы говорили о LAM, которые обслуживают отдельных пользователей, но существует еще очень много других форм, которые, вероятно, примет эта технология. Столь же легко представить LAM, обслуживающие группы или даже целые организации. И хотя все LAM будут извлекать выгоду из их гибкости, я ожидаю разнообразия возможностей от очень общих, аналогичных концепциям «помощника руководителя», о которых говорилось выше, до высокоспециализированных агентов для узких задач, решающих узкоспециализированные проблемы. И многие LAM, со временем все, будут разработаны для обучения на собственном опыте, будь то накопление все больших знаний в решении организационной проблемы или рост персонализации в соответствии с потребностями и предпочтениями отдельных пользователей.

И кто сказал, что LAM будут работать в одиночку? Не менее легко представить, что несколько LAM работают вместе, причем каждая оптимизирована для другого набора целей, а другая LAM посвящена задаче оркестровки их усилий и общения с их пользователем или пользователями, будь то отдельное лицо, команда или даже вся организация. Другими словами, это составляло бы модернизацию от одного личного помощника до целой команды, объединенной «начальником штаба», подотчетным человеку, стоящему во главе.

Возможности становятся еще более интересными, когда мы рассматриваем LAM, созданные исключительно для взаимодействия с другими LAM или командами LAM; представьте, например, агента, развернутого одним из автомобильных дилеров в приведенном выше примере, который специализируется на обработке входящих запросов от личных LAM, представляющих потенциальных клиентов, или итерации с LAM, представляющими сами автопроизводители. Они сохраняли бы прозрачность и общее применение, которые делают все LAM ценными, особенно при оценке их поведения ретроспективно, но работали бы при гораздо более высоких скоростях и эффективности, которые обеспечивает машинно-машинная связь.

Как работают LAM

Хотя впереди еще много технических препятствий на пути реализации полной мощи LAM, основная проблема проста для формулирования: мир не является статичным местом, и любой агент, предназначенный для взаимодействия с ним, должен быть достаточно гибким, чтобы адаптироваться к изменяющимся обстоятельствам. В случае с нашим примером покупки автомобиля это означает отслеживание лидов и понимание, когда желаемый автомобиль был продан до того, как у пользователя появился шанс сделать предложение, или даже обновление своих предложений в случае объявления отзыва в разгар процесса исследований. В случае с нашим примером страхового агентства осведомленность о текущих событиях, особенно тех, которые происходят локально для клиента, будет иметь решающее значение для предоставления полезной и актуальной информации, начиная от изменений в отраслевом регулировании до экстремальных погодных явлений.

Во всех случаях хороший LAM будет определять себя пониманием того, когда следует уведомлять своего человеческого пользователя или запрашивать разъяснения. Делать это слишком часто будет раздражающе и нарушит саму цель использования LAM. Делать это слишком редко, однако, почти гарантирует, что потенциально серьезные нежелательные побочные эффекты будут процветать, начиная от удаления важного электронного письма до запроса нежелательного займа из банка самого пользователя. Как и хороший личный помощник, LAM потребуются хорошие инстинкты, чтобы найти правильный баланс.

Это также означает использование одной из самых мощных функций LAM — их способности учиться. По мере того, как LAM получают все больший и больший реальный опыт работы бок о бок с нами, отзывы людей могут использоваться для дальнейшего совершенствования их поведения. Кроме того, LAM могут извлекать ценные интерпретации потоков и процессов, вникая в данные — от расшифровок обслуживания клиентов до журналов событий, — собирая идеальные шаги, которые связывают заданную точку отсчета с наиболее желаемым результатом.

Для ясности, работа LAM — это не просто превращение запроса в ряд шагов, но понимание логики, которая связывает и окружает их. Это означает понимание, почему один шаг должен произойти до или после другого, а также знание того, когда пришло время изменить план, чтобы адаптироваться к изменениям в обстоятельствах. Это возможность, которую мы демонстрируем все время в повседневной жизни. Например, когда у нас не хватает яиц для приготовления омлета, мы знаем, что первый шаг никак не связан с готовкой, а с походом в ближайший продуктовый магазин. Пришло время создать технологию, способную делать то же самое.

Дорога вперед

Нет сомнений в том, что LAM станут невероятно хороши в том виде беглости и общения, которые потребуются для большинства приведенных выше примеров. Но по-прежнему не очевидно, что им можно доверять в том, что они будут вести себя предсказуемо и эффективно с необходимой последовательностью для регулярного использования в реальном мире.

Конечно, если доверие уже является проблемой, когда речь идет о генерации текста и изображений (а так оно и есть), то это еще большая проблема, когда речь идет о совершении действий. И бремя обеспечения безопасности и надежности только растет, когда несколько LAM работают вместе в согласии. По этой причине я считаю крайне важным, чтобы даже в самом независимом виде LAM были разработаны таким образом, чтобы люди оставались в цикле до тех пор, пока не будут предприняты критически важные действия. Каким бы продвинутым ни стала эта технология, я вижу ее как инструмент, пусть и необычайно разумный, которым люди всегда могут управлять по своему усмотрению.

По материалам Salesforce AI Research.

Интеллектуальные чат-боты

Крупное обновление чат-бота OpenAI: ChatGPT теперь может «видеть, слышать и говорить»

Чат-бот ChatGPT от OpenAI получает значительное обновление, которое позволит этому популярному интеллектуальному чат-боту вести голосовые диалоги с пользователями и взаимодействовать с использованием изображений.

Читать полностью »

01.10.2023

Интеллектуальные чат-боты

Amazon инвестирует 4 миллиарда долларов в компанию Anthropic

Американская корпорация Amazon объявила о крупных инвестициях в размере до 4 миллиардов долларов в компанию Anthropic, разрабатывающую передовые технологии искусственного интеллекта. Anthropic добилась известности благодаря своему инновационному чат-боту Claud.

Читать полностью »

27.09.2023