обзор современных подходов к мультиагентным AI-системам, ориентированным на решение задач мультистадийного рассуждения и извлечения информации из мультимодальных источников

Введение

Современные задачи ИИ становятся все более сложными и требуют от систем умения рассуждать через несколько стадий, а также извлекать и объединять информацию из разных источников (текстов, изображений, аудио, видео, документов и т.д.). Для решения таких задач разрабатываются мультиагентные архитектуры на основе больших языковых моделей (LLM), в которых несколько агентов с различными ролями или инструментами совместно работают над общей целью. В этом обзоре рассматриваются современные подходы к построению мультиагентных AI-систем, уделяя особое внимание работам на arXiv. Будут рассмотрены популярные архитектуры и фреймворки (ReAct, AutoGPT, CAMEL, SWE-agent и др.), механизмы взаимодействия агентов при разбиении сложных задач на подзадачи, способы формирования доверительных цепочек рассуждений, примеры реализованных агентов (браузер, калькулятор, распознавание изображений, интерпретатор кода и пр.), а также преимущества и недостатки различных подходов – с точки зрения масштабируемости, модульности, повторного использования агентов, автономности и работы в условиях неопределённости.

Архитектуры и фреймворки мультиагентных систем

ReAct (Reason + Act) – парадигма, объединяющая цепочку логических рассуждений и выполнение действий. В работе Yao et al. (2022) предложено давать LLM-модели возможность генерировать шаги рассуждения вперемежку с действиями, которые могут обращаться к внешним источникам знаний. Такой подход помогает модели поддерживать актуальный план действий, обрабатывать исключения и получать нужные данные извне (например, через поиск), что снижает галлюцинации и ошибки в рассуждениях. Метод ReAct продемонстрировал высокую эффективность на задачах ответов на сложные вопросы и интерактивного планирования, превзойдя предыдущие методы по точности и улучшив интерпретируемость решений. Например, при ответе на вопрос с использованием ReAct модель сначала рассуждает («Thought») о том, что ей нужно поискать, затем выполняет действие поиска, извлекает факты, снова рассуждает, и так далее – пока не придёт к обоснованному ответу. Это видно из примера на рис. 1: справа (1d) показано, как ReAct попеременно генерирует мысли и действия поиска, в итоге находя правильное решение, в то время как чисто рассуждающий подход (1b) или только действующий (1c) ошибаются (ReACT Agent Model — Klu).

AutoGPT – открытый фреймворк автономного агента на основе LLM, получивший известность благодаря тому, что он может самостоятельно генерировать новые задачи на основе общей цели пользователя и выполнять их в цикле. AutoGPT позиционируется как агент, использующий возможности GPT-моделей для принятия решений онлайн и автоматизации сложных рабочих процессов. В основе AutoGPT – итеративный алгоритм, где модель, получив высокоуровневую цель, сама планирует шаги для её достижения, формулирует подзадачи, обращается к инструментам (например, выполнение кода, веб-поиск) и оценивает результаты, генерируя новые подзадачи, пока цель не будет достигнута. Несмотря на ажиотаж вокруг AutoGPT, исследователи отмечают, что практическая эффективность таких агентов пока ограничена: им не хватает надёжного взаимодействия с реальным миром, и требуются бенчмарки для объективной оценки. В ответ на эти вызовы появились работы по тестированию и улучшению AutoGPT-стиля агентов, например, введение механизма Additional Opinions для привлечения моделей-экспертов и улучшения качества планирования.

CAMEL (Communicative Agents for “Mind” Exploration) – это архитектура роль-взаимодействующих агентов. Авторы Li et al. (2023) исследуют, как добиться автономного сотрудничества между несколькими агентами без постоянного участия человека. В CAMEL используется приём role-playing: каждому LLM-агенту задаётся определённая роль (например, “AI-пользователь” и “AI-ассистент” с конкретными профессиями), и через особый протокол inception prompting они ведут диалог друг с другом для решения задачи. Сессия начинается с общей идеи или цели, после чего специальный агент-спецификатор уточняет задачу, делая её более конкретной для исполнения (). Далее два основных агента (например, Программист и Клиент) многократно обмениваются сообщениями: пользователь-агент ставит инструкции или вопросы, ассистент-агент предлагает решения или действия. Такой общество агентов позволяет генерировать согласованный план и выполнять сложные инструкции, сводя к минимуму необходимость человека направлять диалог на каждом шаге (). Библиотека CAMEL опубликована как открытый код, позволяя воспроизводить и исследовать различные сценарии ролевого взаимодействия агентов.

SWE-агент – специализированный агент для автоматизированной разработки ПО. Yang et al. (2024) рассматривают LLM-агента как нового пользователя компьютера, которому нужны специальные интерфейсы для эффективной работы с кодом. SWE-agent включает Agent-Computer Interface (ACI) – набор инструментов, позволяющих агенту создавать и редактировать файлы кода, просматривать структуру репозитория, компилировать и запускать программы, а также выполнять тесты. По сути, это связывает языковую модель с возможностями IDE. Результаты на тестовых задачах по исправлению кода показали, что такой агент существенно превосходит обычные LLM без взаимодействия с внешней средой: он успешно решает ~12.5% сложных задач с первого раза и ~87.7% упрощённых задач, что значительно больше ранних достижений. Данный подход подчёркивает, что для узкоспециализированных доменов (таких как разработка ПО) полезно оснащать агентов доменно-специфическими инструментами и интерфейсами.

Другие известные фреймворки включают:

  • HuggingGPT – систему, где центральный LLM (ChatGPT) выступает в роли диспетчера, разбивает пользовательский запрос на подзадачи, подбирает для каждой подходящую модель из сообщества HuggingFace и объединяет результаты. Благодаря этому могут решаться задачи на стыке разных модальностей – например, запрос пользователя анализируется и декомпозируется на «описать изображение» (для этого вызывается модель распознавания изображений), «синтезировать речь» (аудиомодель) и т.д., после чего LLM собирает ответы. Такой подход продемонстрировал, что одна LLM может координировать работу десятков сторонних моделей и решать широкий спектр мультимодальных задач (визуальных, языковых, аудио и др.).
  • BabyAGI и AgentGPT – открытые реализации автономных агентов, аналогичных AutoGPT. Например, BabyAGI содержит три ключевых под-агента: Агент выполнения задач, Агент генерации новых задач и Агент расстановки приоритетов, которые вместе формируют непрерывный цикл постановки и решения целей (BabyAGI à la Wolfram: a task-driven autonomous agent using …). Такие системы были упомянуты во многих работах как шаг к самозапускающимся ИИ-помощникам, однако их надёжность и полезность активно изучаются.
  • MetaGPT – фреймворк для многоагентной кооперации, где вводятся роли вроде «менеджер проекта», «архитектор», «разработчик» и др. для совместного выполнения задач разработки ПО. MetaGPT закладывает структуру, напоминающую команду людей, и показано, что на некоторых проектах несколько специализированных агентов генерируют более связное решение, чем одиночная модель.

Следует отметить, что число работ по LLM-агентам стремительно растёт. В литературе уже предложены десятки различных архитектур и подходов – от одиночных агентов с доступом к набору инструментов до целых обществ из нескольких LLM, взаимодействующих по определённым правилам. Многие из них опираются на схожие принципы и модули, такие как: планировщик (отвечает за разбиение задачи), память (хранение контекста и фактов), исполнитель действий (обращается к инструментам или внешним моделям) и коммуникатор (обмен сообщениями между агентами). В свежем обзоре Wang et al. (2023) отмечается появление единого семейства LLM-агентов – BabyAGI, AutoGen, CAMEL, AutoGPT, XAgent и др. – которые опираются на способность больших моделей понимать инструкции и действовать согласно им ().

Взаимодействие агентов: задачи, подзадачи и проверка решений

Ключевым преимуществом мультиагентных систем является способность разделять сложные задачи на части и решать их совместно. Рассмотрим, как агенты взаимодействуют друг с другом в таких системах:

  • Обмен задачами и декомпозиция. Как правило, один из агентов выступает планировщиком: он получает исходную задачу от пользователя и разбивает её на логическую последовательность подзадач. Например, в HuggingGPT роль планировщика выполняет ChatGPT, который на основе текста запроса генерирует список отдельных задач и определяет их порядок, учитывая зависимости (HuggingGPT: Revolutionizing Complex AI Task Management with LLM Integration | Neural Notes) (HuggingGPT: Revolutionizing Complex AI Task Management with LLM Integration | Neural Notes). В системах типа AutoGPT или BabyAGI сам агент (или выделенный модуль) формулирует, какие шаги нужны для приближения к цели, и составляет очередь задач. После этого планировщик может назначить каждую подзадачу другому агенту или инструменту, специализирующемуся на данной функции. В CAMEL “AI-пользователь” фактически формулирует задания “AI-ассистенту” пошагово, то есть разбивка задачи происходит через диалог агентов (). Такой подход имитирует постановку задачи в человеческой команде: один агент может выступать заказчиком, ставящим задачи, а другой – исполнителем решений.

  • Порождение новых подзадач. В ходе решения могут возникать дополнительные задачи, изначально не очевидные. Мультиагентная система способна самостоятельно генерировать новые цели по мере необходимости. В упомянутом BabyAGI под-агент Task Creation анализирует результаты текущей работы и может добавить новую задачу в список, если обнаружена новая потребность (BabyAGI à la Wolfram: a task-driven autonomous agent using …). Аналогично, AutoGPT после выполнения шага оценивает, нужно ли сделать что-то ещё, и расширяет план. Это позволяет гибко реагировать на неожиданные обстоятельства или уточнённые требования. Однако такая генерация должна быть подконтрольной, чтобы агент не ушёл в бесконечный цикл создания задач. Обычно вводятся ограничения на количество итераций или проверяется, достигнута ли изначальная цель.

  • Закрепление фактов и общая память. Для согласованной работы несколько агентов должны разделять контекст – хранить важные факты, полученные на предыдущих шагах. В простейшем случае вся промежуточная информация сохраняется в историю сообщений (контекстную память), доступную всем агентам. Более сложные системы имеют отдельный модуль памяти (долговременной и кратковременной), куда агенты могут записывать знания и затем оттуда их извлекать. Например, память может хранить результаты поиска, вывод кода, утверждения, подтверждённые внешними источниками. Это предотвращает повторение одних и тех же вычислений и помогает поддерживать единое «понимание» между агентами. Исследователи перенимают концепции из когнитивной науки – разделяя память на рабочую (оперативную, для текущей задачи) и долгосрочную (накопленный опыт). Технически память реализуется либо как текстовые записи (журнал диалога, база знаний), либо как векторные представления, позволяющие искать похожие прошлые ситуации. Важно, что сохранённые факты могут влиять на последующие решения агентов. К примеру, если агент-планировщик узнает из памяти, что определённый путь уже приводил к неудаче, он попробует другой подход.

  • Верификация и оценка решений. Чтобы повысить точность системы, агенты могут проверять действия друг друга. Один распространённый приём – введение специального агента-верификатора (критика). После того как основной агент предложил решение или факт, другой агент оценивает его корректность. Например, Yao et al. (2023) описывают Tree-of-Thought подход с несколькими агентами-рассуждателями, которые параллельно исследуют разные варианты решения задачи, и отдельным агентом-валидатором, проверяющим логичность каждого рассуждения. Валидатор отбрасывает неверные ветви, и в итоге группа агентов приходит к ответу, опираясь только на проверенные рассуждения. Также практикуется перекрёстная проверка (cross-examination): два агентa могут обсуждать решение и указывать друг другу на противоречия или ошибки, добиваясь консенсуса перед выдачей ответа. Подобную идею реализуют в рамках дебатов агентов или сократического диалога, где один агент выступает оппонентом, задавая вопросы и выявляя слабые места в ответах другого, пока они не сойдутся во мнении.

  • Обращение к внешним источникам для проверки. Если у агентов возникает сомнение, они могут задать уточняющие вопросы окружающей среде. Под «средой» понимается всё, что вне самих LLM: поисковые системы, базы знаний, симуляторы. Пример – метод Chain-of-Verification: модель сначала генерирует черновой ответ, затем формирует список вопросов для проверки фактов и ищет на них ответы (например, в интернете или базе знаний), после чего на основе найденного уточняет свой исходный ответ. Такой многоходовый процесс фактически создаёт цепочку доказательств: на каждый ключевой тезис должны найтись подтверждения. В режиме мультиагентной системы это можно представить как взаимодействие агента-решателя и агента-исследователя, где первый предлагает гипотезу, а второй собирает и предоставляет доказательства. В результате конечный ответ подкрепляется ссылками или вычислениями, что повышает доверие пользователя.

Таким образом, механизмы взаимодействия агентов строятся вокруг разделения труда (кто планирует, кто исполняет, кто проверяет) и обмена информацией (передача задач, данных, результатов проверки). Грамотно спроектированная коммуникация позволяет системе не только решать поставленную проблему, но и обнаруживать новые подзадачи, аккумулировать знания и исправлять собственные ошибки по ходу работы.

Доверенная цепочка рассуждений

Одно из центральных требований к мультиагентным AI-системам – это прозрачность и надёжность рассуждений, особенно если они применяются в критичных областях. Возникает вопрос: как убедиться, что многошаговое решение, полученное коллективом агентов, корректно и обосновано? Ниже рассмотрены подходы к формированию “доверенной” цепочки рассуждений:

  • Согласование между агентами. Мультиагентный подход естественным образом предлагает идею коллективного разума: несколько независимых агентов могут прийти к решению совместно, и если все они (или большинство) согласны с ответом, то доверие к нему выше. Например, можно запустить несколько агентов-экспертов с разными начальными условиями или разными моделями и затем сопоставить их ответы. Если вывод совпадает, велика вероятность, что он верен. Если же ответы различаются, можно заставить агентов обсудить расхождения – это похоже на работу группы экспертов-людей, обсуждающих проблему. Такой подход схож с методом самосогласования (self-consistency) в цепочках рассуждений, когда одна модель генерирует множество вариантов решения, а затем выбирается наиболее частый или обобщённый ответ. Разница в том, что в мультиагентном случае варианты генерируются разными агентами, потенциально разными моделями, что добавляет разнообразия мнений и снижает вероятность коллективной галлюцинации. Главное – организовать протокол “голосования” или консенсуса. В некоторых системах вводится агент-распорядитель, собирающий ответы нескольких решателей и выбирающий итог (возможно, с дополнительным анализом доводов каждого).

  • Явная проверка каждого шага (формализация доказательств). Чтобы цепочка рассуждений была убедительной, полезно представлять её в виде, доступном для машинной проверки или хотя бы для однозначной человеческой интерпретации. Некоторые проекты пытаются переводить рассуждения LLM в формальные логические выводы или код. Например, агент может генерировать не просто свободный текст объяснения, а структуры типа “утверждение – обоснование – ссылка на источник”. В задаче математического доказательства агенты могут пользоваться системами автоматического доказательства: один формирует гипотезу, другой переводит её в формат системы (например, Coq или Lean), третий пытается доказать формально. Если доказательство успешно, значит исходная гипотеза истинна с формальной точки зрения. Такой уровень формализации пока редкость для LLM-агентов, но исследования ведутся, особенно в контексте проверки математических выкладок или программ (формальная верификация кода).

  • Валидаторы и модераторы. Ранее уже упоминался подход с агентом-валидатором, который проверяет логические ветки рассуждений. Это пример внутренней модульной валидации. Другой вариант – привлечение внешнего проверяющего модуля. Им может быть отдельная модель, обученная выявлять ошибки, противоречия или токсичность в тексте. Например, OpenAI при обучении ChatGPT использовала вторую модель-критика для оценки ответов первой. В мультиагентных системах можно явно включить агента со стратегией “Socratic debugging” – он будет задавать наводящие вопросы основному агенту, пытаясь выявить неясности или ложные допущения. Ещё один сценарий – режим суда: один агент “прокурор” излагает аргументы, другой “адвокат” проверяет их и либо соглашается, либо опровергает, а третий “судья” (или простой алгоритм) решает, убедили ли его доводы. Подобные схемы направлены на то, чтобы в финальной цепочке рассуждений каждый шаг был либо подтверждён другим агентом, либо общепринят всеми агентами в системе.

  • Прослеживаемость и цитирование источников. Доверие повышается, если каждое промежуточное утверждение можно отследить до источника или предыдущего шага. В некоторых мультимодальных системах агенты обмениваются не только текстом, но и, к примеру, метками времени, ссылками, кусками данных. Если агент-планировщик знает, какой под-агент предоставил факт, и может при необходимости запросить у него разъяснение, то решение становится более прозрачным. В практике QA (вопрос-ответ) уже появились open-book агенты, которые вместе с ответом возвращают список документов или фрагментов текста, послуживших доказательством. Аналогично, мультиагентная система могла бы возвращать “лог протокола”, где указано, какие агенты что сделали и на основании чего был сделан каждый вывод. Такая цепочка является удостоверением того, что ответ – не просто галлюцинация, а результат последовательных обоснованных шагов. В работе ReAct, например, подчёркивается, что их подход генерирует интерпретируемые траектории решения, понятные человеку. Это достигается благодаря явному протоколу “мысль–действие–наблюдение”, где каждое действие мотивировано предшествующим рассуждением.

Таким образом, доверенная цепочка рассуждений выстраивается за счёт многоуровневой проверки (внутри агентами друг друга и внешними средствами), единых стандартов представления знаний (чтобы выводы одного агента были понятны и проверяемы другим) и прозрачности (логирование аргументов, источников, решений каждого шага). Хотя полностью формальные доказательства пока редко достижимы, комбинирование естественного языка с структурированными проверками уже сейчас позволяет значительно снизить долю ошибок и галлюцинаций в многоходовых решениях.

Примеры агентов и их возможности

Современные мультиагентные системы могут включать разнообразный набор специализированных агентов, каждый из которых отвечает за работу с определённой модальностью или инструментом. Ниже перечислены типичные примеры агентов и их функции:

  • Агент веб-браузер. Такой агент умеет выполнять поисковые запросы в интернете, переходить по ссылкам и извлекать текстовую информацию со страниц. Он незаменим для задач, требующих актуальных данных или проверки фактов. Например, в системе ReAct в задаче фактологического вопроса агент предпринимает действие Search[...] и получает нужные сведения из API Википедии, прежде чем дать финальный ответ. Web-browser агент, как правило, реализуется через API поисковых систем (Bing, Google) или прямой парсинг сайтов. В связке с LLM он предоставляет модели текст контента, который та затем анализирует. Пример использования: пользователь спрашивает у системы о свежих новостях – планировщик поручает браузер-агенту найти соответствующие статьи, тот возвращает тексты, и другой агент суммирует их в связный ответ.

  • Агент-калькулятор / инструмент для вычислений. Несмотря на способность LLM выполнять арифметику в пределах тренировочных данных, для точных и больших вычислений удобнее использовать внешний инструмент. Агент-калькулятор принимает на вход математическое выражение (от простого сложения до сложных формул) и возвращает результат. Во многих фреймворках (например, LangChain) такой инструмент подключается для повышения точности ответов на числовые вопросы. В работе HuggingGPT среди множества подключенных моделей были и модели для решения уравнений и выполнения кода (HuggingGPT: Revolutionizing Complex AI Task Management with LLM Integration | Neural Notes) (HuggingGPT: Revolutionizing Complex AI Task Management with LLM Integration | Neural Notes). Если задача мультиагентной системы включает расчёт (финансовый анализ, статистика, траектория полёта), планировщик делегирует эту часть калькулятору, а затем интегрирует обратно результат. Это повышает надёжность: LLM не пытается угадывать ответ, а получает проверенное вычисление.

  • Агенты зрения (Vision) – распознавание изображений и видео. Для обработки визуальной информации агентам нужно подключать модели компьютерного зрения. Пример – агент, вызывающий предобученную модель для описания содержимого изображения (image captioning), распознавания объектов или чтения текста с картинки (OCR). HuggingGPT продемонстрировал такие возможности, комбинируя языкового контроллера с моделью распознавания изображений для решения сложных мультимодальных запросов. Существуют и специализированные системы, где один агент генерирует запрос «Что показано на изображении?», второй (визуальный) отвечает: «На картинке изображен…». Аналогично, для видео можно подключать модель, которая получает видеопоток и сообщает, что на нём происходит (например, описывает сцену или распознаёт речь с видео). Агент аудио (speech) конвертирует голос в текст и наоборот. В совокупности, имея библиотеку агентов по анализу различных типов данных, система способна извлекать информацию практически из любого источника. Главное – научить центральный агент правильно задавать подзадачи этим экспертам и интерпретировать их ответы.

  • Агент-генератор кода (интерпретатор). Этот агент предназначен для написания и запуска кода по инструкции. В SWE-агенте подобный функционал – ключевой: LLM выдает код, который сразу сохраняется и выполняется, а результат (вывод программы, ошибки) возвращается модели. Но и вне сферы разработки кода, такой агент полезен: он позволяет LLM использовать Python для сложных вычислений, работы с файлами, обращения к сторонним библиотекам. Многие задачи, которые сложно решить “в уме” модели, можно переложить на код. Например, агент-программист может по запросу пользователя собрать данные из API, обработать их скриптом и вернуть итог. Одним из примеров является плагин Code Interpreter для ChatGPT, где по сути добавлен агент выполнения Python-кода в песочнице. В мультиагентной архитектуре один агент может сформулировать: «Нужен скрипт для…», другой (кодовый) – сгенерировать и запустить его, а затем передать отчёт о выполнении. Это расширяет диапазон решаемых задач (например, аналитика данных, автоматизация файловых операций).

  • Специализированные агенты. Сюда относятся любые доменно-специфические модули, которые можно подключить. Например, агент базы знаний: умеет выполнять сложные семантические запросы к корпоративной БД или графу знаний (вместо простого поиска по тексту). Агент перевода: использует отдельную модель для машинного перевода текста, если требуется выдать ответ на другом языке. Агент по обработке научных документов: заточен под извлечение информации из PDF, цитирование. Аудио-агент: синтезирует речь (TTS) для голосового ответа. В литературе также обсуждаются агенты-роботы для физического взаимодействия: например, LLM-агент генерирует команды, которые передаются роботу-манипулятору для выполнения действий в реальном мире. В экспериментальных работах LLM использовали в управлении дроном, домашним роботом, где агент преобразует общую задачу («уберись в комнате») в конкретные действия устройства. Это уже затрагивает стык с робототехникой, и появляются исследования о планировании высокоуровневых действий LLM с учётом ограничений физического мира.

Следует отметить, что подключение множества агентов-моделей ведёт к мультимодальным цепочкам решений. Например, запрос: «Пожалуйста, опиши изображение и переведи описание на французский, затем озвучь» потребует задействовать поочерёдно: агент-распознавание изображения (для описания сцены), агент-переводчик (для перевода текста) и агент TTS (для синтеза речи). Координировать их работу – нетривиальная задача, но уже реализуемая в подобных системах. HuggingGPT успешно справлялся с цепочками из нескольких моделей, используя язык (естественный текст) как универсальный интерфейс между ними (HuggingGPT: Revolutionizing Complex AI Task Management with LLM Integration | Neural Notes). Это показывает гибкость мультиагентного подхода: можно относительно легко расширять возможности системы, добавляя новые инструменты в виде агентов, и решать композиционные задачи, раньше неподъёмные для монолитной модели.

Плюсы и минусы подходов

Каждый описанный подход к мультиагентным AI-системам имеет свои сильные стороны и ограничения. Рассмотрим их через призму обозначенных критериев:

  • Масштабируемость. Плюсом мультиагентных систем является потенциальная параллелизация и распределение нагрузки: разные агенты (особенно если они реализованы разными моделями) могут работать одновременно над разными подзадачами. Например, несколько агентов-Reasoners в Tree-of-Thought подходят параллельно исследуют различные решения задачи, что экономит время. Кроме того, добавление новых возможностей не требует переобучения всей модели – достаточно подключить ещё одного специализированного агента. Это модульное масштабирование. Однако минус в том, что при сложной координации линейно возрастает число взаимодействий. Если задача требует десятки агентов, коммуникационные издержки и риск ошибок в протоколе увеличиваются. Масштабируемость также упирается в ограничения самих LLM: длина контекста, время отклика. Приходится придумывать схемы, чтобы не переполнять контекст огромным числом сообщений от агентов (нужны свёртки, долговременная память). В общем, масштабируя систему по числу агентов или длине решения, важно контролировать, чтобы каждый новый компонент действительно приносил пользу, а не усложнял зря. Практика показывает, что для большинства случаев достаточно несколько агентов (2-5), чтобы существенно улучшить качество, а чрезмерное дробление задачи неэффективно.

  • Модульность и повторное использование. В мультиагентном подходе легко выделить отдельные модули, соответствующие агентам с узкими функциями. Это даёт высокий уровень повторного использования: один и тот же агент поиска или агент калькулятора можно применять во множестве разных систем и сценариев. Такая модульность – явное преимущество перед монолитными системами, которые решают всё внутри одной модели. Также, модульность облегчает отладку: если выдаёт сбой, можно локализовать проблему в конкретном агенте. Кроме того, можно заменять или обновлять отдельные агенты без влияния на остальные. Например, если вышла новая, более точная модель распознавания изображений, её можно подключить вместо старой, и весь остальной “оркестр” агентов продолжит функционировать, но с улучшенной подсистемой зрения. Из минусов – интеграция различных модулей может быть сложной. Нужно стандартизировать формат общения между агентами, иначе есть риск несовместимости (например, один агент выдаёт результат в форме JSON, а другой ожидает простой текст). Также модульность иногда приводит к дублированию: несколько агентов могут частично перекрывать функциональность друг друга, если архитектура спроектирована неоптимально.

  • Уровень автономности. Здесь на первый план выходят такие системы, как AutoGPT/BabyAGI, стремящиеся к максимально автономной работе. Преимущество высокой автономности – минимальная нужда в человеке: достаточно задать общую цель, дальше агент сам придумывает, как её достичь. Это приближает нас к мечте об универсальном ИИ-ассистенте, который может выполнять долгосрочные проекты без микроменеджмента. Однако полная автономность сегодня связана с рисками. Во-первых, агент может зайти в тупик или принять нежелательное решение, и без вмешательства человека он продолжит тратить ресурсы или усугублять ошибку. Известны примеры, когда AutoGPT-агент начинал бесконечно генерировать задачи или пытался совершить недопустимые действия (например, устранить препятствие грубой силой). Исследования подчёркивают, что LLM имеют иллюзии и могут уверенно выдавать неверные ответы, что в автономном режиме без проверки чревато накоплением ошибок. Поэтому ряд подходов ограничивает автономность: либо требуют подтверждения от пользователя на критических этапах, либо вводят механизмы безопасности (мониторы, ограничители). Например, Chen et al. (2023) предложили запускать автономных интернет-агентов в песочнице с аудитом действий, чтобы предотвратить вредоносную активность. В целом, полная автономность – палка о двух концах: с одной стороны, это цель (свести участие человека к нулю), с другой – пока системы не достигли человеческого здравого смысла, рекомендуется держать человека в цикле для страховки.

  • Способность справляться с неопределённостью. Сложные реальные задачи часто неполно определены: может не хватать данных, требования могут быть расплывчатыми, среда – изменчивой. Мультиагентные системы предлагают некоторую устойчивость к неопределённости за счёт разных точек зрения. Если один агент не уверен, он может попросить помощи у другого. Например, агент-решатель, столкнувшись с неизвестным фактом, делегирует поиск информации агенту-браузеру – тем самым превращая неопределённость в конкретный поисковый запрос. Агенты могут переспрашивать друг друга и пользователя, уточняя детали (что и рекомендуют делать для улучшения интеракции ()). Плюс также в том, что если обстановка меняется (новые данные поступают), система может подстроиться: например, Memory-модуль обновится, и агенты скорректируют план. С другой стороны, неопределённость может вызвать разногласия между агентами. Без чёткого критерия истинности два агента могут предложить разные гипотезы и не прийти к согласию. Нужно продумывать, как они будут разрешать конфликты – через голосование, через обращение к внешнему источнику истины, либо передачу на решение человеку. Неопределённость также усложняет планирование: планировщик может не знать заранее, сколько подзадач потребуется (но тут опять же помогает динамическое порождение задач, как в BabyAGI). В целом, мультиагентные системы лучше переносят неизвестность, чем одиночная модель, так как у них есть инструменты разведки и адаптации, однако они не всесильны – при крайней неопределённости им тоже зачастую требуется запрос к человеку-эксперту или встроенным базам знаний, иначе они рискуют галлюцинировать.

  • Дополнительные преимущества. Многие отмечают улучшение интерпретируемости решений за счёт явной структуры (как уже упоминалось, ReAct даёт понятный журнал действий). Кроме того, разделение на роли облегчает отладку и анализ ошибок – можно видеть, на каком этапе и какой агент внёс некорректный вклад. Ещё один плюс – воспроизводимость: фиксированный сценарий взаимодействия агентов даёт более детерминированный результат, чем один LLM, который мог бы иначе ответить на ту же задачу в зависимости от случайности в генерации. С точки зрения разработки, мультиагентные системы предлагают гибкость: инженеру проще мыслить категориями модулей (поиск, вычисление, диалог) и комбинировать их для новой задачи, чем пытаться сразу обучить одну модель решать всё.

  • Недостатки и вызовы. Одной из серьёзных проблем является галлюцинация и надежность LLM, которая никуда не уходит в мультиагентной схеме. Агенты могут сообща усилить ошибку, если все полагаются на исходно ложную информацию. Поэтому вопросы проверки и фильтрации ответов стоят остро. Сложность настройки – чтобы агенты эффективно работали вместе, требуется тонкая настройка промптов и протоколов. Малейшее несоответствие формата сообщений может привести к сбою общения. Ресурсоёмкость – запуск нескольких крупных моделей одновременно очень требователен к вычислительным ресурсам. Например, HuggingGPT может обращаться к десяткам моделей для одного запроса, что нереально делать в реальном времени вне исследовательского прототипа. Безопасность – когда агенты получают доступ к инструментам (файловой системе, интернету), необходимо предотвращать злоупотребления. Агенты должны действовать в рамках разрешённых операций, иначе автономный кодогенератор мог бы теоретически попытаться выполнить вредоносный код. Это рождает новую область – ответственные LLM-агенты, где идёт работа над тем, как задать им границы и контролировать поведение.

Подводя итог, мультиагентные AI-системы представляют собой мощный и гибкий подход к решению сложных задач: они лучше структурируют процесс мышления, могут обращаться к внешним знаниям и инструментам, что улучшает качество результатов. Однако их разработка и внедрение сопряжены с рядом инженерных и научных вызовов – от согласования агентов между собой до обеспечения безопасности и надежности выводов. Текущее поколение фреймворков (ReAct, AutoGPT, CAMEL, SWE-agent и др.) лишь прокладывает путь, показывая как достоинства (автоматизация, модульность, широкие возможности), так и недостатки (галлюцинации, неопределённость поведения) подобных систем. Будущие исследования направлены на то, чтобы усилить плюсы – например, научить агентов лучше объяснять и обосновывать свои решения, перераспределять ресурсы на важнейшие подзадачи – и минимизировать минусы, сделав взаимодействие агентов надёжным, безопасным и эффективным в большом масштабе.

Ссылки и литература

  1. Shunyu Yao et al. “ReAct: Synergizing Reasoning and Acting in Language Models.” arXiv, 2022.
  2. Yongliang Shen et al. “HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face.” arXiv, 2023.
  3. Guohao Li et al. “CAMEL: Communicative Agents for ‘Mind’ Exploration of Large Language Model Society.” arXiv, 2023.
  4. John Yang et al. “SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering.” arXiv, 2024.
  5. Hui Yang et al. “Auto-GPT for Online Decision Making: Benchmarks and Additional Opinions.” arXiv, 2023.
  6. Lei Wang et al. “A Survey on Large Language Model based Autonomous Agents.” arXiv, 2023 ().
  7. (Прочие источники:) Сообщества разработчиков AutoGPT, BabyAGI (BabyAGI à la Wolfram: a task-driven autonomous agent using …), материалы blog.langchain.dev (), Medium (Neural Notes) (HuggingGPT: Revolutionizing Complex AI Task Management with LLM Integration | Neural Notes) (HuggingGPT: Revolutionizing Complex AI Task Management with LLM Integration | Neural Notes), Klu.ai (ReACT Agent Model — Klu) и др.