Аннотация: Интерес к крупным языковым моделям (LLM) возрос, показав их полезность в различных областях. Статья предлагает подход MALLM, где мастер-агент координирует множество узконаправленных агентов. Система снижает количество ошибок в сложных задачах, демонстрируя потенциал для развития ИИ.
В последние годы наблюдается значительный прогресс в развитии так называемых больших языковых моделей (Large Language Models, LLM). Эти модели, обученные на обширном массиве данных сети, обладают богатым набором знаний, охватывающим множество сфер человеческой деятельности, включая искусство, технологии и общественные науки. Они демонстрируют способность работать с различными естественными и искусственными языками, что позволяет им предоставлять советы по широкому кругу вопросов, начиная от образовательных рекомендаций и заканчивая профессиональными консультациями в области программирования и творчества. Это делает их весьма полезным инструментом для начинающих специалистов, студентов и даже ученых, которые стремятся к быстрому получению актуальной информации и корректировке своих проектов в реальном времени[]. Модели также используют в образовательных целях, включая создание адаптивных учебных материалов, что подчеркивает их полезность в качестве инструмента, способствующего инновациям и прогрессу в области обучения. В настоящий момент большие языковые модели представляют собой передовой рубеж в области искусственного интеллекта, продолжая расширять границы возможного и вдохновляя на развитие новых технологий.
В данной статье предлагается изучить концепцию, которая, по нашему мнению, может стать следующим этапом в развитии технологий искусственного интеллекта. Для этого рассмотрим некоторые ограничения существующих моделей:
- Большие языковые модели требуют значительных вычислительных ресурсов для обучения. Это связано не только с обработкой большого контекста данных, но и с необходимостью оптимизации параметров на миллиардах примеров. Высокая стоимость вычислений создает преграды для многих исследовательских инициатив и стартапов, ограничивая доступ к передовым технологиям для более узкого круга экспертов.
- Несмотря на широкий круг знаний, LLM могут проявлять неточности в своих ответах. Это происходит из-за недостатков в обучающих данных или ограничений самого алгоритма. Ошибки могут негативно сказаться на решениях, принимаемых пользователями, что требует постоянного контроля и валидации выходных данных.
- Для каждой конкретной задачи необходимы обширные обучающие наборы данных, что может быть не всегда доступно. В многих прикладных областях, таких как медицина или правоведение, конфиденциальность, точность и доступность данных остаются актуальными проблемами.
- Обучение моделей может приводить к снижению качества результатов на тестовых наборах данных. Это может быть следствием переобучения или недостаточной адаптации параметров модели.
- LLM испытывают трудности в решении узкоспециализированных задач. Они лучше справляются с общими запросами, тогда как специализированные сценарии могут требовать интеграции с доменными экспертными системами или дополнительной оптимизации.
Тут можно заметить, что мы пытаемся возложить на одну модель все знания, которыми располагаем. Если провести аналогию с человеком, то это похоже на попытку создать универсального специалиста, который знает ответы на все вопросы. Однако в реальной жизни процесс обучения устроен иначе: мы не стремимся освоить всё сразу, а делегируем образование специализированным институциям, где из нас формируются узконаправленные специалисты в разных областях знаний.
Гипотеза состоит в том, что эффективнее создавать языковые модели с ограниченным и узконаправленным набором знаний. Такой подход предлагает несколько преимуществ:
-
Ускорение обучения модели: Ограничивая объем данных, которые модель должна освоить, мы значительно сокращаем время и ресурсы, необходимые для ее обучения. Это позволит быстрее достигать стадии, когда модель станет полезной в реальных приложениях. Ее проще тестировать и использовать.
-
Обогащение особыми знаниями: Обучая модели на узконаправленных данных, можно обеспечить глубокое понимание специфической области, соответствующее уровню экспертизы, которого ожидают, скажем, от врача, экономиста или юриста.
-
Повышение точности в специализованных задачах: Специализированные модели, обладющие глубокими знаниями в конкретной области, способны давать более точные и надежные ответы в узкоспециализированных задачах. Это полезно в приложениях, где на кону стоит надежность и точность, например, в медицинской диагностике или юридическом сопровождении.
Важно отметить, что вместо традиционного подхода дополнения модели разноплановыми данными, лучше сосредоточиться на росте модели после получения базовых знаний о мире лишь в одной, необходимость в которой определена пользователем, области. Таким образом, мы получим моделей-специалистов , которые развивались только в выбранной узкой нише, аналогично тому, как человек выбирает профессию и углубляется в ней в течение своей карьеры. Подобный подход может не только увеличить эффективность моделей, но и внести значительный вклад в такие отрасли, как образование, здравоохранение и другие сферы, где узконаправленные знания особенно ценны.
Один из вариантов, близкий к предлагаемому, — использование систем Retrieval Augmented Generation (RAG), где одна хорошо обученная и универсальная языковая модель (LLM) взаимодействует с векторной базой данных, построенной на узком наборе данных. Если снова провести аналогию с человеком, это похоже на ситуацию, когда хорошо образованный человек обращается к специализированному справочнику или базе знаний для получения более детальной информации по конкретной теме. Такой подход значительно лучше решает специфичные кейсы, позволяя модели использовать обширные общие знания и одновременно быстро обращаться к специализированным данным.
После создания узконаправленных моделей встает вопрос об их оркестрации: как эффективно управлять множеством независимых моделей. Современные технологии позволяют организовать мультиагентную систему, состоящую из множества агентов, где каждый агент взаимодействует с другими и может передавать запросы тем агентам, которые обладают нужной экспертизой, если сам не может дать ответ.
В такой системе необходима следующая архитектура:
- Средство координации между агентами.
- Мастер-агент. Это центральное звено в системе, которое получает все первоначальные запросы и переадресует их на наиболее подходящего узконаправленного агента-специалиста. Мастер-агент должен иметь механизмы для быстрой оценки запроса и определения подходящего субъекта из доступных агентов.
- Агенты. Представляют собой связный граф: Этот граф может динамически изменяться в зависимости от количества агентов и их специализаций, обеспечивая гибкость и адаптируемость системы к новой информации и задачам.
Архитектура Multi Agent Large Language Models (MALLM) реализует концепцию распределенного интеллекта, которая полагается на коллективное знание и специализированные навыки, обеспечивая при этом высокую эффективность и точность обработки данных. Такой подход может стать основой для создания гибких и адаптивных систем в будущем, способных справляться с еще более сложными задачами в различных отраслях.
Для доказательства гипотезы была воспроизведена система со следующей архитектурой:
- Служба оркестрации: Apache Zookeeper
- Мастер-агент: ChatGPT o1 mini - можно использовать модели с меньшим числом параметров для быстрого и приблизительного предсказания следующего агента.
- Агенты:
- агент-математик, использующий калькулятор
- правовой агент-консультант - базируется по законам РФ, (законодательная база предоставлена Консультант Плюс)
Диаграмма последовательности обработки обращения пользователя к такой системе изображена на рисунке 1.
sequenceDiagram participant Пользователь participant Мастер-агент participant Агент-математик participant Агент-юрист note over Пользователь: Решение математического выражения Пользователь ->> Мастер-агент: Запрос "посчитай tag(0.87)" note over Мастер-агент: Формирование списка агентов Мастер-агент ->> Агент-математик: Запрос параметров Агент-математик ->> Мастер-агент: Параметры: описание, способности, стоимость Мастер-агент ->> Агент-юрист: Запрос параметров Агент-юрист ->> Мастер-агент: Параметры: описание, способности, стоимость note over Мастер-агент: Все агенты ответили? Нет, ожидаем всех ответов note over Мастер-агент: Выбор лучшего варианта Мастер-агент ->> Агент-математик: Прошу решить кейс "tag(0.87)" Агент-математик ->> Мастер-агент: Принято, вариант запланирован Агент-математик ->> Мастер-агент: Ответ готов, 1.1853248603 Мастер-агент ->> Пользователь: Ответ 1.1853248603
Рисунок 1. Обработка математического запроса
В случае, если мастер агент решит, что запрос лучше направить агенту-юристу, то он будет направлен ему.
Такая система может получить дальнейшее развитие с Chain of Thoughts. Мастер агент способен разбить одну задачу на несколько мелких и несколько раз вызвать агента-математика.
В сложных математических выражениях вероятность ошибки такой системы сильно уменьшается, так как сейчас агент-математик использует статический инструмент, а не пытается предсказать токенами следующий текст.
В доказательство была задача решить уравнение вида x^4 - 16x^3 + 86x^2 - 176x + 105 = 0
26 из 200 - gpt-3.5-turbo 5 из 200 - gpt-4o 0 из 200 - с использованием агента-калькулятора
Важно заметить, что такая система координирует себя сама. Выход из строя одного из агентов не затронет работоспособность всей системы, а лишь той части, за которую отвечал вышедший из строя агент. Такая система может состоять из нескольких мастер-агентов, но не менее чем из одного. При координации нескольких мастер-агентов они также участвуют в решении задач. В таком случае они могут как конкурировать на основе рыночных механизмов, так и работать сообща, делегируя задачи между собой на основании своих способностей. Так, некоторые модели склонны лучше рассуждать, а другие лучше принимать решения.
В заключение, новый подход к развитию языковых моделей, направленный на преодоление существующих ограничений больших языковых моделей (LLM), позволяет повысить эффективность их обучения и точность в решении специализированных задач. Это особенно важно для применения в областях, где требуются глубокие знания и высокая степень надежности, таких как математика и право.
Реализованная архитектура Multi Agent Large Language Models (MALLM) демонстрирует эффективность распределенного подхода, обеспечивая гибкость, адаптивность и устойчивость системы. Использование специализированных агентов и мастер-агента для координации задач открывает возможности для создания более точных и производительных систем.
Такой подход может стать основой для развития более эффективных и целенаправленных интеллектуальных систем, а также стимулировать дальнейшие исследования и разработки в области искусственного интеллекта.