Как заставить ИИ-агента не тупить: минимум контекста и субагенты-проверяльщики

— Как быть с тем, что ИИ тупит и теряет инструкции? Ничего ему не дашь серьезного!

Очень часто такие вопросы вижу. Люди прям отказывают работать с агентами, потому что попробовал пару раз, получили фигню и забили

Проблема решается двумя вещами.

Правило 1: меньше контекста — надёжнее работа

Чем меньше контекста, тем надежнее работает модель.

Поэтому надо закидывать в агента самый минимум информации, который нужен для выполнения задачи. Не всю кодовую базу, а только нужные места в нужных файлах. Не всю документацию, а только ту часть, которая нужна.

Поэтому нужно бить задачи на много мелких этапов, и после каждого очищать контекст или запускать новый чат. Изучили код, написали саммари — сбросили. Обсудили план — сбросили контекст. Написали техзадание — сбросили контекст. Сделали кусок задачи — сбросили контекст. И так далее. Старые размышления и обсуждения не будут отвлекать агента от выполнения задачи и провоцировать галлюцинации.

Правило 2: просить агента проверять себя

Просить агента перепроверять себя.

Во-первых, банально после выполнения задачи можно ему написать «проанализируй, все ли ты сделал как надо или что-то пропустил». И часто он найдет свои косяки и поправит. Если контекст не переполнен.

Во-вторых, при постановке задачи прописывать явные критерии готовности задачи. Такой чекликт «проверь себя». Агент реально проверяет.

Ну и в-третьих. Агенты на порядки дешевле живых людей. Поэтому можно крутить неприличное количество проверок в отдельных сессиях — и все равно не выходить за рамка экономической целесообразности.

Как это работает на практике

Сделали задачу, в новом чате показали ее агенту, попросили покритиковать решение. Еще в одном чате попросили проверить по критериям приемки. Еще в одном — попросили проверить, что ответ соответствует прописанному шаблону. Еще в одном — что это делать безопасно, не навредим себе. Еще в одном — собрать ответы предыдущих проверяльщиков в кучу и составить план доработки.

А в Claude Code это вообще автоматизировать можно — просто в план задачи включаем требование вызвать субагентов-проверяльщиков вот с такими инструкциями и поправить все, что они найдут. А потом еще раз вызвать. И еще раз поправить.

Если следовать этим двум правилам, агентам вполне можно доверять. Я, например, очень заморачиваюсь на этапе продумывания — как побить задачу на кучу мелких, что скормить агенту, как проверить, каких субагентов-проверяльщиков вызвать, как они должны написать отчеты и так далее.

А потом просто жму кнопку — оно полчаса делается, проверяется, переделывается, снова проверяется — и на выходе получается адекватное решение. Самому проверять его уже не надо.

Это пост из моего Телеграм‑каналаОбсудить в комментариях →
Блог Молянов

Молянов

Verified

В Телеграм канале каждый день рассказываю про бизнес, нейросети и диджитал. А еще показываю, как сочетать постоянные путешествия с предпринимательством и работой.