VerifiAgent: унифицированный верификационный агент в рассуждениях языковых моделей

Исследование представляет VerifiAgent — систему, которая проверяет ответы языковых моделей в два этапа. Сначала она проводит "мета-проверку" на полноту и логическую связность ответа, а затем использует внешние инструменты (калькулятор, поиск, логический решатель) для проверки фактов и вычислений. Если найдена ошибка, система предоставляет детальную обратную связь для ее исправления.

Ключевой результат: Проверка ответов LLM в несколько этапов и использование обратной связи для генерации нового ответа (а не исправления старого) значительно повышает точность и надежность результатов.

Суть метода VerifiAgent для обычного пользователя заключается в том, чтобы не доверять первому ответу LLM, а запустить управляемый процесс самопроверки прямо в чате. Вместо того чтобы просто получить ответ, вы заставляете модель стать собственным придирчивым критиком.

Этот процесс состоит из двух шагов, которые вы можете инициировать с помощью промпта:

Мета-верификация (Проверка структуры и логики): После того как модель дала основной ответ, вы просите ее проверить саму себя по двум критериям:
- Полнота: "Ты ответил на все части моего вопроса? Ничего не упущено?"
- Консистентность: "Твои рассуждения логичны? Один шаг следует из другого без противоречий?" Это заставляет модель перечитать свой ответ и оценить его внутреннюю структуру.
Инструментальная верификация (Симуляция проверки фактов): На втором этапе вы просите модель проверить ключевые факты, цифры или утверждения из своего ответа, как если бы она использовала внешние инструменты.
- Для задач с расчетами: "Теперь напиши Python-код, чтобы проверить свои вычисления и покажи результат."
- Для задач с фактами: "Теперь симулируй поиск в Google по ключевым утверждениям [утверждение 1, утверждение 2] и проверь их достоверность."
- Для задач с логикой: "Разбей свою логическую цепочку на формальные утверждения и проверь, нет ли в них изъяна."

Самый ценный вывод исследования — не просите модель "исправить ошибку" в уже сгенерированном тексте. Это работает плохо. Вместо этого, получив от верификатора отчет об ошибке ("Ошибка в шаге 4, потому что..."), используйте его для нового запроса: "Твой предыдущий ответ был неверным, потому что [причина ошибки]. Пожалуйста, начни с нуля и сгенерируй новый, правильный ответ, учитывая эту информацию."

Прямая применимость: Пользователь может напрямую встроить двухэтапную верификацию в свой промпт. Это делается с помощью четких инструкций, которые заставляют LLM после генерации ответа запустить процесс самопроверки. Особенно легко применить цикл "генерация -> критика -> новая генерация".
Концептуальная ценность: Исследование дает пользователю мощную ментальную модель: "LLM — это талантливый, но торопливый стажер". Его работу всегда нужно проверять, и лучше всего это делает он сам, но по четкому чек-листу. Ключевая концепция — разделение процессов "творчества" (генерация ответа) и "анализа" (проверка), что приводит к более качественному итоговому результату.
Потенциал для адаптации: Метод легко адаптируется. Вместо "Python-интерпретатора" для проверки маркетингового плана можно попросить "проверить данные по последним отчетам Nielsen". Вместо "логического решателя" для плана путешествия — "проверить расписание поездов и время работы музеев". Пользователь просто заменяет абстрактные "инструменты" на конкретные источники проверки, релевантные его задаче.

Ты — опытный маркетолог. Твоя задача — составить детальный маркетинговый план на 3 месяца для продвижения новой кофейни "Аромат Утра" в спальном районе города с населением 500 тыс. человек.

**Часть 1: Генерация плана**

Создай план, который включает:
1.  **Целевая аудитория:** Опиши 2-3 ключевых сегмента.
2.  **Онлайн-продвижение:** Конкретные шаги в социальных сетях (укажи, в каких именно) и контент-план.
3.  **Офлайн-продвижение:** 2-3 акции для привлечения жителей района.
4.  **Бюджет:** Примерное распределение бюджета в 50 000 рублей.

---

**Часть 2: Верификация плана (VerifiAgent)**

Теперь выступи в роли независимого эксперта-верификатора. Проверь только что созданный тобой план по следующему алгоритму:

**1. Мета-верификация:**
   - **Полнота:** Проверь, все ли 4 пункта из моего запроса (ЦА, онлайн, офлайн, бюджет) полностью и детально раскрыты в плане.
   - **Консистентность:** Проверь, согласуются ли предложенные акции с описанной целевой аудиторией. Логично ли распределен бюджет относительно предложенных активностей?

**2. Инструментальная верификация (симуляция):**
   - **Проверка фактов:** Симулируй поиск в интернете по запросу "тренды продвижения кофеен 2024". Соответствуют ли твои предложения в онлайн-продвижении современным трендам?
   - **Проверка расчетов:** Пересчитай предложенное распределение бюджета. Сумма всех статей расходов сходится с общим бюджетом в 50 000 рублей?

**3. Итоговый вердикт:**
   - Вынеси вердикт: "План корректен" или "План содержит ошибки".
   - Если найдены ошибки, четко укажи, в чем они заключаются (например, "Ошибка в расчете бюджета" или "Предложенная акция не соответствует ЦА, потому что...").

Этот промпт работает за счет принудительного разделения двух когнитивных задач для LLM: генерации и критики.

Разделение ролей: Инструкция --- Часть 2: Верификация плана --- создает ментальный "барьер" для модели. Она перестает быть "автором" и становится "рецензентом". Это снижает "предвзятость подтверждения" (confirmation bias), когда модель склонна защищать свой первоначальный ответ.
Структурированный анализ: Вместо абстрактного "проверь себя", промпт дает четкий чек-лист (Полнота, Консистентность, Проверка фактов). Это заставляет модель последовательно анализировать свой ответ с разных сторон, а не просто поверхностно его перечитывать.
Симуляция внешней проверки: Команда "симулируй поиск" заставляет модель активировать свои знания о маркетинговых трендах и сравнить их с тем, что она написала. Это имитирует сверку с внешним источником данных, что помогает выявлять устаревшую или нерелевантную информацию.

Ты — опытный диетолог. Твоя задача — составить сбалансированный план питания на 7 дней для мужчины, 30 лет, вес 85 кг, рост 180 см, с целью плавного снижения веса. Офисная работа, 3 тренировки в неделю.

**Часть 1: Генерация плана питания**

Составь подробный план, включающий:
- Завтрак, обед, ужин и два перекуса на каждый день.
- Укажи примерный вес порций и калорийность каждого приема пищи.
- Общая суточная калорийность должна быть в пределах 1900-2100 ккал.

---

**Часть 2: Верификация плана (VerifiAgent)**

Теперь ты — независимый врач-эндокринолог. Проверь только что созданный тобой план по следующему алгоритму:

**1. Мета-верификация:**
   - **Полнота:** Все ли дни недели расписаны? Присутствуют ли все 5 приемов пищи для каждого дня?
   - **Консистентность:** Соответствует ли разнообразие продуктов принципам здорового питания (наличие белков, жиров, углеводов, клетчатки)? Нет ли повторяющихся блюд слишком часто?

**2. Инструментальная верификация (симуляция):**
   - **Проверка расчетов:** Выборочно проверь 2 дня (например, Среда и Суббота). Сложи калорийность всех приемов пищи за день. Попадает ли итоговая сумма в заданный диапазон 1900-2100 ккал?
   - **Проверка фактов:** Симулируй обращение к медицинским рекомендациям. Достаточно ли белка в рационе для человека с 3 тренировками в неделю? Нет ли в плане продуктов, которые часто вызывают аллергию или не рекомендуются при снижении веса?

**3. Итоговый вердикт:**
   - Вынеси вердикт: "План корректен и безопасен" или "План содержит ошибки/риски".
   - Если найдены ошибки, четко опиши их (например, "В среду суточная калорийность превышает норму на 300 ккал" или "Недостаточно белка в дни тренировок, что может привести к потере мышечной массы").

Механизм успеха этого промпта аналогичен предыдущему, но адаптирован под задачу с высокими требованиями к точности данных.

Принудительная калькуляция: Команда "Сложи калорийность всех приемов пищи" заставляет LLM выполнить арифметическую операцию, которую она могла "схалтурить" на этапе генерации. LLM часто хорошо генерируют текст, но плохо считают в уме. Этот шаг заставляет ее перепроверить свои же цифры.
Сверка с базой знаний: Инструкция "Симулируй обращение к медицинским рекомендациям" заставляет модель не просто выдумывать рацион, а соотносить его с заложенными в нее знаниями о диетологии и физиологии (например, норма белка на кг веса).
Снижение риска "галлюцинаций": В таких критически важных темах, как здоровье, цена ошибки высока. Двухэтапная проверка значительно снижает вероятность того, что модель сгенерирует опасный или просто бесполезный план питания, так как она вынуждена перепроверять свои утверждения через призму "безопасности" и "эффективности".

📌

Основные критерии оценки

A. Релевантность техникам промтинга: Да. Предлагает продвинутую, но воспроизводимую пользователем методику верификации и итеративного улучшения ответа.
B. Улучшение качества диалоговых ответов: Да. Прямо нацелено на повышение точности, надежности и снижение "галлюцинаций" в ответах.
C. Прямая практическая применимость: Да. Хотя сам VerifiAgent — это система, его логику можно полностью воспроизвести в промпте, заставляя LLM самопроверяться по заданному алгоритму без использования кода.
D. Концептуальная ценность: Очень высокая. Раскрывает фундаментальный принцип: LLM лучше генерирует новый ответ на основе критики, чем исправляет старый. Объясняет, как структурировать процесс проверки для повышения надежности.
E. Новая полезная практика: Да, попадает в кластеры №1 (Техники формулирования), №2 (Поведенческие закономерности) и №7 (Надежность и стабильность).
Чек-лист практичности (+15 баллов): Да, дает готовые конструкции для промптов верификации, раскрывает неочевидные особенности поведения LLM (плохое самоисправление) и предлагает способы улучшить точность ответов.

📌

Цифровая оценка полезности

Оценка 92 дана за то, что исследование предлагает мощную и универсальную мета-стратегию для взаимодействия с LLM, которую можно адаптировать для любой сложной задачи. Это не просто "волшебная фраза", а целый фреймворк для повышения надежности ответов.

Аргументы за высокую оценку: 1. Ключевой инсайт: Вывод о том, что "precaution-based feedback" (генерация нового ответа с учетом критики) работает значительно лучше, чем "post-editing" (попытка исправить неверный ответ), — это золотая жила для любого пользователя. Это меняет сам подход к итеративной работе с LLM: не просить "исправь ошибку", а говорить "ты ошибся вот здесь, начни заново с учетом этого". 2. Воспроизводимая методология: Двухуровневая проверка (мета-верификация + "инструментальная" верификация) легко симулируется в промпте. Пользователь может заставить модель сначала проверить логику и полноту ответа, а затем — "симулировать" проверку фактов с помощью поиска или расчетов. 3. Универсальность: Подход не привязан к конкретной задаче (математика, логика, креатив) и может быть адаптирован под любую область, где важна точность и надежность.

Контраргументы (почему не 100): * Требует усилий: Это не техника "в одно касание". Пользователю нужно написать более сложный, многоэтапный промпт и осмыслить сам процесс верификации. Это требует большего вовлечения, чем просто добавить "Думай шаг за шагом". * Симуляция вместо реальности: Пользователь не может подключить к ChatGPT реальный Python-интерпретатор или Z3-решатель. Он лишь просит LLM симулировать их использование, что не дает 100% гарантии, но значительно повышает шансы на обнаружение ошибки.

Меню

VerifiAgent: унифицированный верификационный агент в рассуждениях языковых моделей

Основные критерии оценки

Цифровая оценка полезности

Работа с исследованием

Результат адаптации