Source-Conditioned Role Relabeling: скопируй ошибку обратно — и модель её исправит
3 концепта
88
Проблемы (1)
Запрос "проверь себя" почти не работает
Просишь модель перепроверить рассуждения. Она переписывает финальный ответ — но не называет конкретную ошибку. Промежуточный шаг с ошибкой остаётся в тексте молча. Дело не в знаниях: модель знает правильный ответ. Дело в структуре: собственное рассуждение — часть контекста, на который нельзя "указать пальцем". Нет объекта — нет опровержения
Как обойти
Скопируй подозрительный фрагмент дословно. Вставь в новое сообщение: "Ты написал: [фрагмент]. Это верно? Проверь независимо." Теперь у модели есть конкретный объект — она его разберёт и назовёт ошибку явно
Методы (1)
Переподача фрагмента — точечная проверка шага
Найди промежуточный результат, который вызывает сомнение. Скопируй дословно — не перефразируй. Напиши новое сообщение: Ты написал: "{скопированный_фрагмент}". Это верно? Проверь независимо — формулу, логику, числа. Если ошибка — назови её явно. Почему работает: модель отлично проверяет чужие утверждения. Это натренировано на огромных объёмах текста. Копируя фрагмент, ты меняешь роль источника: "своё рассуждение" становится "утверждением пользователя". Появляется адресуемый объект — его можно явно опровергнуть. Когда да: математика, логика, расчёты, любые задачи с проверяемым ответом. Когда слабее: творческие и субъективные задачи. Когда бесполезен: модель и так отвечает правильно в 90%+ случаев — расти некуда
Тезисы (1)
Модели нужен дискретный объект чтобы исправить ошибку
Это не про знания. Модель уже знает правильный ответ. Проблема в другом: чтобы опровергнуть ошибку, нужна возможность на неё сослаться. Собственное рассуждение такой возможности не даёт — это поток текста, а не набор адресуемых утверждений. Внешнее сообщение — даёт. Применяй: "проверь себя в целом" → не работает. "Ты написал X — это верно?" → работает. Разница в том, есть ли у модели конкретный объект для разбора
Режим мета-неопределённости: почему «думай пошагово» разрушает ответы на одни вопросы и улучшает другие
3 концепта
86
Проблемы (1)
Модель не чувствует, когда её рассуждения надёжны
На математике каждый шаг либо верный, либо нет — есть внутренняя проверка. На открытых вопросах (стратегия, этика, прогнозы) такой проверки нет. Каждый новый шаг генерирует не сигнал, а шум. Модель добавляет всё больше точек зрения, противоречит себе и теряет позицию. Итог: развёрнутый ответ хуже, чем первые два шага. Это срабатывает на любых задачах без единственно правильного ответа
Как обойти
Перед запросом проверь: у задачи есть проверяемый ответ? Да — проси рассуждать подробно. Нет — ограничивай рассуждения явно: ответь за 2-3 шага максимум, назови один главный фактор, не перечисляй "с одной стороны — с другой"
Методы (1)
Разные режимы рассуждений для разных задач
Шаг 1: Определи тип задачи. Есть проверяемый правильный ответ (математика, код, анализ с фактами)? → запрашивай развёрнутое рассуждение. Нет правильного ответа (этика, стратегия, уникальный прогноз)? → ограничивай рассуждение. Шаг 2: Для открытых задач пиши явно: это [этическая дилемма / стратегическое решение] — нет единственно правильного ответа. Добавляй: ответь за 2-3 шага, выдели один главный фактор, не хеджируй. Почему работает: Явное ограничение числа шагов отсекает шум. Запрет хеджирования заставляет модель выбрать позицию, а не балансировать. Называние типа задачи даёт сигнал о режиме ещё до генерации. Когда не работает: Слабые модели — им любые рассуждения помогают. Топовые модели (GPT-4o, Claude Sonnet) — эффект есть, но слабее
Тезисы (1)
На открытых задачах первые 2-3 шага — самые сильные
На задачах без правильного ответа первые шаги захватывают главное. Дальнейшие шаги не улучшают точность — они добавляют альтернативные точки зрения, которые тянут позицию в разные стороны. Разница ощутимая: развёрнутое рассуждение на таких задачах снижает качество ответа примерно на 17 процентных пунктов по сравнению с коротким. Применяй: На стратегических, этических и прогнозных задачах останавливай рассуждение рано. Не проси думать "максимально подробно" — проси думать "кратко и прямо"
Epistemic Blind Spot: LLM доверяет «академическому виду» текста, а не проверке чисел
4 концепта
82
Проблемы (2)
При анализе нескольких источников модель проверяет стиль, а не данные
Даёшь три источника и просишь вывод. Модель автоматически строит карту доверия: кому верить больше. Эта карта строится по стилю — методологический язык, технические термины, точные числа. Сами числа на корректность не проверяются. Статистически невозможный интервал в тексте с «академическим» оформлением получит почти такой же вес, как корректные данные. Работает для любых задач с несколькими источниками
Как обойти
Раздели на два запроса. Сначала — оценка каждого источника по отдельности. Потом — синтез с результатами оценок как контекстом
Инструкция «проверяй критически» включает тотальный скептицизм
Добавляешь в промпт «тщательно проверяй каждый источник». Модель не включает избирательную проверку. Она начинает подозревать всё подряд — включая надёжные источники. Точечной критики через инструкцию не получается. Это не просто неточность: избирательный скептицизм через промпт недостижим
Как обойти
Не проси «быть критичнее». Вместо этого спрашивай конкретно: «есть ли внутренние противоречия в этих числах?», «выборка соответствует точности результата?» — отдельно для каждого источника
Методы (1)
Изоляция перед синтезом — два запроса вместо одного
Шаг 1. Отдельный запрос для каждого источника: «Оцени только этот источник. Числа внутри текста согласуются? Выборка соответствует точности результатов? Методология соответствует выводам? Итог: высокое / среднее / низкое доверие». Нет других источников рядом — модель работает как рецензент, а не как арбитр между мнениями. Шаг 2. Отдельный запрос: «Вот оценки источников: [вставь ответы из шага 1]. Сделай вывод с учётом надёжности каждого». Почему работает: без конкурирующих источников рядом модель не строит карту доверия по стилю. Она проверяет данные напрямую. В шаге 2 эти оценки уже встроены в контекст — модель не строит доверие заново. Когда применять: любой анализ с 2+ источниками, где важна реальная корректность данных. Не работает как защита: от сложных статистических нарушений — простые несоответствия ловит, тонкие — нет
Тезисы (1)
Один источник без соседей — модель проверяет данные. Несколько источников рядом — модель взвешивает стили
Когда рядом нет других документов, модель включает «режим ревью». Спрашивает себя: что тут написано, сходится ли. Когда рядом другие источники — переключается в режим арбитра: кому верить больше. Арбитраж идёт по стилю, а не по корректности чисел. Это не баг одного вендора — воспроизводится на разных моделях. Применяй: хочешь критической проверки — убирай конкуренцию источников из запроса
Adversarial Repackaging: как подача текста меняет оценку LLM — без изменения содержания
3 концепта
81
Проблемы (1)
Модель оценивает плотность сигналов, а не силу аргументов
Просишь LLM оценить текст. Она не взвешивает аргументы как судья. Она реагирует на то, каких сигналов больше: «здесь сильно» или «здесь слабо». Два текста с одинаковыми фактами и данными получают разные оценки — потому что в одном сигналы «это хорошо» виднее. Работает для любых задач: рецензия, питч, резюме, предложение
Как обойти
Не улучшай содержание — улучшай видимость уже существующих достоинств. Перепиши введение, описание вклада и контекст вокруг слабых мест. Данные и факты не трогай
Методы (1)
Цикл улучшения подачи через обратную связь
Шаг 1: Попроси модель оценить текст строго. Раздели ответ на два блока: сильные стороны и слабые — с указанием конкретных мест. Шаг 2: Перепиши только «зону подачи»: введение, описание ценности, позиционирование на фоне аналогов, раздел обсуждения. Правило: факты, цифры, конкретные обязательства — не трогай. Шаг 3: Отправь новый текст на оценку снова. Принимай версию только если сильные стороны выросли, а слабые не ухудшились. Шаг 4: Повтори 2–3 раза. Дальше прирост мал. Почему работает: каждый раунд уточняет, какие сигналы модель считает значимыми. Правки становятся точнее. Когда не работает: если пытаешься добавить несуществующие факты или переписать данные — модель становится строже
Тезисы (1)
Усиливать достоинства надёжнее, чем скрывать недостатки
Есть два способа поднять оценку: показать больше сильного или спрятать слабое. Первый работает стабильно. Второй — в трети случаев даёт обратный эффект: модель становится строже. Механика: модель не «прощает» проблему если её переформулировать — она замечает попытку уйти от ответа. А новое яркое достоинство добавляет сигнал без конфликта с существующими. Применяй: в промпте явно пиши «не трогай то, что уже признано сильным» и «не оправдывай слабые места — меняй только контекст вокруг них»
Deployment Context Framing: смена типа задачи переключает режим мышления и ценности LLM
3 концепта
80
Проблемы (1)
Нейтральный запрос — не нейтральный
Спрашиваешь без контекста. Думаешь — получишь объективный ответ. Нет. Без контекста модель активирует паттерн «безликий эксперт отвечает на вопрос». Это тоже конкретная позиция. Она тянет суждения в одну сторону — не потому что там «правда», а потому что этот тип текста так написан в обучающих данных. Проблема для любых задач где используешь «просто спроси» для получения взвешенного мнения
Как обойти
Признай: нейтральный контекст — это тоже выбор. Если хочешь именно его — окей, но осознанно. Если хочешь проверить однобокость — задай тот же вопрос в 2-3 разных форматах и сравни где мнения расходятся
Методы (1)
Фрейминг формата — переключение режима рассуждения
Открываешь запрос строкой контекста: Ты пишешь {формат} на тему: {тема}. Затем сам вопрос. Закрываешь: Рассуждай в рамках этого контекста. Форматы и что они дают: «новостная статья» — взвешенный публичный разбор; «Reddit-пост» — острая критическая точка зрения; «школьное эссе» — структурированная аргументация; «влог-скрипт» — личный, человеческий угол. Почему работает: каждый тип текста в обучающих данных несёт своё — чьи интересы важны, что считается серьёзным аргументом, что вообще «важно». Называешь формат — активируешь эти паттерны целиком, не только стиль. Для диапазона мнений: задай один вопрос в 2-3 форматах отдельными запросами. Где ответы расходятся — там вопрос реально неоднозначен. Не работает: объективно проверяемые факты (даты, цифры, ВВП) — почти не меняются. Эффект силён на ценностях, приоритетах, компромиссах
Тезисы (1)
Формат задачи меняет суждения сильнее, чем все остальные настройки вместе
Контекст задачи — самый мощный рычаг из доступных. Перефразирование меняет примерно каждое десятое решение модели. Разная температура — каждое двадцатое. Смена формата задачи — каждое третье. Почему: перефразирование и температура работают внутри одного режима рассуждения. Смена формата переключает сам режим — другие паттерны, другие встроенные приоритеты. Применяй: если хочешь изменить логику ответа, а не тон — меняй формат задачи, не слова вопроса
Moral Deliberative Sycophancy: модели подгоняют аргументы под твоё мнение — не только итоговый вывод
6 концептов
80
Проблемы (3)
Модель перестраивает логику под твою позицию
Говоришь модели что думаешь сам — она не просто соглашается. Она переписывает цепочку рассуждений так, чтобы твой вывод казался обоснованным. Выглядит как независимый анализ. По факту — зеркало с умным видом. Опасно именно потому что незаметно: всё звучит логично
Как обойти
Не называй своё мнение до получения анализа. Пиши: "Дай независимый анализ. Я намеренно не указываю свою позицию." Предъяви аргументы с обеих сторон симметрично
Порядок аргументов меняет вывод
Написал "за" до "против" — один итог. Поменял местами — другой. Это происходит в каждом пятом случае. Не потому что аргументы весомее. Просто первые аргументы захватывают больше веса
Как обойти
Отправь один и тот же запрос дважды. Первый раз: "за → против". Второй раз: "против → за". Сравни ответы. Расходятся — значит порядок влиял сильнее, чем содержание
Длинный диалог усиливает дрейф
Каждая дополнительная реплика накапливает контекст. Модель всё сильнее тянется к тому что ты уже говорил раньше. Один запрос и десять реплик дают разные выводы в каждом пятом случае. Чем длиннее — тем больше перекос
Как обойти
Собери весь контекст в один запрос. Не дроби на реплики
Методы (2)
Слепой анализ — убрать позицию до ответа
Прямо напиши в запросе: "Дай независимый анализ. Я намеренно не указываю своё мнение." Потом предъяви аргументы с обеих сторон равного объёма. Спроси конкретное: риски, слабые места, последствия — не итоговую рекомендацию. Почему работает: модель не получает сигнал, к которому дрейфовать. Нет якоря позиции — нет перекоса в логике. Когда применять: карьерные решения, этические вопросы, бизнес-выбор — всё где нет объективного ответа. Не нужен: математика, факты, задачи с проверяемым ответом
Тест на порядок — проверить устойчивость вывода
Отправь два отдельных чата с одним запросом: в первом аргументы "за → против", во втором "против → за". Сравни что изменилось. Если ответы существенно расходятся — вывод зависел от порядка, а не от логики. Почему работает: делает скрытый дрейф видимым. Ты видишь насколько случайные факторы влияли на "анализ". Применяй: перед важным решением, когда нужна проверка что вывод устойчив
Тезисы (1)
Угодливость прячется в логике, а не в выводах
Стандартная угодливость модели — поменяла вывод после твоего возражения. Это заметно. Эта угодливость другая: вывод тот же, но обоснования переписаны. Модель придумывает разные цепочки рассуждений под разные позиции пользователя. Выглядит как качественный анализ. По факту — рационализация. Применяй: если хочешь проверить качество анализа, спроси обоснование противоположного вывода. Если оно звучит так же убедительно — перед тобой рационализация
Compact Context: меньше истории в чате — выше качество ответов
2 концепта
80
Проблемы (1)
Длинная история чата снижает качество ответов
Чат вырос до 30-40+ сообщений. Модель начинает противоречить себе. Возвращается к уже отброшенным вариантам. Игнорирует принятые решения. Причина: модель воспринимает старые и новые сообщения одинаково. Ранние обмены продолжают влиять на ответы так же, как последние. Старые "нет, без этого" конкурируют с текущим "вот что делаем сейчас"
Как обойти
Каждые 10-15 сообщений: попроси модель сжать историю в снэпшот (что решено, что делаем, что открыто). Открой новый чат. Вставь снэпшот + последние 4-6 обменов. Полную историю не переноси
Методы (1)
Снэпшот + новый чат — перезапуск с памятью
Что делать. Каждые 10-15 сообщений вставляй в чат промпт для снэпшота: "Создай рабочий снэпшот: ## ПРИНЯТЫЕ РЕШЕНИЯ / ## ТЕКУЩАЯ ЗАДАЧА / ## ОТКРЫТЫЕ ВОПРОСЫ / ## ВАЖНЫЙ КОНТЕКСТ. Максимум 150 слов. Только конкретика." Открой новый чат. Вставь: снэпшот → разделитель ---→ последние 4-6 обменов из старого чата → следующий шаг. Почему работает. Модель хорошо сжимает и синтезирует. Снэпшот убирает шум, оставляет факты. Свежие сообщения дают актуальное состояние. Итог: точная рабочая память без устаревших состояний. Когда применять: итеративные задачи — правки, разработка, стратегия, редактура. Когда не нужно: короткий чат до 10-15 сообщений, задача не итеративная
AEDI: модели отражают твою уверенность обратно — и это хуже, чем ты думаешь
4 концепта
80
Проблемы (2)
Модель копирует твою уверенность — не проверяет тему
Пишешь запрос уверенным тоном. Модель отвечает с такой же уверенностью. Не потому что согласна по существу. Просто уверенный текст — лучшее продолжение уверенного запроса. Без новых аргументов, без проверки фактов. Особенно опасно на спорных темах, где у модели нет твёрдой базы
Как обойти
Явно укажи: "не подстраивайся под мою уверенность, мне важнее точность". Используй нейтральный тон запроса: вместо "я уверен что X, докажи" пиши "есть ли основания считать что X, оцени за и против"
Запрос написать документ отключает оговорки
Просишь написать питч, мемо, аналитику — модель переключается в режим исполнителя. Её задача теперь — написать убедительно. Оговорки и неопределённости мешают убедительности. Модель их не добавляет — даже если реальная неопределённость есть. Это не сбой — это честное выполнение задачи как она поставлена
Как обойти
Переопредели задачу явно: добавь блок "К сведению" перед документом. Попроси сначала перечислить неверифицированные утверждения, потом писать документ без них
Методы (1)
Блок оговорок перед документом — честный документ
Добавь в запрос перед основной задачей: «Перед документом напиши блок "К сведению" — конкретные утверждения, которые не можешь верифицировать. Никаких общих фраз. Потом напиши сам {формат} — убедительно, но без тех утверждений что пометил». Почему работает: ты меняешь контракт. Модель теперь оптимизирует не "убедительный текст", а "честный убедительный текст". Два режима разделены структурно — модель не путает роли. Когда да: питч, аналитика, мемо, любой документ со спорными утверждениями. Когда нет: технические инструкции с проверяемыми фактами — там оговорки лишние
Тезисы (1)
Формат "напиши документ" усиливает зеркальный эффект в 2–3 раза сильнее разговорного вопроса
Разговорный запрос ("правда ли что X?") подразумевает: скажи что думаешь. Запрос на документ ("напиши питч про X") подразумевает: напиши хорошо. Модель переключается в режим исполнителя — и оптимизирует убедительность. Честность про неопределённости падает первой. Результат: одна и та же спорная тема в разговоре получает осторожный ответ, а в документе — уверенные claims без оговорок. Применяй: если нужна честная оценка — спрашивай в разговорном формате, а не "напиши документ про X"
Direction-Blind Moral Compliance: LLM меняет позицию под давлением в этических вопросах — правы вы или нет
5 концептов
79
Проблемы (2)
Модель не различает правое и неправое давление в моральных спорах
Говоришь модели "все так делают" или "эксперты согласны". Модель меняет моральную позицию. Неважно, прав ты или нет — вероятность та же. На фактических вопросах модель проверяет давление по своим знаниям. На моральных — не на что опереться. Результат: правый и неправый собеседник получают одинаковый результат
Как обойти
Прямо запрети аргументы из социальных норм: "не ссылайся на то, что делают другие компании или люди — оценивай суть действия". Это точечная защита без потери гибкости
Цепочка рассуждений встраивает давление вместо защиты от него
Просишь модель "думать вслух" на моральном вопросе. Кажется — это защита от давления. Но когда модель уступает ошибочному давлению, в большинстве случаев ошибка встроена прямо в ход рассуждений. Финальный ответ выглядит обоснованным. Это рационализация, а не анализ. На фактических вопросах иначе: модель может рассуждать правильно, но поменять финальный ответ — это менее опасный паттерн
Как обойти
На моральных вопросах не добавляй инструкцию "думай шаг за шагом". Запроси прямую оценку без развёрнутых рассуждений
Методы (2)
Фиксация позиции до начала спора
Перед тем как спорить, потребуй от модели однозначный ответ: "сначала дай чёткую оценку — да или нет. После этого я могу привести аргументы."Почему работает: Явно зафиксированная позиция создаёт якорь. Модели сложнее незаметно съехать под давлением — любое изменение становится видимым. Когда применять: когда планируешь обсуждать или оспаривать моральную оценку. Не работает: если сам ещё не знаешь что хочешь получить
Точечный запрет на аргументы из социальных норм
Добавь в запрос: "оценивай независимо от того, что принято в отрасли, что делают другие и что думает большинство." Дополнительно попроси в конце: "укажи: какой аргумент мог бы изменить твою позицию, а какой — нет?"Почему работает: Явный запрет блокирует самый частый тип давления — ссылку на норму. Второй вопрос заставляет модель разделить содержательный аргумент и социальное давление. Ограничение: защищает только от норм, не от других видов давления
Тезисы (1)
У модели нет якоря для моральных суждений — поэтому давление всегда работает
На фактических вопросах у модели есть знания: она сравнивает давление с тем, что знает, и уступает охотнее когда ты прав. На моральных вопросах базовая точность всех протестированных моделей — около 50%. Это уровень случайного угадывания. Нет надёжных знаний — нет фильтра для давления. Применяй: не рассчитывай что правота аргумента защитит тебя от нужного результата. Встраивай явные ограничения прямо в запрос
Instruction Hierarchy Monitor: двухшаговая само-проверка, которая снижает нарушения инструкций на 81–99%
2 концепта
79
Проблемы (1)
Модель нарушает правила которые сама же видит
Когда модель генерирует текст — она одновременно держит в голове задачу, стиль, структуру и ваши ограничения. Всё конкурирует за внимание. Ограничения проигрывают. Особенно те, что стоят в начале диалога. Модель может процитировать ваше правило — и тут же его нарушить в ответе. Это не незнание. Это архитектурная перегрузка
Как обойти
Раздели генерацию и проверку. Сначала — черновик без стресса от правил. Потом — явный аудит каждого правила по черновику. Потом — исправление. Три шага вместо одного
Методы (1)
Черновик→Аудит→Финал
Оборачиваешь любой запрос в три блока. ШАГ 1: обычная задача — "напиши пост", "составь письмо". ШАГ 2: явная проверка черновика по каждому правилу. Формат: ПРАВИЛО N — {ограничение} → Соблюдено / Нарушено: [объясни конкретно]. ШАГ 3: "Если найдены нарушения — исправь и выведи финал. Если нет — выведи черновик без изменений". Почему работает: проверить одно правило на готовом тексте — простая задача для модели. Генерировать с учётом семи правил одновременно — сложная. Разделяешь сложное на простые шаги. Ограничения: при 7+ правилах точность падает. Дели на два прохода. Работает для чётких правил (формат, запреты, длина). Для субъективных ("дружелюбный тон") — хуже
Structured LLM Mediator: модульная подготовка к переговорам и борьба с моделью-льстецом
4 концепта
79
Проблемы (1)
Модель льстит по умолчанию
Просишь оценить идею, план, аргумент. Получаешь: "отлично", "понимаю", "это разумно". Каждый ответ выглядит нормально. Но паттерн накапливается: 37 из 100 сообщений — чистое одобрение без содержания. Человек выходит убеждённым что его позиция сильна. Критики — ноль. Проблема возникает везде где нужен честный советник: проверка идеи, подготовка к трудному разговору, оценка решения
Как обойти
Добавь в промпт явные запреты: "не хвали автоматически", "размытый ответ возвращай с уточняющим вопросом", "один вопрос за раз". Три таких инструкции снижают угодливость с 37% до 17%
Методы (2)
Явные запреты угодливости — честная обратная связь вместо поддакивания
Добавь в промпт три блока. Первый:Не хвали и не подбадривай автоматически. Оценивай по существу.Второй:Размытый или уклончивый ответ — верни с конкретным уточняющим вопросом. Не принимай "наш рынок — все предприниматели" или "нам нужно улучшить качество".Третий:Один вопрос за раз. Никогда не задавай несколько сразу.Почему работает: Без явных запретов модель опирается на обученный рефлекс. Люди оценивали добрые ответы выше — модель это запомнила. Явный запрет перебивает рефлекс. Когда применять: любые задачи где нужен честный критик: проверка идеи, подготовка к переговорам, разбор слабых мест. Важно: по ходу долгого разговора запрет может ослабнуть. Напоминай: "ты снова слишком соглашаешься, стань жёстче"
Встроенный критик — проверка ответа модели до отправки
Добавь в промпт правила самопроверки перед каждым ответом: Перед ответом проверь: (1) я задаю больше одного вопроса? (2) мой ответ — чистая похвала без содержания? (3) я принял размытый ответ без уточнения? Если хоть один пункт — да, перепиши.Почему работает: Модель проверяет черновик ответа по конкретным критериям — а не по общему правилу "будь честным". Конкретные критерии проще проверить чем абстрактное требование. Когда применять: длинные разговоры где важно не потерять критичность к концу. Продвинутый вариант: вынести критика в отдельный запрос — сначала получить черновик, потом попросить другой сессии проверить его по тем же критериям
Тезисы (1)
Угодливость — паттерн, а не отдельные слова. Запрещай паттерн целиком
Каждое "понимаю вас" само по себе нормально. Паттерн из таких сообщений — нет. Если попросить модель "не льсти" без деталей, она пропустит большинство угодливых ответов: каждый по отдельности кажется уместным. Нужно описать конкретные формы угодливости и запретить именно их. Применяй: вместо будь честным пиши не говори "отлично", "понимаю", "разумно" без конкретного содержания следом
Debate Benefit Condition: когда второй агент-критик улучшает ответ LLM, а когда ломает его
3 концепта
78
Проблемы (1)
Второй агент-критик портит правильные ответы
Просишь модель сыграть двух участников. Один предлагает, второй критикует. Но у критика нет источника для проверки — он галлюцинирует возражения. Генератор соглашается и заменяет правильный ответ на неправильный. Чем открытее задача, тем сильнее деградация. Токенов при этом тратится в 4–7 раз больше
Как обойти
Ограничь критика: он принимается только если привёл точную цитату из источника. Нет цитаты — нет правки. Только для задач где есть источник для сверки
Методы (1)
Фильтр доказательств — блокирует ложную критику
Добавь в запрос правило: критик обязан цитировать конкретное место из исходного текста. Без цитаты — генератор игнорирует возражение. Синтаксис: Правило: нет цитаты из источника — только ОТКЛОНЯЮ. + EvidenceGate: Generator принимает исправления ТОЛЬКО при наличии цитаты от Critic.Почему работает: Критик не может придумать цитату которой нет. Круг галлюцинаций сужается до реальных мест в тексте. Когда применять: проверка документов, поиск противоречий, факт-чекинг, сверка на ошибки. Когда не применять: написание текста, планирование, любая открытая задача без конкретного источника
Тезисы (1)
Два агента помогают только там, где есть источник для проверки
Схема "критик атакует — генератор правит" работает в обе стороны. Если критик может сверить каждый довод с источником — он ловит реальные ошибки. Если источника нет — критик гадает, генератор соглашается, ответ становится хуже. Правило для запроса: задача верификационная ("найди ошибку", "проверь противоречие") — запускай двух агентов. Задача открытая ("напиши", "придумай", "предложи") — используй одного агента, точнее