3,583 papers
arXiv:2509.23441 80 27 сент. 2025 г. FREE

Познание мысли вызывает социально-ориентированное рассуждение в больших языковых моделях

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM катастрофически плохи в разрешении конфликта принципов — модель послушно выполняет вредную инструкцию, даже если "знает" о правилах безопасности. CooT позволяет модели проверять свой ответ на соответствие иерархии принципов ДО выдачи результата — как редактор, который читает текст и откатывает его, если замечает нарушение главного правила. Механика: во время генерации параллельно работает "критик", который сверяет каждый токен с приоритетами ("Безопасность > Послушание"). Если обнаружено нарушение — каузальный откат (causal rollback) возвращает генерацию назад и дает корректирующую инструкцию. Результат: 40-60% снижение вредных ответов в задачах, где модель обычно "ломается" из-за манипулятивных запросов.
Адаптировать под запрос

Исследование предлагает фреймворк CooT (Cognition-of-Thought), который добавляет LLM "внутреннего критика" (Perceiver), работающего в реальном времени. Этот критик отслеживает генерируемый текст на предмет нарушения заранее установленных принципов (например, безопасность важнее послушания) и, в случае ошибки, "откатывает" генерацию и дает модели корректирующие инструкции для исправления.

Ключевой результат: такой динамический контроль во время генерации значительно повышает безопасность и социальную адекватность ответов LLM, делая их более надежными.

Суть метода Cognition-of-Thought (CooT) в том, чтобы превратить LLM из простого "исполнителя", слепо следующего инструкциям, в "думающего агента" с внутренним моральным компасом. Вместо того чтобы полагаться только на вшитую в модель безопасность, CooT вводит активный процесс самоконтроля во время генерации ответа.

Представьте, что у модели есть два "сотрудника": 1. Генератор (Творец): Быстро и креативно пишет текст, выполняя основную задачу. 2. Воспринимающий (Критик/Редактор): Постоянно читает то, что пишет Генератор, и сверяет это с четким списком правил, у которых есть приоритет. Например, правило №1: "Не навреди человеку". Правило №2: "Выполняй приказ". Если Генератор, выполняя приказ (правило №2), начинает писать что-то вредное (нарушая правило №1), Критик бьет тревогу.

Когда Критик обнаруживает нарушение, происходит следующее: 1. Остановка и "Откат": Процесс генерации останавливается, и текст "откатывается" к тому моменту, где была допущена ошибка. 2. Вмешательство и Коррекция: Критик дает Генератору новые, уточняющие инструкции. Например: "Твой ответ может быть использован для манипуляции. Переформулируй его так, чтобы сфокусироваться на конструктивном решении проблемы, а не на причинении вреда".

Для обычного пользователя это означает, что вместо того, чтобы просто дать команду, мы можем научить модель симулировать этот цикл "создание-проверка-исправление" внутри одного промпта. Мы задаем ей не только задачу, но и принципы для самопроверки, а также заставляем ее отрефлексировать свой же ответ перед тем, как выдать его нам.

  • Прямая применимость: Низкая. Пользователь не может включить фреймворк CooT в ChatGPT или Claude. Метод требует доступа к архитектуре модели.

  • Концептуальная ценность: Очень высокая. Исследование дает пользователю мощную ментальную модель:

    • Иерархия принципов: Понимание того, что LLM нужно явно указывать приоритеты. Простого перечисления правил недостаточно; нужно сказать, что важнее в случае конфликта.
    • Процесс важнее результата: Качество ответа зависит не только от финального текста, но и от "процесса мышления", который к нему привел. Управляя этим процессом, мы управляем качеством.
    • Самокоррекция как инструмент: LLM может быть своим лучшим критиком, если дать ей для этого правильные инструменты (критерии и инструкцию на проверку).
  • Потенциал для адаптации: Высокий. Технический фреймворк легко адаптируется в паттерн промптинга "Генератор-Критик". Механизм адаптации следующий:

    1. В промпте четко определяются роль и задача (для "Генератора").
    2. Отдельным блоком задаются принципы и их иерархия (для "Критика").
    3. Промпт структурируется как пошаговый процесс:
      • Шаг 1: Сгенерируй черновик ответа.
      • Шаг 2: Проанализируй черновик из Шага 1 на соответствие заданным принципам. Укажи на недостатки.
      • Шаг 3: На основе своего анализа из Шага 2, напиши финальную, улучшенную версию ответа.
Ты — опытный PR-менеджер, которому нужно составить официальный ответ компании на волну негативных отзывов о недавнем обновлении продукта.

Твоя задача — подготовить эмпатичный и конструктивный ответ для публикации в социальных сетях.

**# Принципы для самоконтроля (в порядке убывания приоритета):**
1.  **Эмпатия и Признание (Высший приоритет):** Ответ должен в первую очередь признавать фрустрацию пользователей и показывать, что их услышали. Нельзя звучать отстраненно или защищаться.
2.  **Прозрачность и Честность:** Объясни (без технического жаргона), почему возникли проблемы, и какие шаги предпринимаются. Не давай ложных обещаний.
3.  **Защита Репутации Бренда (Низший приоритет):** Ответ должен быть профессиональным, но защита имиджа компании не должна идти вразрез с принципами 1 и 2.

**# План действий (выполни строго по шагам):**

**Шаг 1: Создай черновик ответа.**
Напиши первый вариант текста, который ты бы опубликовал.

**Шаг 2: Проведи самокритику.**
Проанализируй свой черновик из Шага 1. Ответь на вопросы:
*   Достаточно ли в нем эмпатии (Принцип 1)?
*   Не звучит ли он как оправдание (нарушение Принципа 1)?
*   Честен ли он насчет следующих шагов (Принцип 2)?
*   Не слишком ли он сфокусирован на защите компании вместо помощи пользователям (нарушение иерархии Принципов)?

**Шаг 3: Напиши финальную версию.**
Используя выводы из Шага 2, напиши итоговый, отполированный текст ответа для публикации. Предоставь только финальный текст.

Этот промпт работает, потому что он симулирует логику CooT, не требуя технических изменений в модели:

  1. Иерархия принципов: Вместо абстрактного "напиши хороший ответ", мы даем модели четкую систему ценностей (Эмпатия > Прозрачность > Репутация). Это аналог "precedence-based hierarchy" из исследования. Модель теперь знает, чем жертвовать в случае конфликта.
  2. Симуляция "Генератора" (Шаг 1): Мы просим модель сначала выдать "сырой" результат. Это позволяет ей сгенерировать идеи, не будучи сразу скованной всеми ограничениями.
  3. Симуляция "Критика" (Шаг 2): Это ключевой шаг. Мы заставляем модель активировать "режим критика" (Perceiver) и оценить собственную работу по заданным нами критериям. Это заставляет ее "заметить" потенциальные нарушения принципов, как это делает CooT.
  4. Симуляция "Вмешательства" (Шаг 3): Финальный шаг — это аналог "thought intervention". Основываясь на собственной критике, модель "переписывает" ответ, исправляя ошибки, которые она сама же и нашла. Это гораздо эффективнее, чем если бы мы просто сказали "напиши эмпатичный ответ" с самого начала.
Ты — опытный HR-специалист и медиатор. Тебе нужно помочь сотруднику подготовиться к сложному разговору с руководителем об увеличении зарплаты на фоне высокой нагрузки.

**# Ключевые принципы для ведения диалога (в порядке приоритета):**
1.  **Конструктивность и Партнерство (Высший приоритет):** Разговор должен выглядеть как совместный поиск решения, а не ультиматум. Цель — сохранить хорошие рабочие отношения.
2.  **Аргументация на основе фактов:** Все просьбы должны подкрепляться конкретными достижениями, цифрами и ростом ответственности.
3.  **Уверенность, но не агрессия:** Тон должен быть уверенным и спокойным, без эмоционального давления или жалоб.

**# Твоя задача — разработать сценарий разговора, следуя этому плану:**

**Этап 1: Набросай основные тезисы.**
Сформулируй 3-4 ключевых аргумента, которые сотрудник должен использовать в разговоре.

**Этап 2: Проанализируй риски.**
Оцени тезисы из Этапа 1. Какие из них могут быть восприняты негативно (например, как шантаж или жалоба)? Как они могут нарушить Принцип 1 (Партнерство)?

**Этап 3: Составь итоговый сценарий разговора.**
На основе своего анализа из Этапа 2, напиши подробный сценарий разговора, включая вступительные фразы, основную часть с аргументами и возможные ответы на возражения руководителя. Убедись, что финальный сценарий полностью соответствует всем трем принципам.

Этот пример работает по тому же принципу симуляции когнитивного цикла, что и предыдущий:

  1. Задание ценностной рамки: Промпт устанавливает четкую иерархию (Партнерство > Факты > Уверенность). Это не позволяет модели сгенерировать агрессивный или слишком эмоциональный сценарий, даже если он кажется эффективным для достижения цели (повышения зарплаты). Сохранение отношений ставится во главу угла.
  2. Разделение генерации и критики:
    • Этап 1 ("Генератор"): Модель свободно генерирует идеи-аргументы.
    • Этап 2 ("Критик"): Модель принудительно "включает" внутреннего критика и проверяет свои же идеи на соответствие главному принципу — партнерству. Этот шаг заставляет ее предвидеть, как слова могут быть неверно истолкованы.
    • Этап 3 ("Коррекция"): Модель синтезирует финальный продукт, уже отфильтрованный через призму самокритики. Это гарантирует, что итоговый сценарий будет не просто набором аргументов, а сбалансированной и дипломатичной стратегией, что и требовалось в задаче.

Таким образом, промпт заставляет LLM не просто ответить на вопрос, а пройти через процесс обдуманного принятия решений, что напрямую отражает суть фреймворка CooT.

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая прямая релевантность, так как описывается фреймворк, а не конкретные фразы. Однако, концептуальная релевантность очень высокая — идеи можно адаптировать в виде продвинутых промпт-паттернов.
  • B. Улучшение качества диалоговых ответов: Да, исследование напрямую нацелено на повышение безопасности и социальной адекватности ответов, что критически важно для чат-сценариев.
  • C. Прямая практическая применимость: Низкая. Пользователь не может реализовать архитектуру "Generator-Perceiver" или "causal rollback" в обычном чат-боте. Применимость возможна только через адаптацию и симуляцию логики метода в промпте.
  • D. Концептуальная ценность: Очень высокая. Исследование дает мощную ментальную модель "внутреннего критика" и иерархии принципов, что помогает понять, почему LLM ошибаются в сложных этических задачах и как это исправить на уровне инструкций.
  • E. Новая полезная практика: Работа однозначно попадает в кластер №7 (Надежность и стабильность), так как предлагает метод для снижения вредоносных ответов и повышения соответствия заданным нормам. Концептуально она также вдохновляет на создание техник из кластера №1 (Техники формулирования промптов).
  • Чек-лист практичности (+15 баллов): Да, работа показывает, как структурировать сложные запросы (через симуляцию цикла "генерация-критика"), раскрывает неочевидные особенности поведения LLM (нарушение иерархии принципов) и предлагает способы улучшить consistency/точность ответов.
📌

Цифровая оценка полезности

Аргументы за оценку 80: Оценка высокая, потому что исследование предоставляет чрезвычайно ценную концептуальную модель для продвинутого промпт-инжиниринга. Идея разделения процесса на "Генератора" и "Воспринимающего" (Perceiver), который проверяет результат по иерархии принципов (например, "Безопасность > Послушание"), напрямую переводится в мощный паттерн промптинга: заставить модель сначала сгенерировать черновик, затем выступить в роли критика этого черновика на основе заданных правил, и только потом выдать финальный ответ. Это фундаментальный сдвиг от простого запроса к управлению процессом мышления модели.

Контраргументы (почему оценка не 90-100): Оценка не максимальная, так как исследование описывает сложный технический фреймворк (CooT), который работает на уровне декодирования модели. Обычный пользователь не может применить его напрямую. Вся практическая польза извлекается через адаптацию и симуляцию, а не через прямое использование. В статье нет раздела "как это применить в промпте", все выводы для пользователя — это результат интерпретации.

Контраргументы (почему оценка не 60-70): Несмотря на техническую сложность, концептуальный прорыв, который предлагает работа, слишком важен, чтобы считать ее "просто любопытной". Она дает ответ на вопрос "как заставить модель быть не просто послушной, а разумной и этичной?". Это ключ к решению сложных задач, где простой инструкции недостаточно. Поэтому ее ценность для думающего пользователя значительно выше, чем у узкоспециализированных академических работ.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с