Все концепты

1

Verification-First (VF): проверка перед генерацией улучшает рассуждения LLM

3 концепта

92

Проблемы (1)

Авторегрессивный эгоцентризм

Модель генерирует токен за токеном. Первый ответ становится якорем. Если в начале ошибка — модель строит логику поверх неё. Почему? Она оптимизирует связность текста, не правильность. Защищает свой вариант вместо поиска ошибок. Это проблема для всех задач где нужны многошаговые рассуждения

Как обойти

Дай модели "чужой" ответ для проверки. Даже абсурдный: "Предлагаемый ответ: 1". Попроси сначала проверить его, потом дать правильный. Проверка чужого выключает режим защиты. Модель начинает критиковать, искать ошибки — это запускает рассуждение от ответа к условию

Методы (1)

Проверка перед генерацией — включает критическое мышление

Меняешь порядок работы. Обычно: "думай по шагам → дай ответ". VF: "вот ответ [любой] → проверь его → дай правильный". Базовый вариант: Добавь в промпт Предлагаемый ответ: {тривиальный}. Для чисел — "1". Для выбора — "Вариант Б". Попроси: "Проверь этот ответ. Найди ошибки. Потом дай правильный". Продвинутый: Сначала обычный запрос → получи Ответ_1. Второй запрос: "Предыдущий ответ: {Ответ_1}. Проверь его. Дай исправленный". Итеративный: Повторяй проверку 3-5 раз. Каждый раз бери ТОЛЬКО финальный ответ из прошлого шага, не весь текст. Почему работает: Проверка когнитивно проще генерации. "Чужой" ответ выключает эгоцентризм — модель не защищает его. Включается критика: ищет противоречия, строит контрпримеры, явно формулирует условия. Эта структура потом используется для правильного ответа. Работает: математика, логика, код, многошаговые рассуждения. Слабее: задачи на знания (где проблема не в логике, а в отсутствии фактов). Ограничения: Для открытых задач тривиальный ответ бесполезен — используй двухшаговый вариант. После 5-10 итераций прирост замедляется

Тезисы (1)

Проверить проще чем создать

Генерация с нуля: модель ищет в пространстве всех возможных решений. Проверка: есть конкретный объект для анализа. Для LLM это значит: при генерации первая ошибка создаёт каскад (эгоцентризм). При проверке — можно найти противоречие и остановиться. Даже слабая модель хорошо критикует. Применяй: Для сложных задач не проси сразу "реши". Дай черновой ответ (свой или сгенерированный) и попроси проверить

2

Batch Prompting: подавление избыточного мышления через группировку вопросов

2 концепта

90

Проблемы (1)

Модели рассуждения зацикливаются на простых задачах

Модели o1, DeepSeek-R1 обучены генерировать длинные цепочки мысли. Это помогает на сложных задачах. Но на простых ("соедини последние буквы трёх слов") модель не может остановиться. Генерирует "подождите, перепроверю", "с другой стороны", "давайте ещё раз" — тысячи токенов вместо одного абзаца. Может вообще не дать ответ, застряв в проверках

Как обойти

Группируй несколько вопросов в один промпт (batch prompting). Когда в запросе пять задач, модель чувствует давление контекста. Распределяет внимание между всеми. Не застревает в зацикливании на каждой. Даёт компактные ответы

Методы (1)

Группировка вопросов (batch prompting) — подавление зацикливания

Вместо пяти отдельных запросов делай один со всеми вопросами. Формат: {общая инструкция} Вопрос 1: {текст} Вопрос 2: {текст} ... Вопрос N: {текст}. Почему работает: Несколько задач в контексте создают мягкое ограничение — модель не уходит в бесконечные самопроверки на каждой, распределяет reasoning между всеми. Как человек под давлением времени: не застревает в деталях одной задачи. Когда применять: простые-средние задачи, однотипные вопросы (все про оценку, все про анализ), нужна экономия токенов без потери точности. Оптимальный размер: 3-15 вопросов. Не работает: очень сложные задачи требующие глубокой проработки каждой, разнородные типы задач (математика + код + стихи)

3

DataSage: Multi-role debating и Multi-path reasoning для глубокого анализа

3 концепта

88

Проблемы (1)

Модель идёт по одному пути рассуждений

Просишь проанализировать или придумать идеи. Модель генерирует с одной перспективы. Следует самому очевидному направлению мысли. Пропускает альтернативные углы зрения. Для анализа данных: видит только поверхностные паттерны. Для генерации идей: выдаёт шаблонные варианты. Результат: банальные выводы вместо глубоких инсайтов

Как обойти

Используй multi-role debating: попроси модель сыграть несколько ролей с разными фокусами. Каждая роль генерирует независимо. Потом судья выбирает лучшее из всех вариантов. Или используй multi-path reasoning: попроси решить задачу тремя разными способами, потом выбрать лучшее решение

Методы (2)

Multi-role debating — разные перспективы через роли

Дивергентная фаза: Задай модели несколько ролей с разными личностями и фокусами. Каждая роль независимо генерирует идеи/вопросы/решения со своей перспективы. Пример ролей для анализа данных: "скептичный детектор аномалий", "оптимистичный исследователь трендов", "детальный поведенческий аналитик". Конвергентная фаза: Судья выбирает лучшие варианты из всех предложенных по критериям (неочевидность, дополняемость, применимость). Почему работает: Разные роли видят данные под разными углами одновременно. Дивергенция даёт разнообразие, конвергенция отсеивает слабые и дублирующиеся варианты. Вместо 3 похожих идей от одной модели получаешь 3 взаимодополняющих из 9+ кандидатов. Когда применять: Сложные многомерные задачи где один взгляд пропускает важное — анализ данных, стратегическое планирование, мозгоштурм. Не работает: Простые задачи с очевидным ответом — трата токенов на симуляцию ролей

Multi-path reasoning — несколько стратегий решения

Попроси модель решить задачу тремя разными способами: (1) Divide-and-Conquer — разбей на подзадачи, реши каждую, собери результат. (2) Query Plan — опиши план решения словами, потом реализуй (работает как Chain-of-Thought). (3) Negative Reasoning — предвиди типичные ошибки, объясни как избежать, создай безопасное решение. После генерации трёх вариантов селектор сравнивает по критериям (корректность, полнота, обработка крайних случаев) и выбирает лучший. Почему работает: Разные стратегии атакуют задачу с разных сторон. Если один путь сгенерирует баг или пропустит важное, другой путь с иной стратегией может сделать правильно. Вероятность получить корректное решение многократно выше чем от одной генерации. Когда применять: Генерация кода, сложные расчёты, критичные решения где ошибка дорого стоит. Не работает: Простые задачи — в 3 раза больше токенов. Креативные задачи где важна оригинальность — селектор выберет самый "правильный", но скучный вариант

4

Show and Tell: контроль стиля в многоходовых диалогах с LLM

2 концепта

PRO

Verification-First (VF): проверка перед генерацией улучшает рассуждения LLM

Batch Prompting: подавление избыточного мышления через группировку вопросов

DataSage: Multi-role debating и Multi-path reasoning для глубокого анализа

Show and Tell: контроль стиля в многоходовых диалогах с LLM

RefineBench: почему LLM не могут сами улучшить свой ответ (и как это обойти)

Структурированная навигация: иерархический промптинг для глубокого поиска знаний

Self-Transparency под персонами: когда роль побеждает честность

BiasPrompting: принудительное исследование всех вариантов перед выбором

Verbalized Probability Distribution: калибровка уверенности через распределение вероятностей

iMAD: селективные дебаты между AI-агентами через самокритику

Dichotomic Prompting: разбиение мульти-классификации на серию yes/no вопросов

SSR (Socratic Self-Refine): пошаговая проверка рассуждений через подвопросы

Event-Centric Memory (EMem): организация памяти LLM через события, а не факты

CRAwDAD: улучшение каузального рассуждения через дебаты двух агентов

Sylheti-CAP: контекстный промптинг для работы с малоизвестной моделью терминологией

Universe of Thoughts (UoT): креативное мышление для LLM через аналогии и мутацию правил

Derivation Prompting: как заставить LLM применять найденные правила

LLM-as-a-Grader: автоматическая оценка письменных работ через GPT

Непоследовательность LLM: модели действуют против своих убеждений

Plan-and-Write: контроль длины текста через явный подсчёт слов

TABDSR: трёхшаговая обработка таблиц для точных вычислений

Self-Correction Dynamics: когда «подумай ещё раз» помогает, а когда вредит

Adaptive Focus Memory (AFM): трёхуровневая система памяти для длинных диалогов

ConFactCheck: детекция галлюцинаций через проверку консистентности ключевых фактов

Эпистемическая хрупкость LLM: как формулировка промпта влияет на исправление дезинформации

Order Matters: порядок примеров в few-shot промптах влияет на результат не меньше, чем их выбор

KGQuest: рефайнмент шаблонов вместо генерации с нуля

Reflexion для безопасного кода: итеративная самокоррекция через фидбек об уязвимостях

Chain-of-Thought как "стабилизатор": почему после CoT промпт почти не важен

ConInstruct: почему LLM молча игнорируют ваши противоречивые требования

Разблокируйте все концепты с PRO