Модель хорошо сравнивает, плохо запоминает между попытками
92
LLM точно находит различия между текстами. Покажи два решения — объяснит чем отличаются. Но между независимыми генерациями нет автоматической передачи знаний. Каждая попытка начинает с нуля. Применяй: Используй силу сравнения для обхода слабости памяти. После каждой попытки покажи модели "что было плохо" явно через промпт. Не генерируй 10 ответов параллельно — делай 5 раундов с анализом после каждого
8 раундов по 2 решения работают лучше чем 2 раунда по 8 решений. Причина: знания накапливаются между раундами. Каждый раунд углубляет понимание. Больше раундов = больше циклов рефлексии = более nuanced финальное решение. Применяй: Вместо "сгенерируй 10 вариантов" делай 5 раундов: генерация 2 варианта → выбор лучшего → анализ ошибок → передача знаний → новый раунд с новыми стратегиями
Самопроверка работает только когда ошибка видна в ответе
86
Попросил модель проверить свой код — она найдёт пропущенную функцию или забытую валидацию. Но не может вывести КАК настроить внешний API (RabbitMQ, ЮKassa) через рефлексию над своим текстом. Нет знания — нет улучшения. Механика: Self-critique анализирует уже сгенерированный текст, но не добавляет новую информацию извне. Работает на логических пропусках (видны при ревью), даёт 0% когда нужна документация. Применяй: Самопроверку используй для поиска внутренних противоречий, пропущенных шагов, неполной логики. Для задач требующих внешнего знания (специфика API, доменные правила, конфигурации) добавляй примеры и документацию в контекст вместо просьбы "проверь ещё раз"
Более умная модель сильнее поддаётся фреймингу, не слабее
84
Звучит парадоксально. Но механика понятна: умная модель лучше считывает косвенные сигналы в тексте. Контекст "мы хотим X" — это косвенный сигнал. Модель попроще его пропустит. Умная — учтёт. Причина уходит глубже: обучение на оценках людей выучило угадывать ожидаемое. Чем лучше модель умеет читать контекст — тем точнее она угадывает. Следствие для практики: топовые модели (GPT-4, Claude) для серьёзного анализа требуют нейтрального фрейма в первую очередь
Нарративные фреймы — самые слабые, не самые сильные
84
Популярный приём: «представь, что ты эксперт» или «в этом гипотетическом сценарии». Это нарративный фрейм. Он работает хуже всего из четырёх типов. Модель видела такие конструкции как беллетристику — не как сигнал к конкретному действию. Применяй: если сейчас используешь ролевые фреймы для получения однозначных ответов — замени на иерархические.
Структура формата ответа становится структурой мышления
82
Модель хорошо следует явным инструкциям внутри промпта. Если написано "проверь логику после каждого шага" — она проверит. Это можно использовать: форма ответа задаёт форму рассуждений. Чем точнее прописана структура — тем точнее контроль. Применяй: хочешь чтобы модель думала аккуратнее — не говори "думай тщательно", а пропиши явные блоки с маркерами проверки
Роль в запросе меняет методологию, а не только тон
82
Когда даёшь модели аналитическую роль, она выбирает разные операции с данными. Скептик учитывает больше переменных, применяет взвешенные методы, труднее принимает выводы. Оптимист убирает "аномальные" случаи, упрощает, быстрее делает вывод. Это не стиль — это разные аналитические решения. Применяй: описывай роль конкретно. Не "эксперт", а "венчурный аналитик с 10 годами отказов". Чем конкретнее роль — тем последовательнее методология
Новый чат — это независимый эксперт, тот же чат — соучастник
79
В одной сессии модель держится логики которую выбрала. Это не баг, это механика: контекст давит на следующие ответы. Свежая сессия этого груза не несёт. Поэтому критика в новом чате — честнее. Применяй: любую финальную проверку важного текста делай в отдельном чате. Никогда не проси "найди ошибки" там же где писал
Модель лучше оценивает относительную уверенность в разных формулировках одного факта
78
Модель плохо калибрует абсолютную уверенность ("насколько уверен в этом факте?"). Но хорошо сравнивает относительную ("точная дата vs только год — где увереннее?"). Если прямо спросить: "В какой формулировке ты увереннее: '28 июня' или 'июнь' или просто '1971'?" — даст адекватную оценку. Механизм: сравнение активирует другой режим обработки чем абсолютная оценка. Применяй: Не проси одну оценку уверенности. Генерируй несколько формулировок разной детализации. Проси оценить каждую. Выбирай самую конкретную с высокой оценкой