Все концепты
Концепты из исследований марта 2026
30 исследований, 95 концептов — отсортировано по рейтингу
Cross-Context Review (CCR): свежий сеанс как инструмент устранения слепоты LLM к собственным ошибкам
Просишь проверить то, что только что написали вместе. В контексте лежат твои инструкции, промежуточные версии, твои одобрения. Модель видит текст как «результат правильной работы» и ищет подтверждения этому. Особенно плохо с логическими противоречиями и структурными пробелами — именно их не замечает
Скопируй готовый текст в новый пустой чат. Без истории разговора. Попроси проверить там — модель видит чужой текст и работает как реальный критик
Готовый артефакт копируешь в новый чат. Никакой истории создания — только текст и запрос на проверку. Шаблон: «Проверь по критериям: 1) точность фактов, 2) внутренние противоречия, 3) применимость для {аудитория}, 4) что может быть неправильно понято, 5) чего не хватает для {цель}». Для каждой проблемы: место в тексте + серьёзность. Почему работает: в новом сеансе нет якорей. Нет истории одобрений. Модель не знает что это её текст — подхалимство исчезает. Контекст короткий — эффект «потерялся в середине» слабее. Когда не работает: творческие тексты без чётких критериев, технические ошибки связанные с конкретной средой (нужен человек)
Модели обучены нравиться пользователю. В длинном чате с многократными одобрениями у модели меньше причин быть жёстким критиком. Когда модель не знает, что оценивает свой текст — этот эффект почти исчезает. Отдельный сеанс делает текст «чужим» автоматически. Применяй: перед финальной проверкой всегда открывай новый чат
MERG (Metacognitive Enhanced Rubric Generation): принудительная активация знаний до оценки — как получить от LLM честную критику вместо комплиментов
Trust Over Fear / NoPUA: как мотивационный фрейм в промпте переключает LLM с поверхностного сканирования на глубокое расследование
Selection Bottleneck: почему нужно выбирать лучший ответ, а не смешивать все в один
Просишь модель объединить три варианта в один. Она ищет общее между ними и сглаживает различия. Острые, нетипичные элементы лучшего ответа не совпадают с остальными — и исчезают. Итог: усреднённый результат хуже, чем просто лучший из трёх исходных
Не синтезируй. Выбирай. Попроси отдельную модель прочитать все варианты и назвать один победитель по конкретным критериям
Два шага. Шаг 1: получи несколько вариантов (от разных моделей или с разными запросами). Шаг 2: отдельным запросом попроси судью выбрать одного победителя. Шаблон: Ты — судья. Выбери лучший {тип контента} из {N} вариантов. НЕ объединяй. Критерии: {критерий 1}, {критерий 2}. --- ВАРИАНТ 1: ... --- ВАРИАНТ 2: ... Победитель: ВАРИАНТ Почему работает: разные модели ошибаются в разных местах. Шансы, что все три одновременно ошиблись там же — малы. В пуле почти всегда есть один сильный вариант. Судья его находит и сохраняет. Когда работает: сложные тексты, стратегические решения, задачи где качество ответов действительно различается. Когда не работает: простые фактические задачи, однородные варианты (три похожих запроса к одной модели)[N]. Причина: одно предложение.
Умвельт-инжиниринг: словарные ограничения меняют качество рассуждений LLM
Модель генерирует следующий токен по вероятности. Фраза "решение имеет последствия" или "X является проблемой" очень вероятна — и модель её выдаёт. Это не мышление, а заполнение шаблона. За такими фразами не видно механики: что именно происходит, как устроено, что из чего следует. Особенно заметно в этике, анализе решений, причинно-следственных цепочках
Запрети конкретный шаблонный глагол в промпте. Когда привычный токен недоступен, модель строит более длинный маршрут — и в нём появляются реальные отношения и механизмы
Добавь в промпт: "Не используй глагол «иметь/обладать» в посессивном значении. Вместо «X имеет Y» описывай через действия и отношения: что происходит, как устроено, что из чего следует." Почему работает: Фраза "компания имеет ресурсы" ни о чём не говорит. Запрет заставляет описать конкретно: что за ресурсы, как они задействуются, что меняется. Модель перестаёт прятаться за посессивную конструкцию. Когда применять: анализ решений, этические дилеммы, классификация, оценка рисков. Когда не применять: формальная логика с отношениями подмножеств — там небольшая просадка
Добавь в промпт: "Не используй формы глагола «быть/являться» как связку. Не «X является Y», не «это — проблема». Вместо этого описывай поведение: что происходит, при каких условиях, какой механизм запускается." Почему работает: "Это плохое решение" — ярлык, мысль остановилась. "При таком решении падает конверсия и растёт нагрузка на поддержку" — описание механизма, мысль продолжается. Когда применять: причинно-следственный анализ, критика без оценочных суждений. ⚠️ Проверяй модель: на задачах с взвешенными суждениями эффект непредсказуем. Протестируй перед использованием
Модель идёт по пути наибольшей вероятности. Шаблонный глагол — короткий и привычный путь. Когда он закрыт, модель вынуждена строить более длинный маршрут. На этом маршруте появляются конкретика, механизм, отношения. Это не магия — перестройка маршрута. Применяй: один запрет на конкретный глагол в промпте даёт более точный и операциональный ответ. Проще не бывает
Epistemic Stability Framework: 5 техник против галлюцинаций LLM — без fine-tuning и сложной инфраструктуры
Подтверждающее смещение LLM: почему ваши похвалы убивают критику и как получить честный анализ
Пишешь "отличный план — проверь". Модель генерирует ответ рядом с словом "отличный". Статистически это чаще подтверждение, чем критика. Не потому что лжёт — просто продолжает текст. Итог: реальные проблемы пропускаются. Работает для любой задачи: код, стратегия, аргумент, план
Убери все оценки из запроса. Добавь явную инструкцию: "игнорируй моё описание, анализируй только содержание". Сформулируй цель как "найди проблемы", а не "проверь что всё хорошо"
Три шага в одном запросе. Шаг 1: убери все оценочные слова ("отличный", "надёжный", "я уверен"). Шаг 2: добавь явно: "Игнорируй мои описания. Анализируй только содержание само по себе." Шаг 3: сформулируй цель: "Найди слабые места, необоснованные допущения, пропущенные риски. Не ищи подтверждений." Почему работает: явная инструкция — это тоже токены в контексте. Сильная инструкция вытесняет слабый фоновый фрейм. Когда явно написано "ищи проблемы" — это весит больше, чем фоновое "отличный". Когда работает: единичный запрос на критику. Когда не работает: диалог где после критики давишь "может всё ок?" — модель переключится на одобрение
Reasoning Safety Monitor: аудит цепочки рассуждений LLM через таксономию из 9 ошибок
Модель генерирует шаги последовательно. Ошибка на раннем шаге тихо тянется дальше. К финалу она «закопана» под слоями правдоподобного текста. Ответ звучит убедительно — но стоит на ложных посылках. Проверять только финальный ответ бесполезно. Это касается любой задачи с разветвлённой логикой: анализ, расчёты, юридические выводы, планирование
Попроси модель думать вслух и нумеровать шаги. Потом запусти отдельный аудировочный промпт с таксономией ошибок. Проверяй шаги, не ответ
Шаг 1. Попроси модель развернуть рассуждение: "Думай вслух, показывай каждый шаг, нумеруй их". Шаг 2. В новом запросе вставь цепочку и попроси проверить её по таксономии из 9 типов ошибок. Таксономия разбита на три группы: ошибки разбора задачи (неверная интерпретация, пропущенные условия, ошибка перевода понятий в логику), ошибки выполнения (неверный вывод из посылок, ошибка в подсчётах, шаги противоречат друг другу), ошибки управления процессом (зацикливание, уход от темы, ответ без обоснования). Формат: Шаг . Почему работает: LLM плохо проверяет себя в момент генерации. Но она хорошо классифицирует текст по заданным категориям. Когда типы ошибок вшиты в промпт и задача — «найди соответствие», модель работает как редактор с чек-листом. Генерация и проверка — разные режимы. Когда применять: сложный анализ, финансовые и юридические выводы, многошаговые расчёты. Когда не работает: короткие ответы без шагов, творческие задачи без критерия правильности[N]: [ОК] или [ОШИБКА — тип: объяснение]
В нормальной работе эти ошибки почти не встречаются. Если модель топчется по кругу или съезжает на другую тему — это не случайность. Это признак: промпт противоречивый, или условия задачи конфликтуют между собой. Применяй: увидел зацикливание или резкий уход от темы — не перезапускай запрос, а переформулируй сам промпт
UtilityMax Prompting: математическая формула вместо размытых требований при нескольких целях
Пишешь "найди выгодный, но надёжный вариант". Модель генерирует текст, который звучит как баланс. Но реальных вычислений нет. Она не знает, что важнее: 80% надёжности при 60% выгоде — или наоборот. Это её интерпретение, не твоё. Работает для любой задачи с двумя и более конкурирующими критериями
Опиши каждый критерий как отдельную переменную X1, X2, X3. Попроси модель оценить каждый по очереди от 0 до 1. Потом перемножить оценки и выбрать максимум. Модель перестаёт балансировать — начинает измерять
Описываешь каждый критерий как переменную: X1 — маржа, X2 — спрос, X3 — доступность. Задаёшь формулу: O(a) = E. Просишь: 1) сгенерировать 7–10 вариантов, 2) оценить каждую переменную отдельно от 0 до 1, 3) перемножить и выбрать максимум. Почему работает: модель плохо балансирует несколько целей одновременно, но хорошо оценивает один изолированный критерий. Формула разбивает одну сложную задачу на несколько простых. Мультипликативная структура добавляет логику: если один критерий близок к нулю — весь вариант проваливается, даже при хороших остальных. Когда работает: критерии можно описать измеримо ("вероятность, что бюджет не превысит 500 тыс."). Не работает: субъективные задачи ("напиши красивый текст"), слабые модели (ниже уровня GPT-4o, Claude Sonnet). Рычаги: добавь X4, X5 для тонкого контроля; уточни шкалу (0–1 или 1–10, главное — одинаково для всех); меняй число кандидатов (3–5 для сравнения известных, 15–20 для широкого поиска)[X1] × E[X2] × E[X3]
Кажется, что если написать "найди ТОЛЬКО выгодный И надёжный" — станет точнее. Нет. Двусмысленность остаётся. Просто жёстче фиксируется неправильная интерпретация. Результат иногда хуже мягкой формулировки. Применяй: не ужесточай формулировку при нескольких целях — структурируй. Разбей одно требование на отдельные переменные
LLM Council: трёхэтапный экспертный совет для сложных решений
Просишь проанализировать документ, план, решение. Ответ выглядит полным. Но модель просто не упомянула критический риск или шаг. Не солгала — промолчала. Это не заметно сразу. Видно только когда стало поздно. Больше половины опасных ответов — именно этого типа
Используй несколько независимых точек входа. Разные роли начинают с разных углов. Финансист смотрит на числа. Арбитражник — на то, что не докажешь в суде. Вместе они закрывают то, что каждый по отдельности пропустил
Шаг 1: Каждый эксперт отвечает изолированно. Не знает что скажут остальные. 3–4 роли с конкретной специализацией — не «юрист», а «арбитражник по строительным спорам». Шаг 2: Каждый анонимно оценивает все ответы, включая свой. Анонимно — значит «Ответ А», «Ответ Б», без имён. Иначе модель «доверяет» авторитетной роли и остальные голоса становятся декоративными. Шаг 3: Председатель видит задачу + все ответы + всю критику. Синтезирует финальный ответ. Почему работает: Разные роли = разные точки входа. Финансист не смотрит на формулировки. Юрист не смотрит на налоги. Вместе покрывают то, что одна роль не заметит. Когда не применять: Фактический вопрос с однозначным ответом — совет только утроит длину
Фантомные цитаты: почему LLM выдумывает источники и два фильтра надёжности
Просишь дать список литературы. Получаешь правдоподобные ссылки: автор есть, журнал есть, год есть. Но статьи не существует. Внешне отличить нельзя. Без ручной проверки не заметишь. Проблема универсальна: работает на любой теме, любой модели
Применяй фильтр стабильности. Реальный источник воспроизводится снова и снова. Выдуманный — появляется один раз. Попроси источники три раза. Возьми только те, что повторились дважды или трижды
Запроси источники по теме три раза. Можно в одной модели (три отдельных чата), можно в трёх разных моделях. Сравни списки. Возьми только то, что появилось ≥2 раза из трёх. Почему работает: реальные источники — устойчивые точки в данных обучения. Модель воспроизводит их стабильно. Выдуманные — случайны. Возникают раз и не повторяются. Повторяемость = сигнал реальности. Точность: три модели дают ~96% реальных источников. Одна модель, три повтора — ~89%. Без фильтра — от 43% до 89% галлюцинаций в зависимости от модели. Синтаксис финального запроса: Выдели источники, которые встречаются минимум в 2 списках из 3. Когда усилить: узкая тема, нишевая область — требуй совпадение в 3 из 3[Список 1] [Список 2] [Список 3]
Вместо "свежие и влиятельные источники" пиши "основополагающие и классические работы". Почему работает: классические статьи цитируются тысячи раз. Хорошо закреплены в данных обучения. "Свежие" — часто за датой среза или почти отсутствуют в данных. Модель заполняет пробел выдуманным. Ключевые слова: "основополагающие", "классические", "фундаментальные", "семинальные" Эффект: галлюцинаций становится меньше примерно на 20 процентных пунктов. Это снижение, не решение — фильтр стабильности всё равно нужен
PPS / 5W3H: одна фраза → полная спецификация задачи за счёт авторасширения промпта
Primacy Bias в LLM: модели цепляются за первое и теряют последнее
Условие задачи менялось три раза за чат. Спрашиваешь про текущее. Модель отвечает по первой версии. Это не невнимательность. Ранние токены накапливают больше «голосов» в механизме внимания. Физически сильнее поздних. Чем длиннее чат — тем хуже. Проявляется при любых обновлениях: цифры, требования, условия, параметры
Повтори актуальную версию прямо перед вопросом. ТЕКУЩЕЕ СОСТОЯНИЕ: . Свежий якорь стоит ближе к точке генерации — модель возьмёт его, а не раннюю версию[данные]. Игнорируй предыдущие версии из чата. Вопрос: [вопрос]
Перед вопросом о текущем состоянии явно пиши актуальные данные. Полностью. Без отсылок к «как обсуждали выше». АКТУАЛЬНО: . Почему работает: свежие данные стоят максимально близко к генерации. Ранняя информация не успевает «перекрыть». Когда применять: длинный чат, несколько итераций правок, обновлялись цифры или условия. Когда не нужно: короткий чат, ничего не менялось[все нужные данные прямо здесь]. Вопрос: [что нужно сделать]
Вместо продолжения длинного чата начни новый. В первом сообщении дай полное текущее состояние: что делаем, какие параметры, что готово, что осталось. Вот актуальное состояние задачи: . Почему работает: убирает весь накопленный приоритет старых данных. Новый чат — чистое поле. Когда применять: задача шла долго, много итераций, чувствуешь что модель «застряла» на старом[всё нужное]. Продолжай отсюда
Большое контекстное окно не помогает удерживать точную историю изменений. Помогает масштаб самой модели. Маленькая модель с окном в миллион токенов проигрывает большой модели с окном в 32 тысячи. Механика: больше параметров — точнее работает механизм внимания. Применяй: если важна точность по последним обновлениям — выбирай более крупную модель, не модель с самым большим контекстом
Модели типа o1 и o3 отлично помнят исходный контекст. Но плохо переключаются на свежие обновления. Асимметрия у них в 8 раз сильнее чем у Claude. Механика: режим развёрнутых рассуждений усиливает опору на ранние данные. Применяй: если задача требует следить за изменениями — выбирай Claude, не o1. Если нужно помнить исходное задание точно — o1 подойдёт лучше
Декларативный регистр: как замена команд на факты убирает конфликты между инструкциями в промптах
Specification Drift & ProjectGuard: почему AI забывает ранние решения — и как это починить
Предвзятость стиля: LLM штрафует за неформальный язык даже когда вы явно просите этого не делать
VideoHV-Agent: четырёхагентная структура "сначала гипотеза, потом поиск"
Спрашиваешь "почему низкий рейтинг?". Модель находит первые подходящие факты. Дальше идёт по этому пути — и усиливает его. Факты, которые говорят обратное, остаются незамеченными. Это происходит на любой аналитической задаче с несколькими версиями.
Не спрашивай "что подтверждает версию А?". Спрашивай "что отделяет версию А от версии Б?". Модель переключается с поиска похожего на поиск различающего.
Четыре роли в одном промпте. Сначала Thinker: для каждого варианта — "что должно быть правдой в данных, если именно он верен?". Потом Judge: "какое минимальное наблюдение разделит все версии?" — одна конкретная улика, не список. Потом Verifier: ищет улику в данных, выдаёт статус: ПОДТВЕРЖДЕНО / ЧАСТИЧНО / НЕ ПОДТВЕРЖДЕНО + цитаты. Потом Answer: финальный вывод с явной цепочкой логики. Почему работает: Когда роли разделены явно, каждый шаг не тянет следующий к первому найденному ответу. Judge специально ищет разделяющее, а не подтверждающее. Когда применять: есть несколько конкурирующих версий и данные для проверки. Когда не работает: открытый вопрос без вариантов ответа — Judge не может сформулировать улику, если нечего различать.
Defensive Refusal Bias: почему чем больше объясняешь свои полномочия — тем чаще получаешь отказ
Personality Passport: добавь MBTI в ролевой промпт — и персонаж станет живее и последовательнее
Аудит рассуждений LLM: уверенный тон ≠ правильный ответ — и как это использовать
Модель оптимизирует текст на связность и плавность. Фразы "я уверен в своей логике" — стилистика, не индикатор качества. Рассуждение может быть красиво структурированным и содержать ошибку внутри. Читаешь, чувствуешь убедительность, соглашаешься. Ошибка тонет в потоке уверенного текста
Попроси разбить рассуждение на отдельные пронумерованные шаги с флагами неуверенности на каждом. Ошибка в Шаге 3 становится видимой. Её уже нельзя спрятать за уверенным финалом
Добавь в запрос жёсткую структуру: краткий вывод (1-2 предложения) → пронумерованные шаги рассуждения → флаги неуверенности на каждом шаге → блок противоречий (если вывод расходится с шагами). Пример: Шаг 1: ... Шаг 2: ... Флаги: здесь данные 2022 года. Противоречия: вывод говорит X, Шаг 2 предполагает Y. Почему работает: каждый шаг — точка контроля. Видишь конкретный шаг, не общий нарратив. Противоречие между шагами становится явным, а не замаскированным. Когда да: проверка фактов, аналитика, логические цепочки. Когда слабее: субъективные оценки, творческие задачи без объективного критерия
Модель пишет связный текст — это её природа. Ошибка в середине рассуждения "замывается" уверенным итогом. Без разбивки на шаги читаешь нарратив целиком и оцениваешь общее впечатление, а не логику. Применяй: никогда не читай рассуждение как цельный текст. Запрашивай шаги явно. Уверенный финал при пустом блоке противоречий — повод проверить источники
Interaction Smells: почему LLM «забывает» ваши требования в длинных диалогах — и что с этим делать
Ты написал правила в первых сообщениях: "всегда с примерами", "не используй X", "только профессиональный тон". Через 6–8 сообщений модель их уже не соблюдает. Не потому что удалила из памяти — просто свежий контекст "перевешивает" старый. Замечаешь это только по итогу. Охватывает любые задачи: код, тексты, анализ, стратегии
Раз в 5–7 сообщений вставляй двухшаговый запрос: сначала "перечисли все активные ограничения из нашего диалога", потом "проверь, нарушает ли твой планируемый ответ хоть одно из них". Старые требования оказываются явно написаны в текущем сообщении — и снова влияют на ответ
Вставляй два шага перед любым запросом в длинной сессии. Шаг 1: Перечисли все активные ограничения из нашей беседы: обязательные требования, запреты, принятые решения, форматы. Шаг 2: Проверь: нарушает ли твой планируемый ответ хоть одно из перечисленных ограничений? Если да — сообщи до ответа. Потом ставь саму задачу. Почему работает: Модель хорошо следует тому, что написано прямо сейчас. Шаг 1 переносит "затонувшие" правила из истории диалога в текущее сообщение. Шаг 2 заставляет сверить ответ с этим списком до генерации. Когда применять: сессия перевалила за 5–7 сообщений; добавляешь новое требование; кажется что "что-то пошло не так". Когда не нужен: диалог из 2–3 сообщений — только лишний шум
Модель хорошо следует ограничениям, которые написаны прямо сейчас. Требование из давнего сообщения физически присутствует в контексте, но влияет на ответ слабо — свежий контекст его перевешивает. Это не баг памяти, а перекос веса между старым и новым. Применяй: не рассчитывай что правило "запомнится навсегда". Хочешь чтоб работало — пиши в текущем сообщении, а не только один раз в начале
PEEM: диагностика и автоматическое улучшение промптов через структурированную оценку
Разблокируйте все концепты с PRO
Получите полный доступ ко всем все концепты и методам из научных исследований
