Тезисы

1

Проверить проще чем создать

92

Генерация с нуля: модель ищет в пространстве всех возможных решений. Проверка: есть конкретный объект для анализа. Для LLM это значит: при генерации первая ошибка создаёт каскад (эгоцентризм). При проверке — можно найти противоречие и остановиться. Даже слабая модель хорошо критикует. Применяй: Для сложных задач не проси сразу "реши". Дай черновой ответ (свой или сгенерированный) и попроси проверить

Копировать 2511.21734

2

Модель умеет исправлять, но не умеет диагностировать

PRO

Полный контент доступен в PRO

3

Несколько малых выборов точнее одного большого

PRO

Полный контент доступен в PRO

4

Роль воспринимается как абсолютная инструкция

PRO

Полный контент доступен в PRO

5

Размер модели не определяет честность под ролью

PRO

Полный контент доступен в PRO

6

Бинарные решения точнее множественного выбора

PRO

Полный контент доступен в PRO

7

Изолированную подзадачу модель решает надёжнее чем проверку целого ответа

PRO

Полный контент доступен в PRO

8

Критика от слабого оппонента улучшает сильную модель

82

Модель сильнее не гарантирует лучший результат. Даже если оппонент слабее и его аргументы не всегда верны — сам факт вызова заставляет пересмотреть позицию. Работает как внешний триггер: "а точно ли я прав?". Модель пересматривает логику, находит пробелы, которые не заметила в первый раз. Механика: Важен не качество критики, а её наличие. Структурированное несогласие включает режим проверки. Применяй: Не нужна вторая модель или сложный оппонент. Достаточно попросить ту же модель сыграть роль критика: "Теперь найди слабые места в этом ответе". Простая смена роли даёт эффект

Копировать 2511.22854

9

Словарь терминов работает как приоритетные правила генерации

PRO

Полный контент доступен в PRO

10

Модель консервативнее человека в оценках

PRO

Полный контент доступен в PRO

11

Фиксированный список баллов снижает разброс оценок

PRO

Полный контент доступен в PRO

12

Калибровка не предсказывает последовательность действий

PRO

Полный контент доступен в PRO

13

Первое мнение модели точнее обновлённого

PRO

Полный контент доступен в PRO

14

Явный счётчик превращает абстракцию в видимый прогресс

PRO

Полный контент доступен в PRO

15

Первая итерация перепроверки даёт основной прирост. Остальные почти бесполезны

PRO

Полный контент доступен в PRO

16

Консистентность при переформулировке отличает знание от выдумки

79

LLM генерирует текст на основе паттернов из обучающих данных, не из явной базы знаний. Если паттерн сильный (модель видела факт много раз) — она даст одинаковый ответ на прямой вопрос и на переформулировку. Если паттерн слабый или отсутствует — модель додумает правдоподобную деталь, но при переспросе "забудет" что именно выдумала. Каждая генерация независима.

Применяй: Спроси модель про важный факт несколькими способами. Пример: сначала "Когда основан Яндекс?", потом "В каком году появился Яндекс?", потом "Год создания компании Яндекс?". Если ответы разные — высокий риск галлюцинации.

Копировать 2511.12236

17

Порядок примеров влияет на результат так же сильно, как выбор примеров

78

В few-shot промптах ты даёшь модели примеры: "вот задача → вот решение". Раньше считалось: главное — выбрать хорошие примеры, порядок вторичен. Оказалось нет. Один набор примеров в разном порядке даёт разброс точности ~2% — столько же, сколько при замене примеров на другие. Механика: Позиция примера в промпте влияет на его "вес" в механизме внимания. Примеры в начале и конце получают больше фокуса, средние — меньше. Применяй: Не останавливайся на выборе примеров. Протестируй 3-5 разных порядков на реальных задачах. Выбери лучший

Копировать 2511.09700

18

LLM лучше улучшает готовое чем создаёт с нуля

PRO

Полный контент доступен в PRO

19

Явный запрос на проверку активирует знания, которые модель не применяет при генерации

78

Модель обучена на массиве данных, включая уязвимый код и документацию по безопасности. При прямой генерации она воспроизводит типичные паттерны — включая небезопасные. Но если явно попросить "найди проблемы" — переключается в режим анализа и применяет знания о безопасности. Почему: Генерация и критический анализ — разные режимы работы. Модель не смешивает их автоматически. Применяй: Для задач с проверяемым результатом (код, факты, расчёты) используй двухшаговый процесс: (1) "Напиши код", (2) "Проверь этот код на [конкретный список проблем], исправь". Указывай ЧТО искать — конкретный чеклист работает лучше абстрактного "проверь качество"

Копировать 2511.03898

20

Цепочка рассуждений нейтрализует влияние формулировки промпта

78

Без рассуждений модель "прыгает" от промпта к ответу. Синонимы и порядок слов меняют результат. С рассуждениями схема другая: промпт → цепочка шагов → ответ. Цепочка фиксирует логику задачи. Ответ строится из цепочки, а не из промпта. Поэтому конкретные слова в промпте перестают сильно влиять. Разница: основной прирост даёт переход к рассуждениям, дальнейшая оптимизация формулировок даёт минимум. Применяй: Не трать время на подбор "идеальной" формулировки. Добавь "рассуждай пошагово" — этого достаточно

Копировать 2511.20836

21

Больше ресурсов не помогает если агент их не видит

PRO

Полный контент доступен в PRO

22

Модель не может планировать многошаговые задачи без промежуточной обратной связи

PRO

Полный контент доступен в PRO

23

Неточные гипотезы всё равно улучшают поиск

PRO

Полный контент доступен в PRO

24

Декомпозиция на утверждения расширяет зону поиска

PRO

Полный контент доступен в PRO

25

Голосование по частоте ненадёжно если все пути одного типа

PRO

Полный контент доступен в PRO

26

Нерелевантный контекст вредит точности сильнее чем его отсутствие

76

Когда модель получает микс полезного и мусора, итоговый ответ хуже чем вообще без документов. Точность падает на 6%, полнота на 5%. Причина: модель не умеет игнорировать шум — воспринимает всё в контексте как "подсказки". Нерелевантные куски перебивают внутренние знания. Применяй: Лучше дать меньше контекста (только проверенное), чем больше (со всем подряд). В промпте: "Если фрагмент не подходит — не используй его, даже если он в контексте"

Копировать 2511.06738

27

Разрыв между топ-1 и топ-2 ответами показывает уверенность модели

PRO

Полный контент доступен в PRO

28

Структурированный формат принуждает к декомпозиции

76

Когда задаёшь JSON-схему с обязательными полями, модель не может "перепрыгнуть" через шаги. Чтобы заполнить final_judgment, модель должна сначала заполнить evidence_for, evidence_against, reasoning. Это работает как жёсткий вариант цепочки рассуждений. Механика: структура создаёт последовательность — каждое следующее поле зависит от предыдущих. Применяй: Для сложных задач используй JSON с явной последовательностью: сначала факты, потом анализ, потом вывод

Копировать 2511.06125

29

Обратная связь после каждого шага лучше чем план всего маршрута заранее

PRO

Полный контент доступен в PRO

30

Модель умеет оценивать потенциал если попросить явно

PRO

Полный контент доступен в PRO

32

Комплементарный запрос ломает пузырь первых результатов

PRO

Полный контент доступен в PRO

33

LLM плохо определяют границы понимания но хорошо перечисляют варианты

74

Модель встречает неоднозначность — молча выбирает наиболее вероятную интерпретацию и отвечает будто других нет. Не говорит "не уверена". Но если явно попросить "перечисли варианты" — сделает это хорошо. Разница в инструкции. Применяй: Не полагайся на то что модель скажет о неоднозначности сама. Всегда инструктируй явно: "если есть несколько вариантов — покажи все"

Копировать 2511.10453

34

Структурированный формат делает неявные выборы видимыми

74

Когда модель должна записать "Интерпретация 1: ..., Интерпретация 2: ..." — вынуждена артикулировать то что иначе осталось бы внутри. Формат превращает внутреннее рассуждение во внешний вывод. Связь "интерпретация → ответ" становится прозрачной для пользователя и самой модели. Применяй: Для критичных запросов требуй структурированный вывод с явным разделением вариантов. Шаблон: "1. [Вариант А] Ответ: ... 2. [Вариант Б] Ответ: ..."

Копировать 2511.10453

35

Промпт "будь разным" даёт слабый сигнал

PRO

Полный контент доступен в PRO

36

Контраст противоположных примеров задаёт направление движения

PRO

Полный контент доступен в PRO

37

Сжатая выборка из истории работает лучше чем полный контекст

74

Показать модели все 50 попыток = перегрузка. Показать только последние 5 = потеря ранних инсайтов. Выборка "лучшие + худшие + недавние" даёт баланс: модель видит что работает (топ), чего избегать (провалы), что пробовали недавно (свежесть). Размер выборки — рычаг: увеличь лучших для фокуса на успехе, увеличь худших чтобы учиться на ошибках, увеличь недавних для разнообразия. Применяй: Вместо "вот вся история на 5000 токенов" делай Топ-3 (скор 8-9): [варианты]. Худшие-2 (скор 2-3): [варианты]. Последние-2: [варианты]

Копировать 2511.22651

38

Дозированная информация даёт более точный выбор чем массовая загрузка

PRO

Полный контент доступен в PRO

39

Переформулировка критериев с разных сторон расширяет охват

PRO

Полный контент доступен в PRO

40

Переиспользование опыта работает только для структурно похожих задач

PRO

Полный контент доступен в PRO

41

Рассуждения переключают режим с извлечения на генерацию

PRO

Полный контент доступен в PRO

42

Автогенерация инструкций точнее человеческих формулировок

PRO

Полный контент доступен в PRO

43

Разделение функций уменьшает нарушение правил

74

Когда модель делает всё в одном потоке (думает + проверяет + действует), правила из начала промпта забываются к моменту действия. Отдельная фаза "проверка правил" перед каждым действием возвращает фокус на ограничения. В экспериментах это дало ноль нарушений там, где слитный промпт давал 15-25% ошибок. Применяй: Для задач с условиями добавь явный шаг: "Проверь: соблюдены ли все правила? Если нет — вернись к рассуждению"

Копировать 2511.17673

44

Явные trust-метаданные работают лучше неявного разделения

PRO

Полный контент доступен в PRO

45

Модель подстраивает содержание под стиль запроса

73

Механизм: LLM обучена на текстах где стилистика коррелирует с контекстом. Разговорный тон в обучающих данных чаще встречался в субъективных текстах. Формальный язык — в осторожных анализах. Модель усвоила паттерн и воспроизводит его. Это alignment by mimicry — модель мимикрирует под предполагаемые ожидания автора запроса. Применяй: Для нейтральных выводов убирай эмоциональные маркеры и диалект из промпта. Для креатива наоборот — добавляй стилистику чтобы задать направление

Копировать 2511.19956

46

Иерархия важности сохраняет смысл лучше чем обрезка сверху/снизу

PRO

Полный контент доступен в PRO

47

Жёсткая структура ответа может снижать качество рассуждений

73

Когда задаёшь строгую JSON-схему, модель тратит часть "внимания" на соблюдение формата. На простых задачах (извлечь имена, даты, факты) это не мешает — структура даже помогает. На сложных задачах требующих многошаговых рассуждений (планирование, анализ, выводы) жёсткий формат забирает ресурсы у самого рассуждения. Модель думает "как правильно заполнить поля" вместо "как решить задачу глубже". Применяй: Для извлечения данных используй строгую схему. Для задач требующих глубокого анализа сначала попроси подумать свободно, потом структурируй результат отдельным запросом. Или упрости схему до минимума

Копировать 2511.18335

48

Авторитетное мнение перевешивает знание модели, особенно в незнакомых доменах

PRO

Полный контент доступен в PRO

49

Языковая рубрика точнее числовых метрик для сложных различий

PRO

Полный контент доступен в PRO

50

Модель хороша в сопоставлении фактов, слаба в их поиске

72

LLM отлично решает задачу "вот утверждение А, вот данные Б — соответствуют ли они друг другу". Это классификация. Но плохо справляется с задачей "найди информацию чтобы проверить А". Это поиск + отбор релевантности. Даже с web search модель часто пропускает нужные источники или находит, но криво интерпретирует. Разница в точности: без готового контекста ~20%, с готовым ~92%. Причина: сопоставление = работа с уже структурированными данными, поиск = неструктурированная среда где модель теряется. Применяй: Не пиши "проверь утверждение X". Сам найди 2-3 релевантных источника с конкретными цифрами, дай модели, попроси сопоставить и вынести вердикт. Формат: "Утверждение: {X}. Данные: {источник 1}, {источник 2}. Соответствует ли утверждение данным?"

Копировать 2511.18749

Проверить проще чем создать

Модель умеет исправлять, но не умеет диагностировать

Несколько малых выборов точнее одного большого

Роль воспринимается как абсолютная инструкция

Размер модели не определяет честность под ролью

Бинарные решения точнее множественного выбора

Изолированную подзадачу модель решает надёжнее чем проверку целого ответа

Критика от слабого оппонента улучшает сильную модель

Словарь терминов работает как приоритетные правила генерации

Модель консервативнее человека в оценках

Фиксированный список баллов снижает разброс оценок

Калибровка не предсказывает последовательность действий

Первое мнение модели точнее обновлённого

Явный счётчик превращает абстракцию в видимый прогресс

Первая итерация перепроверки даёт основной прирост. Остальные почти бесполезны

Консистентность при переформулировке отличает знание от выдумки

Порядок примеров влияет на результат так же сильно, как выбор примеров

LLM лучше улучшает готовое чем создаёт с нуля

Явный запрос на проверку активирует знания, которые модель не применяет при генерации

Цепочка рассуждений нейтрализует влияние формулировки промпта

Больше ресурсов не помогает если агент их не видит

Модель не может планировать многошаговые задачи без промежуточной обратной связи

Неточные гипотезы всё равно улучшают поиск

Декомпозиция на утверждения расширяет зону поиска

Голосование по частоте ненадёжно если все пути одного типа

Нерелевантный контекст вредит точности сильнее чем его отсутствие

Разрыв между топ-1 и топ-2 ответами показывает уверенность модели

Структурированный формат принуждает к декомпозиции

Обратная связь после каждого шага лучше чем план всего маршрута заранее

Похожие неправильные примеры учат различать нюансы эффективнее случайных

Модель умеет оценивать потенциал если попросить явно

Комплементарный запрос ломает пузырь первых результатов

LLM плохо определяют границы понимания но хорошо перечисляют варианты

Структурированный формат делает неявные выборы видимыми

Промпт "будь разным" даёт слабый сигнал

Контраст противоположных примеров задаёт направление движения

Сжатая выборка из истории работает лучше чем полный контекст

Дозированная информация даёт более точный выбор чем массовая загрузка

Переформулировка критериев с разных сторон расширяет охват

Переиспользование опыта работает только для структурно похожих задач

Рассуждения переключают режим с извлечения на генерацию

Автогенерация инструкций точнее человеческих формулировок

Разделение функций уменьшает нарушение правил

Явные trust-метаданные работают лучше неявного разделения

Модель подстраивает содержание под стиль запроса

Иерархия важности сохраняет смысл лучше чем обрезка сверху/снизу

Жёсткая структура ответа может снижать качество рассуждений

Авторитетное мнение перевешивает знание модели, особенно в незнакомых доменах

Языковая рубрика точнее числовых метрик для сложных различий

Модель хороша в сопоставлении фактов, слаба в их поиске

Разблокируйте все концепты с PRO