Тезисы

1

Модели не различают сложность задач без явного указания

PRO

Полный контент доступен в PRO

2

Модель умеет предсказывать риски но не делает это сама

PRO

Полный контент доступен в PRO

3

Формулировка промпта определяет что считается типичным ответом

PRO

Полный контент доступен в PRO

4

Люди-оценщики систематически выбирают знакомое как лучшее

PRO

Полный контент доступен в PRO

5

Слишком много примеров создают конфликтующие паттерны

92

Модель не "понимает" задачу — она ищет паттерны в примерах. При 5-25 примерах паттерн чёткий. При 100+ примерах паттерны конфликтуют: одни примеры говорят "пиши коротко", другие "пиши длинно", третьи "будь серьёзным", четвёртые "будь эмоциональным". Модель начинает копировать поверхностные признаки (структуру предложений, частоту слов) вместо глубокой логики. Результат выглядит похоже на нужное, но функционально ломается. Применяй: Если добавил 20+ примеров и результат стал хуже — убери половину. Оставь 5-10 самых качественных и разнообразных

Копировать 2510.16809

6

Модель лучше обобщает из малого набора качественных примеров

92

5-8 качественных примеров достаточно чтобы модель извлекла суть стиля, тона, структуры. Это как объяснить задачу человеку — нужно 3-5 хороших примеров, а не 100 посредственных. Малое количество заставляет модель искать общий принцип, а не копировать детали. Большое количество провоцирует механическое микширование фраз из разных примеров. Применяй: Вместо "дам все 50 примеров что есть" выбери 8 лучших — с разными сценариями, но единым стилем. Модель схватит суть без шума

Копировать 2510.16809

7

Явное разрешение не завершать задачу переопределяет поведение модели

92

Модели обучены завершать задачи. Если не сказать явно что остановка — допустимый вариант, модель воспринимает её как провал. Добавляешь "остановиться и спросить — тоже успех" — модель перестаёт избегать неопределённости. Механика: разрешение снимает внутренний конфликт между "быть полезным" и "избежать ошибки". Применяй: В агентных промптах добавь "Если не уверен — остановись и спроси. Это правильное действие, не ошибка"

Копировать 2510.16492

8

Длина рассуждений не коррелирует с точностью ответа

90

Модель пишет на 500-1000 символов больше когда промпт "пахнет экзаменом". Но корреляция между длиной текста и правильностью ответа слабая (r ≈ 0.07-0.27). Длинный красивый ответ не значит верный. Это артефакт обучения: RLHF научил модель что "экзаменационные" промпты = развёрнутый стиль. Но стиль ортогонален способностям. Применяй: Не суди качество по объёму. Если ответ длинный и структурированный, но мимо вопроса — это форма без сути. Проверяй содержание, не длину

Копировать 2510.08624

9

Структурированная схема сильнее абстрактного "подумай"

PRO

Полный контент доступен в PRO

10

Модель не различает контекст правил

PRO

Полный контент доступен в PRO

11

Дополнительные требования снижают качество основной задачи

88

Модель балансирует между целями автоматически. Добавляешь явные требования (стиль, формат, ограничения) — часть "вычислительного бюджета" уходит туда. Основная задача выполняется хуже даже если требования её не касались. Эффект растёт с количеством: 1-2 требования безопасны, 3-4 заметная просадка, 5+ высокий риск. Применяй: Для сложных задач не добавляй больше 2 дополнительных требований. Остальное делай отдельным запросом на доработку

Копировать 2510.07315

12

Качество ответа составное — разные части отвечают за разное

PRO

Полный контент доступен в PRO

13

Разброс ответов при повторных запросах показывает реальную неуверенность

88

Модель генерирует текст через выборку из распределения вероятностей. На один вопрос может быть несколько правдоподобных продолжений. Если спросить 10 раз и получить 5 разных ответов — модель не уверена, вопрос сложный. Если 9 из 10 одинаковые — модель уверена, ответ надёжный. Это честный индикатор внутренней неопределённости. Применяй: Для критических решений делай 10-20 независимых запросов. Считай уникальные ответы. Много вариантов = проверяй другими способами

Копировать 2510.04048

14

Рефлексия "почему ошибка" работает сильнее чем просто "правильно/неправильно"

87

Когда показываешь модели ошибку + объяснение ("я додумал цифру которой не было → нужно говорить 'нет информации'"), она учится на паттерне, а не на факте. Простой feedback ("это неверно") не показывает ЧТО именно сломалось. Рефлексия добавляет причинно-следственную связь: модель видит логику ошибки и применяет к похожим случаям. Применяй: В few-shot примерах добавляй не только правильный ответ, но и типичную ошибку + короткое объяснение (2-3 предложения) "почему ошиблась" и "как правильно"

Копировать 2510.23730

15

Явная структура задачи работает даже для reasoning-моделей

PRO

Полный контент доступен в PRO

16

Структурированный формат вредит точности сильнее чем кажется

PRO

Полный контент доступен в PRO

17

Модель не умеет делать несколько задач одновременно без потерь

PRO

Полный контент доступен в PRO

18

Модель видит ошибки в готовом тексте точнее чем избегает их при генерации

PRO

Полный контент доступен в PRO

19

Нерелевантные или несвязные шаги убивают точность в 2 раза

86

Что это: Модель может сделать математически корректный шаг, но он будет не про задачу (нерелевантен) или не следовать из предыдущего контекста (несвязен). Пример: в бизнес-анализе модель уходит в общие рассуждения про экономику (нерелевантно) или прыгает с темы на тему без связи (несвязно). Механика: Такие шаги ломают всю цепочку. Даже если остальные шаги верны, один нерелевантный/несвязный снижает шанс правильного финального ответа с 52% до 24%. Применяй: В сложных задачах явно пропиши что каждый шаг должен быть про конкретную часть вопроса И следовать из предыдущих. Не надейся на автоматическую связность

Копировать 2510.20603

20

Аналогии из далёких областей эффективнее для креативных задач

85

Когда модель предлагает аналогии из ТВОЕЙ области — получаешь типичные ассоциации. Когда из других областей (музыка для брендинга кофе, спорт для архитектуры) — выходишь из шаблонов мышления. Модель знает много доменов, может находить неожиданные параллели. Применяй: в промпте указывай "предлагай аналогии из [музыки/природных процессов/спорта] — НЕ из [твоей темы]". Чем дальше область — тем неожиданнее ассоциации

Копировать 2510.23324

21

Zero-shot захватывает шире, few-shot фильтрует строже

PRO

Полный контент доступен в PRO

22

Противоположные роли дают максимальный разброс идей

84

Когда персоны не просто разные, а антагонисты по ценностям (идеалист vs прагматик, активист vs консерватор), разброс идей максимален. Модель тянется в противоположные стороны вместо усреднения к консенсусу. Это работает потому что каждая роль задаёт свою систему координат — что важно, что игнорировать, какой язык использовать. Применяй: В наборе персон обязательно включи тех кто не согласится друг с другом по ценностям и приоритетам

Копировать 2510.15568

23

Краткие инструкции работают лучше подробных

PRO

Полный контент доступен в PRO

24

Порог следования сложным инструкциям — 3B параметров

PRO

Полный контент доступен в PRO

25

LLM извлекает паттерны из примеров точнее чем человек формулирует словами

PRO

Полный контент доступен в PRO

26

Меньшая модель создаёт промпты не хуже большой

PRO

Полный контент доступен в PRO

27

Формат входа важнее выбора модели

PRO

Полный контент доступен в PRO

28

Иерархия работает лучше плоской таблицы для связанных данных

PRO

Полный контент доступен в PRO

29

Намерение пользователя перевешивает процедурные правила

PRO

Полный контент доступен в PRO

30

В длинных диалогах накапливается неоднозначность, а не забывание

PRO

Полный контент доступен в PRO

31

Вынос логики комбинирования за пределы модели повышает точность

PRO

Полный контент доступен в PRO

32

Фильтрация по признакам перед проверкой снижает галлюцинации

PRO

Полный контент доступен в PRO

33

Модель держит факты на английском, даже когда отвечает на другом языке

PRO

Полный контент доступен в PRO

34

Правильное выравнивание понятий = необходимое условие консистентности

PRO

Полный контент доступен в PRO

35

Модель сильна в явных инструкциях, слаба в неявной логике

82

LLM отлично следует чёткой структуре: "сделай X, потом Y, используя результат X". Плохо справляется когда нужно самой придумать последовательность шагов. Проблема не в способности рассуждать — проблема в отсутствии структуры. Механика: Когда даёшь явный паттерн, модель не тратит "усилия" на поиск подхода. Фокусируется на применении. Применяй: Для сложных задач не полагайся на "модель сама разберётся". Дай готовую структуру: шаблоны, чек-листы, пошаговые алгоритмы

Копировать 2510.07499

36

Полная перезапись промпта LLM-ом ведёт к потере деталей

81

Просишь модель "переформулируй этот промпт лучше" или "перепиши инструкцию покороче". Модель генерирует новый текст с нуля. При генерации она склонна обобщать и упрощать — убирает конкретные edge cases, специфичные тактики, числовые детали. Почему: LLM оптимизирована на создание связного текста, не на точное сохранение всех деталей исходного. Генерация = компрессия информации в новую форму. Цифры из теста: контекст 18,282 токена сжался до 122 токенов за одну перезапись, точность упала с 66.7% до 57.1%. Применяй: Вместо "перепиши весь промпт" → "вот 3 новых правила, добавь их к существующим пунктам". Наращивай контекст через дельты, не перезаписывай целиком

Копировать 2510.04618

37

Разные роли активируют разные области памяти модели

80

Когда в промпте явно указана роль ("скептик", "оптимист"), модель включает паттерны из обучающих данных где такие роли встречались: дебаты, экспертные обсуждения, научная полемика. Это не "понимание" роли, а статистическая активация контекстов. Результат: каждый агент исследует свою область вместо того чтобы все сходились к одному локальному максимуму. Покрытие гипотезного пространства растёт. Применяй: Не проси одну модель "рассмотри все стороны" — раздели на явные роли: технарь/бизнесмен, консерватор/новатор, оптимист/пессимист

Копировать 2510.04488

38

Цепочка рассуждений полезна только для многошаговых задач

PRO

Полный контент доступен в PRO

39

Модель умеет классифицировать сложность своей задачи

PRO

Полный контент доступен в PRO

40

LLM плохо держит неявные критерии, но отлично находит паттерны в ошибках

PRO

Полный контент доступен в PRO

41

Разделяй задачу на отдельные фазы — не проси "прочитай и ответь"

PRO

Полный контент доступен в PRO

42

Ограничения в промпте не предотвращают добавление несуществующих фактов

78

Когда просишь модель "используй только информацию из текста" или "не добавляй то чего нет в источнике" — она всё равно может добавить детали из общих знаний. Причина: constraint-based инструкции ("правило: только факты из текста") — это мягкие подсказки, не жёсткий контроль. Модель воспринимает их как совет, но может нарушить. Она не различает режимы "генерация текста" (можно додумать) vs "извлечение фактов" (нельзя додумывать). Применяй: Не полагайся на ограничения для фактической точности. Вместо "не добавляй информацию" используй верификацию: "для каждого утверждения процитируй источник" или "укажи номер абзаца откуда взял факт". Отсутствие цитаты = сигнал галлюцинации

Копировать 2510.23055

43

Формат разделителей влияет на точность сильнее чем семантика

PRO

Полный контент доступен в PRO

44

Оптимальный формат специфичен для каждой модели

PRO

Полный контент доступен в PRO

45

Короткие разделители дают меньше токенов и лучшую точность

PRO

Полный контент доступен в PRO

46

Модель лучше улучшает критерии через ошибки, чем создаёт с нуля

PRO

Полный контент доступен в PRO

47

Качество начальных критериев почти не влияет на финальный результат

PRO

Полный контент доступен в PRO

48

Меньше релевантного контекста работает лучше чем больше нерелевантного

PRO

Полный контент доступен в PRO

49

Результаты генерации промптов можно использовать как примеры для следующей итерации

PRO

Полный контент доступен в PRO

50

Список категорий в промпте направляет внимание модели

PRO

Полный контент доступен в PRO

Модели не различают сложность задач без явного указания

Модель умеет предсказывать риски но не делает это сама

Формулировка промпта определяет что считается типичным ответом

Люди-оценщики систематически выбирают знакомое как лучшее

Слишком много примеров создают конфликтующие паттерны

Модель лучше обобщает из малого набора качественных примеров

Явное разрешение не завершать задачу переопределяет поведение модели

Длина рассуждений не коррелирует с точностью ответа

Структурированная схема сильнее абстрактного "подумай"

Модель не различает контекст правил

Дополнительные требования снижают качество основной задачи

Качество ответа составное — разные части отвечают за разное

Разброс ответов при повторных запросах показывает реальную неуверенность

Рефлексия "почему ошибка" работает сильнее чем просто "правильно/неправильно"

Явная структура задачи работает даже для reasoning-моделей

Структурированный формат вредит точности сильнее чем кажется

Модель не умеет делать несколько задач одновременно без потерь

Модель видит ошибки в готовом тексте точнее чем избегает их при генерации

Нерелевантные или несвязные шаги убивают точность в 2 раза

Аналогии из далёких областей эффективнее для креативных задач

Zero-shot захватывает шире, few-shot фильтрует строже

Противоположные роли дают максимальный разброс идей

Краткие инструкции работают лучше подробных

Порог следования сложным инструкциям — 3B параметров

LLM извлекает паттерны из примеров точнее чем человек формулирует словами

Меньшая модель создаёт промпты не хуже большой

Формат входа важнее выбора модели

Иерархия работает лучше плоской таблицы для связанных данных

Намерение пользователя перевешивает процедурные правила

В длинных диалогах накапливается неоднозначность, а не забывание

Вынос логики комбинирования за пределы модели повышает точность

Фильтрация по признакам перед проверкой снижает галлюцинации

Модель держит факты на английском, даже когда отвечает на другом языке

Правильное выравнивание понятий = необходимое условие консистентности

Модель сильна в явных инструкциях, слаба в неявной логике

Полная перезапись промпта LLM-ом ведёт к потере деталей

Разные роли активируют разные области памяти модели

Цепочка рассуждений полезна только для многошаговых задач

Модель умеет классифицировать сложность своей задачи

LLM плохо держит неявные критерии, но отлично находит паттерны в ошибках

Разделяй задачу на отдельные фазы — не проси "прочитай и ответь"

Ограничения в промпте не предотвращают добавление несуществующих фактов

Формат разделителей влияет на точность сильнее чем семантика

Оптимальный формат специфичен для каждой модели

Короткие разделители дают меньше токенов и лучшую точность

Модель лучше улучшает критерии через ошибки, чем создаёт с нуля

Качество начальных критериев почти не влияет на финальный результат

Меньше релевантного контекста работает лучше чем больше нерелевантного

Результаты генерации промптов можно использовать как примеры для следующей итерации

Список категорий в промпте направляет внимание модели

Разблокируйте все концепты с PRO