3,583 papers

Тезисы

Концепты из исследований октября 2025

50 тезисы, отсортировано по рейтингу

5

Слишком много примеров создают конфликтующие паттерны

92

Модель не "понимает" задачу — она ищет паттерны в примерах. При 5-25 примерах паттерн чёткий. При 100+ примерах паттерны конфликтуют: одни примеры говорят "пиши коротко", другие "пиши длинно", третьи "будь серьёзным", четвёртые "будь эмоциональным". Модель начинает копировать поверхностные признаки (структуру предложений, частоту слов) вместо глубокой логики. Результат выглядит похоже на нужное, но функционально ломается. Применяй: Если добавил 20+ примеров и результат стал хуже — убери половину. Оставь 5-10 самых качественных и разнообразных

6

Модель лучше обобщает из малого набора качественных примеров

92

5-8 качественных примеров достаточно чтобы модель извлекла суть стиля, тона, структуры. Это как объяснить задачу человеку — нужно 3-5 хороших примеров, а не 100 посредственных. Малое количество заставляет модель искать общий принцип, а не копировать детали. Большое количество провоцирует механическое микширование фраз из разных примеров. Применяй: Вместо "дам все 50 примеров что есть" выбери 8 лучших — с разными сценариями, но единым стилем. Модель схватит суть без шума

7

Явное разрешение не завершать задачу переопределяет поведение модели

92

Модели обучены завершать задачи. Если не сказать явно что остановка — допустимый вариант, модель воспринимает её как провал. Добавляешь "остановиться и спросить — тоже успех" — модель перестаёт избегать неопределённости. Механика: разрешение снимает внутренний конфликт между "быть полезным" и "избежать ошибки". Применяй: В агентных промптах добавь "Если не уверен — остановись и спроси. Это правильное действие, не ошибка"

8

Длина рассуждений не коррелирует с точностью ответа

90

Модель пишет на 500-1000 символов больше когда промпт "пахнет экзаменом". Но корреляция между длиной текста и правильностью ответа слабая (r 0.07-0.27). Длинный красивый ответ не значит верный. Это артефакт обучения: RLHF научил модель что "экзаменационные" промпты = развёрнутый стиль. Но стиль ортогонален способностям. Применяй: Не суди качество по объёму. Если ответ длинный и структурированный, но мимо вопроса — это форма без сути. Проверяй содержание, не длину

11

Дополнительные требования снижают качество основной задачи

88

Модель балансирует между целями автоматически. Добавляешь явные требования (стиль, формат, ограничения) — часть "вычислительного бюджета" уходит туда. Основная задача выполняется хуже даже если требования её не касались. Эффект растёт с количеством: 1-2 требования безопасны, 3-4 заметная просадка, 5+ высокий риск. Применяй: Для сложных задач не добавляй больше 2 дополнительных требований. Остальное делай отдельным запросом на доработку

13

Разброс ответов при повторных запросах показывает реальную неуверенность

88

Модель генерирует текст через выборку из распределения вероятностей. На один вопрос может быть несколько правдоподобных продолжений. Если спросить 10 раз и получить 5 разных ответов — модель не уверена, вопрос сложный. Если 9 из 10 одинаковые — модель уверена, ответ надёжный. Это честный индикатор внутренней неопределённости. Применяй: Для критических решений делай 10-20 независимых запросов. Считай уникальные ответы. Много вариантов = проверяй другими способами

14

Рефлексия "почему ошибка" работает сильнее чем просто "правильно/неправильно"

87

Когда показываешь модели ошибку + объяснение ("я додумал цифру которой не было нужно говорить 'нет информации'"), она учится на паттерне, а не на факте. Простой feedback ("это неверно") не показывает ЧТО именно сломалось. Рефлексия добавляет причинно-следственную связь: модель видит логику ошибки и применяет к похожим случаям. Применяй: В few-shot примерах добавляй не только правильный ответ, но и типичную ошибку + короткое объяснение (2-3 предложения) "почему ошиблась" и "как правильно"

19

Нерелевантные или несвязные шаги убивают точность в 2 раза

86

Что это: Модель может сделать математически корректный шаг, но он будет не про задачу (нерелевантен) или не следовать из предыдущего контекста (несвязен). Пример: в бизнес-анализе модель уходит в общие рассуждения про экономику (нерелевантно) или прыгает с темы на тему без связи (несвязно). Механика: Такие шаги ломают всю цепочку. Даже если остальные шаги верны, один нерелевантный/несвязный снижает шанс правильного финального ответа с 52% до 24%. Применяй: В сложных задачах явно пропиши что каждый шаг должен быть про конкретную часть вопроса И следовать из предыдущих. Не надейся на автоматическую связность

20

Аналогии из далёких областей эффективнее для креативных задач

85

Когда модель предлагает аналогии из ТВОЕЙ области — получаешь типичные ассоциации. Когда из других областей (музыка для брендинга кофе, спорт для архитектуры) — выходишь из шаблонов мышления. Модель знает много доменов, может находить неожиданные параллели. Применяй: в промпте указывай "предлагай аналогии из [музыки/природных процессов/спорта] — НЕ из [твоей темы]". Чем дальше область — тем неожиданнее ассоциации

22

Противоположные роли дают максимальный разброс идей

84

Когда персоны не просто разные, а антагонисты по ценностям (идеалист vs прагматик, активист vs консерватор), разброс идей максимален. Модель тянется в противоположные стороны вместо усреднения к консенсусу. Это работает потому что каждая роль задаёт свою систему координат — что важно, что игнорировать, какой язык использовать. Применяй: В наборе персон обязательно включи тех кто не согласится друг с другом по ценностям и приоритетам

35

Модель сильна в явных инструкциях, слаба в неявной логике

82

LLM отлично следует чёткой структуре: "сделай X, потом Y, используя результат X". Плохо справляется когда нужно самой придумать последовательность шагов. Проблема не в способности рассуждать — проблема в отсутствии структуры. Механика: Когда даёшь явный паттерн, модель не тратит "усилия" на поиск подхода. Фокусируется на применении. Применяй: Для сложных задач не полагайся на "модель сама разберётся". Дай готовую структуру: шаблоны, чек-листы, пошаговые алгоритмы

36

Полная перезапись промпта LLM-ом ведёт к потере деталей

81

Просишь модель "переформулируй этот промпт лучше" или "перепиши инструкцию покороче". Модель генерирует новый текст с нуля. При генерации она склонна обобщать и упрощать — убирает конкретные edge cases, специфичные тактики, числовые детали. Почему: LLM оптимизирована на создание связного текста, не на точное сохранение всех деталей исходного. Генерация = компрессия информации в новую форму. Цифры из теста: контекст 18,282 токена сжался до 122 токенов за одну перезапись, точность упала с 66.7% до 57.1%. Применяй: Вместо "перепиши весь промпт" "вот 3 новых правила, добавь их к существующим пунктам". Наращивай контекст через дельты, не перезаписывай целиком

37

Разные роли активируют разные области памяти модели

80

Когда в промпте явно указана роль ("скептик", "оптимист"), модель включает паттерны из обучающих данных где такие роли встречались: дебаты, экспертные обсуждения, научная полемика. Это не "понимание" роли, а статистическая активация контекстов. Результат: каждый агент исследует свою область вместо того чтобы все сходились к одному локальному максимуму. Покрытие гипотезного пространства растёт. Применяй: Не проси одну модель "рассмотри все стороны" — раздели на явные роли: технарь/бизнесмен, консерватор/новатор, оптимист/пессимист

42

Ограничения в промпте не предотвращают добавление несуществующих фактов

78

Когда просишь модель "используй только информацию из текста" или "не добавляй то чего нет в источнике" — она всё равно может добавить детали из общих знаний. Причина: constraint-based инструкции ("правило: только факты из текста") — это мягкие подсказки, не жёсткий контроль. Модель воспринимает их как совет, но может нарушить. Она не различает режимы "генерация текста" (можно додумать) vs "извлечение фактов" (нельзя додумывать). Применяй: Не полагайся на ограничения для фактической точности. Вместо "не добавляй информацию" используй верификацию: "для каждого утверждения процитируй источник" или "укажи номер абзаца откуда взял факт". Отсутствие цитаты = сигнал галлюцинации

Разблокируйте все концепты с PRO

Получите полный доступ ко всем тезисы и методам из научных исследований

Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO