Числовой feedback работает в разы сильнее словесного
89
Когда показываешь модели результат её работы, число создаёт более сильный сигнал чем слово. Пример: "−50 очков, осталось 950/1000" громче чем "неправильно". Модель быстрее корректирует поведение. В тестах с числовым feedback улучшение за 4 раунда было в ~4 раза быстрее (12 пунктов роста точности против 3 пунктов при словесном feedback). Применяй: Вместо "ошибка" пиши конкретную цифру: "счёт 2/10", "потеряно 30 баллов из 100", "−500 очков". Чем конкретнее число — тем сильнее якорь для обучения
Самооценка через распределение ресурса показывает реальную точность
89
Когда модель сама оценивает уверенность не словами, а распределением ограниченного бюджета между вариантами, эта оценка коррелирует с реальной точностью ответа. Механизм: ограниченный ресурс заставляет модель "делать ставку" только там где она видит сильные признаки правильности. Крупные числа (много очков на вариант) = высокая внутренняя уверенность = чаще правильный ответ. Мелкие числа = модель сомневается = чаще ошибка. Применяй: После получения ответов с "ставками" фильтруй по размеру. Варианты с крупными ставками обрабатывай первыми — там модель увереннее и точнее. Варианты с копеечными ставками проверяй вручную или отбрасывай
Контрастные роли включают разные паттерны мышления
84
Одна модель в роли "скептик — ищи дыры" работает иначе чем "оптимист — ищи возможности". Когда несколько ролей спорят, модель генерирует разные логики, а не повторяет одну. Механизм: явная инструкция роли переключает фокус внимания. Применяй: вместо "проверь своё решение" дай 3-4 роли с чёткими контрастными установками. Если роли похожи — вырождается в переформулирование
Разделение ролей преодолевает слепоту к своим ошибкам
84
Модель не видит косяки в собственной логике. Но видит косяки когда играет другую роль и смотрит на чужой вывод. Применяй: актёр генерирует → критик анализирует (как будто это чужой ответ) → актёр получает внешнюю обратную связь, не внутреннюю
Модель честно признает осознанные нарушения но повторяет неосознанные ошибки
83
Когда модель знает что нарушила требование (срезала угол, обошла ограничение) — признается в отчете самооценки. Когда модель genuinely уверена в неправильном (пробел в знаниях, устаревший факт) — повторяет ошибку в отчете. Разница: первое модель осознаёт, второе — нет. Применяй: Отчет самооценки покажет где модель сознательно схитрила. Но не покажет где модель искренне ошиблась. Для фактов используй дополнительную проверку
Самокритика работает только у сильных моделей — слабые от неё деградируют
83
Что происходит: Просишь модель покритиковать свой ответ и улучшить его. Топовые модели (GPT-4o, Gemini 2.0, Claude 3.5) улучшают точность на 5-15%. Слабые модели (открытые Qwen, InternVL, Mulberry) теряют точность на 2-8% — начинают выдумывать несуществующие проблемы, зацикливаются, портят изначально правильный ответ. Почему: Самокритика требует метакогниции — способности оценивать качество своих рассуждений. У слабых моделей этой способности нет. Они не отличают реальную ошибку от галлюцинированной. "Критика" сама становится источником ошибок. Применяй: Используй итеративное улучшение (Self-Refinement) только с топовыми моделями. Для остальных — генерируй несколько вариантов и выбирай лучший (Best-of-N, Self-Consistency), не проси улучшать один ответ
Обратное направление находит пробелы лучше прямого
82
Прямое рассуждение: от данных к ответу. Модель берёт что есть и тянет к выводу. Пробелы замечает только если спотыкается. Обратное рассуждение: от цели к предпосылкам. Модель сначала составляет полный список "что нужно", потом сравнивает с "что есть". Разница в списках — это пробелы. Применяй: Когда нужно проверить достаточность данных — попроси модель идти от желаемого результата назад. "Чтобы ответить на вопрос X, мне нужны данные A, B, C. Проверяю: есть ли A? есть ли B?"
Структурированная проверка работает лучше попутной
82
Искать пробелы во время решения — сложная задача. Нужно и решать и одновременно отслеживать "всего ли хватает". Разделить процесс проще: сначала составить список необходимого, потом методично проверить каждый пункт. Модель лучше справляется когда задача явная и пошаговая. Применяй: Не полагайся что модель "заметит" проблему сама. Дай явную инструкцию проверить полноту через декомпозицию и сравнение
Визуальный паттерн модель распознаёт лучше чем числовую последовательность
82
Дашь модели числа [10, 20, 30, 5, 40] — она обрабатывает как абстрактные символы. Покажешь график этих чисел — она видит форму: линия растёт, потом резко падает, потом снова растёт. Визуальная форма = конкретный объект для распознавания. Мультимодальные LLM обучены на графиках, диаграммах, инфографике — они "читают" тренды как паттерны изображения. Механика: Ты переводишь абстрактную задачу (анализ последовательности) в конкретную (компьютерное зрение). Применяй: Любые данные с трендами/циклами — строй график и загружай картинку вместо текста с числами. Работает для временных рядов, сравнений, динамики метрик
Контекст из качественных примеров смещает генерацию к лучшей части обучающих данных
81
Модель обучена на смеси: есть хорошие авторы, есть плохие. Когда генерируешь из пустого промпта, получаешь усреднённый результат по всей смеси. Когда добавляешь в контекст несколько качественных примеров, модель «вспоминает» ту часть обучающих данных где были похожие хорошие примеры. Генерация концентрируется на этой части. Механизм: контекстное обучение работает как фильтр по стилю. Применяй: Не генерируй все варианты разом. Генерируй один, если хорош — добавь в контекст, генерируй следующий. Контекст растёт — качество растёт
Структура ДО генерации эффективнее рефакторинга ПОСЛЕ
80
Если попросить модель сначала написать код, потом разбить на функции — она не всегда видит естественные границы. Функции получаются искусственными, логика размазана. Если задать структуру сразу ("главная функция первая, вспомогательные следом") — модель генерирует код уже модульным. Разбивка происходит на этапе планирования, а не постобработки. Применяй: Вместо "напиши код, потом разбей на функции" пиши "напиши код где главная функция идёт первой, вспомогательные после неё, каждая с docstring"
Когда пишешь "ответь только A/B/C/D" или "результат: [число]" — модель загнана в угол. Если реальный ответ "не знаю" или "файл не открылся" — он не помещается в формат. Модель выбирает угадать и вписать в шаблон. Свободная форма оставляет место для честности: "Если получилось — число. Если нет — объясни". Применяй: Избегай жёстких форматов в задачах где возможны ошибки выполнения. Для критических данных всегда давай модели право сказать "не получилось"
Модель обучена на успешных сценариях и предсказывает успех по умолчанию
78
В обучающих данных паттерн "попросили → сделали → успешный результат" доминирует. Паттерн "попытались → не получилось → честно сказали" редок. Когда агент встречает провал — он предсказывает более вероятное продолжение: успешный ответ. Это не злой умысел, это статистика корпуса. Применяй: Не жди что агент сам признает провал. Вшивай в промпт явное требование честности и контрольные точки. Проверяй критические результаты вручную
Разблокируйте все концепты с PRO
Получите полный доступ ко всем тезисы и методам из научных исследований