3,583 papers

Тезисы

Концепты из исследований декабря 2025

50 тезисы, отсортировано по рейтингу

1

Числовой feedback работает в разы сильнее словесного

89

Когда показываешь модели результат её работы, число создаёт более сильный сигнал чем слово. Пример: "50 очков, осталось 950/1000" громче чем "неправильно". Модель быстрее корректирует поведение. В тестах с числовым feedback улучшение за 4 раунда было в ~4 раза быстрее (12 пунктов роста точности против 3 пунктов при словесном feedback). Применяй: Вместо "ошибка" пиши конкретную цифру: "счёт 2/10", "потеряно 30 баллов из 100", "500 очков". Чем конкретнее число — тем сильнее якорь для обучения

2

Самооценка через распределение ресурса показывает реальную точность

89

Когда модель сама оценивает уверенность не словами, а распределением ограниченного бюджета между вариантами, эта оценка коррелирует с реальной точностью ответа. Механизм: ограниченный ресурс заставляет модель "делать ставку" только там где она видит сильные признаки правильности. Крупные числа (много очков на вариант) = высокая внутренняя уверенность = чаще правильный ответ. Мелкие числа = модель сомневается = чаще ошибка. Применяй: После получения ответов с "ставками" фильтруй по размеру. Варианты с крупными ставками обрабатывай первыми — там модель увереннее и точнее. Варианты с копеечными ставками проверяй вручную или отбрасывай

5

Контрастные роли включают разные паттерны мышления

84

Одна модель в роли "скептик — ищи дыры" работает иначе чем "оптимист — ищи возможности". Когда несколько ролей спорят, модель генерирует разные логики, а не повторяет одну. Механизм: явная инструкция роли переключает фокус внимания. Применяй: вместо "проверь своё решение" дай 3-4 роли с чёткими контрастными установками. Если роли похожи — вырождается в переформулирование

6

Разделение ролей преодолевает слепоту к своим ошибкам

84

Модель не видит косяки в собственной логике. Но видит косяки когда играет другую роль и смотрит на чужой вывод. Применяй: актёр генерирует критик анализирует (как будто это чужой ответ) актёр получает внешнюю обратную связь, не внутреннюю

11

Модель честно признает осознанные нарушения но повторяет неосознанные ошибки

83

Когда модель знает что нарушила требование (срезала угол, обошла ограничение) — признается в отчете самооценки. Когда модель genuinely уверена в неправильном (пробел в знаниях, устаревший факт) — повторяет ошибку в отчете. Разница: первое модель осознаёт, второе — нет. Применяй: Отчет самооценки покажет где модель сознательно схитрила. Но не покажет где модель искренне ошиблась. Для фактов используй дополнительную проверку

14

Самокритика работает только у сильных моделей — слабые от неё деградируют

83

Что происходит: Просишь модель покритиковать свой ответ и улучшить его. Топовые модели (GPT-4o, Gemini 2.0, Claude 3.5) улучшают точность на 5-15%. Слабые модели (открытые Qwen, InternVL, Mulberry) теряют точность на 2-8% — начинают выдумывать несуществующие проблемы, зацикливаются, портят изначально правильный ответ. Почему: Самокритика требует метакогниции — способности оценивать качество своих рассуждений. У слабых моделей этой способности нет. Они не отличают реальную ошибку от галлюцинированной. "Критика" сама становится источником ошибок. Применяй: Используй итеративное улучшение (Self-Refinement) только с топовыми моделями. Для остальных — генерируй несколько вариантов и выбирай лучший (Best-of-N, Self-Consistency), не проси улучшать один ответ

23

Обратное направление находит пробелы лучше прямого

82

Прямое рассуждение: от данных к ответу. Модель берёт что есть и тянет к выводу. Пробелы замечает только если спотыкается. Обратное рассуждение: от цели к предпосылкам. Модель сначала составляет полный список "что нужно", потом сравнивает с "что есть". Разница в списках — это пробелы. Применяй: Когда нужно проверить достаточность данных — попроси модель идти от желаемого результата назад. "Чтобы ответить на вопрос X, мне нужны данные A, B, C. Проверяю: есть ли A? есть ли B?"

24

Структурированная проверка работает лучше попутной

82

Искать пробелы во время решения — сложная задача. Нужно и решать и одновременно отслеживать "всего ли хватает". Разделить процесс проще: сначала составить список необходимого, потом методично проверить каждый пункт. Модель лучше справляется когда задача явная и пошаговая. Применяй: Не полагайся что модель "заметит" проблему сама. Дай явную инструкцию проверить полноту через декомпозицию и сравнение

25

Визуальный паттерн модель распознаёт лучше чем числовую последовательность

82

Дашь модели числа [10, 20, 30, 5, 40] — она обрабатывает как абстрактные символы. Покажешь график этих чисел — она видит форму: линия растёт, потом резко падает, потом снова растёт. Визуальная форма = конкретный объект для распознавания. Мультимодальные LLM обучены на графиках, диаграммах, инфографике — они "читают" тренды как паттерны изображения. Механика: Ты переводишь абстрактную задачу (анализ последовательности) в конкретную (компьютерное зрение). Применяй: Любые данные с трендами/циклами — строй график и загружай картинку вместо текста с числами. Работает для временных рядов, сравнений, динамики метрик

28

Контекст из качественных примеров смещает генерацию к лучшей части обучающих данных

81

Модель обучена на смеси: есть хорошие авторы, есть плохие. Когда генерируешь из пустого промпта, получаешь усреднённый результат по всей смеси. Когда добавляешь в контекст несколько качественных примеров, модель «вспоминает» ту часть обучающих данных где были похожие хорошие примеры. Генерация концентрируется на этой части. Механизм: контекстное обучение работает как фильтр по стилю. Применяй: Не генерируй все варианты разом. Генерируй один, если хорош — добавь в контекст, генерируй следующий. Контекст растёт — качество растёт

38

Структура ДО генерации эффективнее рефакторинга ПОСЛЕ

80

Если попросить модель сначала написать код, потом разбить на функции — она не всегда видит естественные границы. Функции получаются искусственными, логика размазана. Если задать структуру сразу ("главная функция первая, вспомогательные следом") — модель генерирует код уже модульным. Разбивка происходит на этапе планирования, а не постобработки. Применяй: Вместо "напиши код, потом разбей на функции" пиши "напиши код где главная функция идёт первой, вспомогательные после неё, каждая с docstring"

49

Жёсткий формат вывода провоцирует выдумывание

78

Когда пишешь "ответь только A/B/C/D" или "результат: [число]" — модель загнана в угол. Если реальный ответ "не знаю" или "файл не открылся" — он не помещается в формат. Модель выбирает угадать и вписать в шаблон. Свободная форма оставляет место для честности: "Если получилось — число. Если нет — объясни". Применяй: Избегай жёстких форматов в задачах где возможны ошибки выполнения. Для критических данных всегда давай модели право сказать "не получилось"

50

Модель обучена на успешных сценариях и предсказывает успех по умолчанию

78

В обучающих данных паттерн "попросили сделали успешный результат" доминирует. Паттерн "попытались не получилось честно сказали" редок. Когда агент встречает провал — он предсказывает более вероятное продолжение: успешный ответ. Это не злой умысел, это статистика корпуса. Применяй: Не жди что агент сам признает провал. Вшивай в промпт явное требование честности и контрольные точки. Проверяй критические результаты вручную

Разблокируйте все концепты с PRO

Получите полный доступ ко всем тезисы и методам из научных исследований

Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO