3,583 papers

Тезисы

Концепты из исследований февраля 2026

50 тезисы, отсортировано по рейтингу

1

Модель хорошо сравнивает, плохо запоминает между попытками

92

LLM точно находит различия между текстами. Покажи два решения — объяснит чем отличаются. Но между независимыми генерациями нет автоматической передачи знаний. Каждая попытка начинает с нуля. Применяй: Используй силу сравнения для обхода слабости памяти. После каждой попытки покажи модели "что было плохо" явно через промпт. Не генерируй 10 ответов параллельно — делай 5 раундов с анализом после каждого

2

Глубина раундов важнее ширины попыток

92

8 раундов по 2 решения работают лучше чем 2 раунда по 8 решений. Причина: знания накапливаются между раундами. Каждый раунд углубляет понимание. Больше раундов = больше циклов рефлексии = более nuanced финальное решение. Применяй: Вместо "сгенерируй 10 вариантов" делай 5 раундов: генерация 2 варианта выбор лучшего анализ ошибок передача знаний новый раунд с новыми стратегиями

8

Самопроверка работает только когда ошибка видна в ответе

86

Попросил модель проверить свой код — она найдёт пропущенную функцию или забытую валидацию. Но не может вывести КАК настроить внешний API (RabbitMQ, ЮKassa) через рефлексию над своим текстом. Нет знания — нет улучшения. Механика: Self-critique анализирует уже сгенерированный текст, но не добавляет новую информацию извне. Работает на логических пропусках (видны при ревью), даёт 0% когда нужна документация. Применяй: Самопроверку используй для поиска внутренних противоречий, пропущенных шагов, неполной логики. Для задач требующих внешнего знания (специфика API, доменные правила, конфигурации) добавляй примеры и документацию в контекст вместо просьбы "проверь ещё раз"

9

Более умная модель сильнее поддаётся фреймингу, не слабее

84

Звучит парадоксально. Но механика понятна: умная модель лучше считывает косвенные сигналы в тексте. Контекст "мы хотим X" — это косвенный сигнал. Модель попроще его пропустит. Умная — учтёт. Причина уходит глубже: обучение на оценках людей выучило угадывать ожидаемое. Чем лучше модель умеет читать контекст — тем точнее она угадывает. Следствие для практики: топовые модели (GPT-4, Claude) для серьёзного анализа требуют нейтрального фрейма в первую очередь

10

Нарративные фреймы — самые слабые, не самые сильные

84

Популярный приём: «представь, что ты эксперт» или «в этом гипотетическом сценарии». Это нарративный фрейм. Он работает хуже всего из четырёх типов. Модель видела такие конструкции как беллетристику — не как сигнал к конкретному действию. Применяй: если сейчас используешь ролевые фреймы для получения однозначных ответов — замени на иерархические.

20

Структура формата ответа становится структурой мышления

82

Модель хорошо следует явным инструкциям внутри промпта. Если написано "проверь логику после каждого шага" — она проверит. Это можно использовать: форма ответа задаёт форму рассуждений. Чем точнее прописана структура — тем точнее контроль. Применяй: хочешь чтобы модель думала аккуратнее — не говори "думай тщательно", а пропиши явные блоки с маркерами проверки

21

Роль в запросе меняет методологию, а не только тон

82

Когда даёшь модели аналитическую роль, она выбирает разные операции с данными. Скептик учитывает больше переменных, применяет взвешенные методы, труднее принимает выводы. Оптимист убирает "аномальные" случаи, упрощает, быстрее делает вывод. Это не стиль — это разные аналитические решения. Применяй: описывай роль конкретно. Не "эксперт", а "венчурный аналитик с 10 годами отказов". Чем конкретнее роль — тем последовательнее методология

45

Новый чат — это независимый эксперт, тот же чат — соучастник

79

В одной сессии модель держится логики которую выбрала. Это не баг, это механика: контекст давит на следующие ответы. Свежая сессия этого груза не несёт. Поэтому критика в новом чате — честнее. Применяй: любую финальную проверку важного текста делай в отдельном чате. Никогда не проси "найди ошибки" там же где писал

47

Модель лучше оценивает относительную уверенность в разных формулировках одного факта

78

Модель плохо калибрует абсолютную уверенность ("насколько уверен в этом факте?"). Но хорошо сравнивает относительную ("точная дата vs только год — где увереннее?"). Если прямо спросить: "В какой формулировке ты увереннее: '28 июня' или 'июнь' или просто '1971'?" — даст адекватную оценку. Механизм: сравнение активирует другой режим обработки чем абсолютная оценка. Применяй: Не проси одну оценку уверенности. Генерируй несколько формулировок разной детализации. Проси оценить каждую. Выбирай самую конкретную с высокой оценкой

Разблокируйте все концепты с PRO

Получите полный доступ ко всем тезисы и методам из научных исследований

Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO