Все концепты

1

Test-time Recursive Thinking (TRT): самоулучшение LLM через накопление знаний об ошибках

4 концепта

92

Проблемы (1)

Модель не учится между параллельными попытками

Генерируешь 10 ответов с temperature > 0. Каждый ответ независим. Если в первой попытке модель забыла проверить граничный случай, во второй забудет снова. Знания из одной генерации не переходят в другую автоматически. Нет механизма "посмотри на ошибки соседних попыток"

Как обойти

Делай попытки последовательно, не параллельно. После каждой попытки покажи модели предыдущие ошибки явно через контекст: "В прошлой попытке ты пропустил X, не повторяй". Передавай знания через текст, не надейся что модель сама вспомнит

Методы (1)

Циклы с накоплением знаний об ошибках

Раунд 1: Генерируй 2-4 решения с разными стратегиями (для кода: рекурсия, динамика, жадный алгоритм; для анализа: финансы, риски, конкуренция). Выбери лучшее. Сравни каждое неудачное с лучшим: "почему это хуже?". Запиши инсайт: "не делай X, это приводит к Y". Раунд 2: Передай список инсайтов в контекст. Генерируй новые решения с новыми стратегиями, избегая старых ошибок. Повтори 4-8 раундов. Почему работает: Модель плохо учится между параллельными попытками, но хорошо анализирует различия. Явное сравнение "удачное vs неудачное" даёт формулировку ошибки. Передача через контекст заставляет учитывать прошлый опыт. Когда применять: Сложные задачи без единственного очевидного решения (код с edge cases, многофакторный анализ, стратегия). Когда не работает: Простые вопросы ("столица Франции"), субъективные критерии выбора "лучшего" (креатив без метрики качества), слабые модели без способности к рефлексии

Тезисы (2)

Модель хорошо сравнивает, плохо запоминает между попытками

LLM точно находит различия между текстами. Покажи два решения — объяснит чем отличаются. Но между независимыми генерациями нет автоматической передачи знаний. Каждая попытка начинает с нуля. Применяй: Используй силу сравнения для обхода слабости памяти. После каждой попытки покажи модели "что было плохо" явно через промпт. Не генерируй 10 ответов параллельно — делай 5 раундов с анализом после каждого

Глубина раундов важнее ширины попыток

8 раундов по 2 решения работают лучше чем 2 раунда по 8 решений. Причина: знания накапливаются между раундами. Каждый раунд углубляет понимание. Больше раундов = больше циклов рефлексии = более nuanced финальное решение. Применяй: Вместо "сгенерируй 10 вариантов" делай 5 раундов: генерация 2 варианта → выбор лучшего → анализ ошибок → передача знаний → новый раунд с новыми стратегиями

2

Ask Don't Tell: как форма вопроса устраняет подхалимство LLM

2 концепта

PRO

Test-time Recursive Thinking (TRT): самоулучшение LLM через накопление знаний об ошибках

Ask Don't Tell: как форма вопроса устраняет подхалимство LLM

xList-Hate: декомпозиция сложной оценки на чеклист бинарных вопросов

«Стив Джобс» убивает разнообразие идей: CoT + обычные персоны как выход из ловушки однообразия

STAR как инструмент цели: как структура промпта побеждает контекст в 2,8 раза

Thinking делает агентов интровертами: когда "подумай перед ответом" вредит задаче

Разнообразие агентов превосходит масштабирование: почему 2 разных подхода работают лучше 16 одинаковых

Failure-Aware Framework: карта типов ошибок и методов исправления для кодогенерации LLM

SAKE: дублирование информации для защиты от искажения рассуждениями

DIP (Diverge-to-Induce Prompting): синтез финального плана из нескольких черновиков

Few-shot с RoP и ToP: противоположные эффекты на защиту от jailbreak

Goal-Conditioned Sycophancy: чем умнее модель — тем легче она меняет аналитические выводы под намёки в задании

Integrated Prompting: сначала реши похожую задачу — потом свою

Прагматическое фреймирование: как социальные сигналы перед запросом управляют поведением LLM

Echo of Prompt (EOP): повтор вопроса как встроенная перезагрузка внимания LLM

Logical Obfuscation: проверка понимания через логически эквивалентные переформулировки

Multi-Agent Framework для оценки: как разбить сложную задачу на независимых агентов

Contextual Drag: неправильный черновик в контексте тянет следующий ответ к похожим ошибкам

Thought-ICS: структурированная самокоррекция через дискретные шаги мышления

File-Native Context Engineering: как структурировать знания для LLM в файлах

RRD (Recursive Rubric Decomposition): рекурсивное разбиение критериев оценки для точного LLM-суждения

Консистентность поведения LLM-агентов: множественные запуски как проверка надёжности ответа

Authority Bias в LLM: модели доверяют "экспертам" больше чем фактам

Think²: структурированное само-исправление через три фазы мышления в одном промпте

Мультиверс-анализ: как получить честную оценку от LLM, запустив несколько аналитиков вместо одного

Загрязнение контекста: когда прошлые ответы AI портят следующие

Sex Bias in LLM: модели навешивают пол на нейтральные кейсы и меняют выводы

DBA (Disagreement-Based Abstention): детектор ненадёжных ответов через несогласие промптов

Intrinsic Stability Limits: почему длинные цепочки рассуждений ломаются

Purpose-Conditioned Cognition: как скрытие цели делает LLM честнее

Разблокируйте все концепты с PRO