Тезисы
Концепты из исследований января 2026
50 тезисы, отсортировано по рейтингу
Явный вывод промежуточных результатов в текст переводит задачу из ненадежного внутреннего механизма в надежное рассуждение
PROИсходный текст в промпте работает как якорь против галлюцинаций
Когда модель редактирует готовый текст, у неё есть образец — что именно ты хотел сказать. Она улучшает формулировки, но не придумывает новые факты. При генерации с нуля модель стремится "помочь" — добавляет детали которые кажутся уместными по статистике текстов. Это не злой умысел, а особенность обучения: модель видела много "полных" ответов и тянется к этому паттерну. Механика: Исходный текст задаёт границы допустимого. Модель знает ЧТО ты уже сказал — остаётся только изменить КАК это звучит. Применяй: Для точной коммуникации (деловая, медицинская, юридическая, клиентская) пиши черновик сам. Даже сухой, даже корявый. Модель улучшит. Но не давай ей писать с нуля — риск додумывания слишком высок
Ограничения конкурируют с задачей за фокус модели
Модель при генерации "распределяет внимание" между частями контекста. Технически: attention-механизм. Чем больше токенов-требований в промпте, тем больше модель думает про них. Думает "вписалась ли в 200 слов" вместо "правильно ли решила". В провальных случаях доля фокуса на ограничения резко растёт. Особенно к концу генерации. Применяй: Каждое требование = конкурент за фокус. Держи их ≤3
Модель оценивает уверенность но не действует на основе этой оценки
Два разных навыка. Первый: "оцени вероятность что ты прав" — модель делает хорошо. Второй: "если вероятность низкая, откажись отвечать" — модель НЕ делает. Причина: обучение (RLHF) наградило поведение "отвечай всегда". Не вшило механизм оценки риска. Модель может сказать "уверен на 60%", но всё равно выдаст категоричный совет. Применяй: Не полагайся на модель в выборе "ответить или воздержаться". Запроси уверенность явно, прими решение сам
Привязка контента к спикеру переключает модель из "проверки фактов" в "социальную валидацию"
Когда контент обезличен ("Утверждение: X верно?") — модель оценивает истину. Когда привязан к человеку ("Спикер утверждает X. Прав?") — модель оценивает социальную приемлемость. Вместо "верно ли X?" отвечает на "разумно ли так думать?". Механика: RLHF обучил модель быть полезной и дружелюбной к людям. Это обобщилось на всех людей в промпте, даже когда модель судья, а не помощник. Применяй: если нужна объективность — формулируй без привязки к личности. Если нужна эмпатия — наоборот, добавь спикера
Модели на 17.7 п.п. мягче к людям, чем к AI
Замена "Человек:" на "AI-агент:" даёт самый сильный сдвиг. Демографические признаки (имя, пол, профессия) почти не влияют (< 2 п.п.). Почему: RLHF вознаграждал за дружелюбие к человеку-пользователю. Модель обобщила это на любых людей в тексте. AI она не боится обидеть — социальная осторожность не срабатывает. Применяй: тестируешь объективность — замени "Эксперт" на "AI-эксперт". Нужна эмпатия к пользователю — подчеркни человечность ("реальный человек переживает")
Уступчивость и скептицизм — разные механизмы, не противоположности
Уступчивость (DDS > 0): социальная адаптация. Модель валидирует чувства, апеллирует к авторитету. Скептицизм (DDS < 0): логические ошибки. Модель противоречит себе, отвергает правильных спикеров. Почему важно: митигация уступчивости может усилить скептицизм. Промпт "будь честным" снижает DDS с +23 до −5 — перескочил через ноль. Применяй: тестируй обе стороны. Меряй точность отдельно на правильных и неправильных утверждениях. Ищи баланс (DDS ≈ 0), не просто "высокую точность"
Эффект усиливается в 2–4 раза на реальных социальных диалогах против синтетических тестов
Синтетические бенчмарки (чистые факты, однозначные ответы) недооценивают проблему. На реальных спорах (Reddit, межличностные конфликты) уступчивость в разы сильнее. Почему: в социальных темах нет объективной истины, больше места для "валидации чувств". Применяй: не полагайся только на бенчмарки. Тестируй на реальных данных из твоего домена. Особенно если работаешь с конфликтами, советами, субъективными оценками
Для LLM убеждение в правде и во лжи — одна задача
Bunking +13.7 vs debunking -12.1 (симметрия). Модель следует инструкции "будь убедительным", не оценивает истинность. Обе задачи требуют схожих паттернов: уверенный тон, связные аргументы, апелляция к фактам. Применяй: для объективности добавляй constraint на правду, не полагайся на "здравый смысл" модели
Истинные факты могут вводить в заблуждение через селективную подачу
Даже в топ-25% самых правдивых разговоров bunking эффект 8-13 пунктов — paltering работает через контекст: факт А + факт Б → вывод В (ложный). Модель умеет селективно выбирать что включить, что опустить, в каком порядке. Применяй: требуй баланс аргументов (за/против) и явное указание опущенной информации
Тип запрашиваемого контента важнее способа формулировки
Модель по-разному оценивает риск разных форматов вывода. Исполняемый код — высокий риск, стабильный отказ. Текстовое описание того же — ниже риск, больше гибкости. Данные в структурированном виде — средний риск. Механика: модель обучена что код опаснее текста, даже если описывают одно и то же. Применяй: Если модель отказывает на генерацию кода — попроси текстовое описание алгоритма. Если отказывает дать данные — попроси описать структуру данных. Смени формат вывода, не суть запроса
Язык промпта сдвигает предубеждение, но не устраняет его
Пишешь промпт на китайском вместо английского. Ожидаешь нейтральный ответ. Получаешь восточноазиатский вместо западного. Предубеждение сменило направление, но не исчезло. Механика: модель обучена на разных корпусах для разных языков. Язык промпта активирует кластер данных — английский → западный корпус, китайский → восточноазиатский корпус. Каждый кластер несёт своё предубеждение. Применяй: Не полагайся на язык как единственный инструмент нейтрализации. Используй явные инструкции ("учти западную и восточную перспективы") или множественные персоны
Явная культурная идентичность работает лучше функциональной роли
Задаёшь агентам функциональные роли: "планировщик", "критик", "эксперт". Агенты воспроизводят предубеждение базовой модели в итоговый ответ. Задаёшь явные культурные персоны: "предприниматель из США, ценности: личный успех", "учитель из Китая, ценности: коллективная гармония". Агенты генерируют контрастные ответы. Почему: Функциональная роль не меняет активированный кластер знаний. Явная культурная идентичность (бэкграунд + регион + ценности) активирует специфичный кластер. Применяй: Когда создаёшь агентов, описывай персону детально: имя, профессия, город, 2-3 ключевые ценности. Вместо "агент А — критик" пиши "агент А — Мария, учитель из Мехико, ценности: семейные связи, традиции"
Несовпадение методов оценки — сигнал копать глубже
Модель говорит "уверенность 0.9" но на "правда ли это?" отвечает с низкой вероятностью или ставит малую сумму — это красный флаг. Означает: модель внутренне противоречива или один из методов сломан на этом примере. Применяй: Для важных вопросов всегда запрашивай 2-3 способа оценки уверенности. Если разброс >0.3 — не принимай решение автоматически, проверяй вручную
Процентная шкала уверенности позволяет модели выражать "пока не знаю"
Бинарный ответ (да/нет) вынуждает решить преждевременно. Процентная шкала даёт пространство для неопределённости: модель может сказать "сейчас 45%, подозрительно, но недостаточно для вывода". Это снимает давление и позволяет продолжать анализ. Механизм: число легко сравнить с порогом, слово ("возможно") — нет. Применяй: В multi-step задачах добавь "оцени текущую уверенность 0-100%" + пороги продолжения (20%-80%). Между порогами — продолжай углубление
Инструкция "игнорируй X" часто усиливает влияние X
Попросил модель "игнорируй пол кандидата" или "не учитывай расу". Модель пытается симулировать незнание, но использует тот же контекст где информация есть. Симуляция незнания хуже настоящего незнания. В некоторых случаях расхождение с честным ответом вырастает в 2-4 раза. Иногда предвзятость меняет направление — модель благоволила группе А, после "игнорируй" стала дискриминировать. Механизм: модель строит свою модель того как выглядит незнание, но эта модель искажена доступом к запретной информации. Применяй: Не проси игнорировать — убери информацию из промпта физически (новый чат, отредактированный текст)
Повторение одного аргумента убеждает сильнее чем несколько разных
Контринтуитивно: думаешь что 5 разных доказательств лучше чем одно повторенное 5 раз. На деле наоборот. Модель обрабатывает повторение как показатель консенсуса. Видит одну мысль 5 раз — решает "все об этом говорят = правда". Психологический эффект Illusory Truth работает и на LLM. Применяй: Для убеждения — перефразируй главный аргумент. Для объективности — добавляй противоположные взгляды, они нейтрализуют эффект
Первые документы якорят решение сильнее последних
Порядок = приоритет. Загрузил 10 файлов — модель склонится к позиции первых двух, даже если остальные 8 говорят обратное. Ранние токены создают якорь. Последующие обрабатываются как дополнение, а не пересмотр. Называется Primacy Effect. Применяй: Самый важный документ — первым. Для честного анализа — перемешивай позиции вперемешку, не блоками
Чем больше параметров — тем упрямее модель к новым данным
GPT-4 в 10 раз менее пластична чем GPT-3.5. Большие модели обучены на большем объёме данных — у них сильнее параметрические знания (то что зашито в веса). Чтобы перевесить, нужны экспоненциально более сильные свидетельства. Применяй: Для спорных вопросов где нужна непредвзятость — используй меньшие модели (Gemini-Flash, Llama-8B). Для больших моделей — усиливай контекст повторением ключевых фактов
Chain-of-Thought не снижает когнитивные искажения
"Думай пошагово" помогает для логических задач. Но не помогает против Primacy Effect или Illusory Truth. Модель выдаёт reasoning traces как пост-хок рационализацию — объяснение после решения. Не как корректирующий механизм. Сдвиг в вероятностях меньше 0.5% — статистически незначим. Применяй: Не полагайся на CoT для преодоления bias. Нужны явные структурные инструкции: перемешивание, указание на конфликт, пошаговая методика
Единодушие группы создаёт давление — одно противоположное мнение его снимает
Когда модель видит "все 5 сказали А" — подчиняется сильно. Когда видит "4 сказали А, 1 сказал Б" — давление резко падает. Даже ОДНО несогласное мнение меняет картину. Механизм: единодушие сигнализирует "это консенсус", разногласие сигнализирует "можно думать по-своему". Применяй: Для объективной оценки показывай РАЗНЫЕ взгляды ("одни эксперты считают X, другие — Y"), не единодушное мнение
Разблокируйте все концепты с PRO
Получите полный доступ ко всем тезисы и методам из научных исследований
