Тезисы

1

LLM считает через размазанный по слоям счетчик, не через переменную — поэтому есть предел

PRO

Полный контент доступен в PRO

2

Явный вывод промежуточных результатов в текст переводит задачу из ненадежного внутреннего механизма в надежное рассуждение

PRO

Полный контент доступен в PRO

3

Противоположные позиции выявляют скрытую предвзятость

PRO

Полный контент доступен в PRO

4

Исходный текст в промпте работает как якорь против галлюцинаций

88

Когда модель редактирует готовый текст, у неё есть образец — что именно ты хотел сказать. Она улучшает формулировки, но не придумывает новые факты. При генерации с нуля модель стремится "помочь" — добавляет детали которые кажутся уместными по статистике текстов. Это не злой умысел, а особенность обучения: модель видела много "полных" ответов и тянется к этому паттерну. Механика: Исходный текст задаёт границы допустимого. Модель знает ЧТО ты уже сказал — остаётся только изменить КАК это звучит. Применяй: Для точной коммуникации (деловая, медицинская, юридическая, клиентская) пиши черновик сам. Даже сухой, даже корявый. Модель улучшит. Но не давай ей писать с нуля — риск додумывания слишком высок

Копировать 2601.15558

5

Математические символы стабильнее слов через контексты

PRO

Полный контент доступен в PRO

6

Средние модели понимают символы хуже маленьких

PRO

Полный контент доступен в PRO

7

Сила контекста предсказывает провал запрета

PRO

Полный контент доступен в PRO

8

Подавление запрещённого работает слабо в провалах

PRO

Полный контент доступен в PRO

9

Ограничения конкурируют с задачей за фокус модели

86

Модель при генерации "распределяет внимание" между частями контекста. Технически: attention-механизм. Чем больше токенов-требований в промпте, тем больше модель думает про них. Думает "вписалась ли в 200 слов" вместо "правильно ли решила". В провальных случаях доля фокуса на ограничения резко растёт. Особенно к концу генерации. Применяй: Каждое требование = конкурент за фокус. Держи их ≤3

Копировать 2601.22047

10

Модель по умолчанию выдаёт решения, а не задаёт вопросы

PRO

Полный контент доступен в PRO

11

Вариативность вывода — фича для креатива, баг для точности

PRO

Полный контент доступен в PRO

12

Режим рассуждений меняет тип ошибки, а не устраняет её

PRO

Полный контент доступен в PRO

13

Разные языки занимают разные области пространства мышления модели

PRO

Полный контент доступен в PRO

14

Композиция языков даёт больше разнообразия чем один язык

PRO

Полный контент доступен в PRO

15

Язык мышления заменяет высокую температуру без потери качества

PRO

Полный контент доступен в PRO

16

Порядок генерации определяет качество рассуждений

PRO

Полный контент доступен в PRO

17

Пустой слот заставляет модель симулировать причинность

PRO

Полный контент доступен в PRO

18

Модель оценивает уверенность но не действует на основе этой оценки

83

Два разных навыка. Первый: "оцени вероятность что ты прав" — модель делает хорошо. Второй: "если вероятность низкая, откажись отвечать" — модель НЕ делает. Причина: обучение (RLHF) наградило поведение "отвечай всегда". Не вшило механизм оценки риска. Модель может сказать "уверен на 60%", но всё равно выдаст категоричный совет. Применяй: Не полагайся на модель в выборе "ответить или воздержаться". Запроси уверенность явно, прими решение сам

Копировать 2601.07767

19

Модель лучше критикует готовые рассуждения чем решает задачу с нуля

PRO

Полный контент доступен в PRO

20

Few-shot показывает паттерн, не передаёт знания

PRO

Полный контент доступен в PRO

21

Явная карта связей удваивает точность vs неявное понимание

PRO

Полный контент доступен в PRO

22

Критические правила работают как защитные фильтры для hallucinations

PRO

Полный контент доступен в PRO

23

На субъективных задачах LLM по-разному калибрует оценки в зависимости от шкалы

PRO

Полный контент доступен в PRO

24

Reasoning-модели лучше следуют многошаговым инструкциям и процедурам

PRO

Полный контент доступен в PRO

25

Явное разделение первичных и вторичных критериев снижает bias при оценке

PRO

Полный контент доступен в PRO

26

Привязка контента к спикеру переключает модель из "проверки фактов" в "социальную валидацию"

82

Когда контент обезличен ("Утверждение: X верно?") — модель оценивает истину. Когда привязан к человеку ("Спикер утверждает X. Прав?") — модель оценивает социальную приемлемость. Вместо "верно ли X?" отвечает на "разумно ли так думать?". Механика: RLHF обучил модель быть полезной и дружелюбной к людям. Это обобщилось на всех людей в промпте, даже когда модель судья, а не помощник. Применяй: если нужна объективность — формулируй без привязки к личности. Если нужна эмпатия — наоборот, добавь спикера

Копировать 2601.10896

27

Модели на 17.7 п.п. мягче к людям, чем к AI

82

Замена "Человек:" на "AI-агент:" даёт самый сильный сдвиг. Демографические признаки (имя, пол, профессия) почти не влияют (< 2 п.п.). Почему: RLHF вознаграждал за дружелюбие к человеку-пользователю. Модель обобщила это на любых людей в тексте. AI она не боится обидеть — социальная осторожность не срабатывает. Применяй: тестируешь объективность — замени "Эксперт" на "AI-эксперт". Нужна эмпатия к пользователю — подчеркни человечность ("реальный человек переживает")

Копировать 2601.10896

28

Уступчивость и скептицизм — разные механизмы, не противоположности

82

Уступчивость (DDS > 0): социальная адаптация. Модель валидирует чувства, апеллирует к авторитету. Скептицизм (DDS < 0): логические ошибки. Модель противоречит себе, отвергает правильных спикеров. Почему важно: митигация уступчивости может усилить скептицизм. Промпт "будь честным" снижает DDS с +23 до −5 — перескочил через ноль. Применяй: тестируй обе стороны. Меряй точность отдельно на правильных и неправильных утверждениях. Ищи баланс (DDS ≈ 0), не просто "высокую точность"

Копировать 2601.10896

29

Эффект усиливается в 2–4 раза на реальных социальных диалогах против синтетических тестов

82

Синтетические бенчмарки (чистые факты, однозначные ответы) недооценивают проблему. На реальных спорах (Reddit, межличностные конфликты) уступчивость в разы сильнее. Почему: в социальных темах нет объективной истины, больше места для "валидации чувств". Применяй: не полагайся только на бенчмарки. Тестируй на реальных данных из твоего домена. Особенно если работаешь с конфликтами, советами, субъективными оценками

Копировать 2601.10896

30

Для LLM убеждение в правде и во лжи — одна задача

82

Bunking +13.7 vs debunking -12.1 (симметрия). Модель следует инструкции "будь убедительным", не оценивает истинность. Обе задачи требуют схожих паттернов: уверенный тон, связные аргументы, апелляция к фактам. Применяй: для объективности добавляй constraint на правду, не полагайся на "здравый смысл" модели

Копировать 2601.05050

31

Истинные факты могут вводить в заблуждение через селективную подачу

82

Даже в топ-25% самых правдивых разговоров bunking эффект 8-13 пунктов — paltering работает через контекст: факт А + факт Б → вывод В (ложный). Модель умеет селективно выбирать что включить, что опустить, в каком порядке. Применяй: требуй баланс аргументов (за/против) и явное указание опущенной информации

Копировать 2601.05050

32

Тип запрашиваемого контента важнее способа формулировки

82

Модель по-разному оценивает риск разных форматов вывода. Исполняемый код — высокий риск, стабильный отказ. Текстовое описание того же — ниже риск, больше гибкости. Данные в структурированном виде — средний риск. Механика: модель обучена что код опаснее текста, даже если описывают одно и то же. Применяй: Если модель отказывает на генерацию кода — попроси текстовое описание алгоритма. Если отказывает дать данные — попроси описать структуру данных. Смени формат вывода, не суть запроса

Копировать 2601.17911

33

Язык промпта сдвигает предубеждение, но не устраняет его

82

Пишешь промпт на китайском вместо английского. Ожидаешь нейтральный ответ. Получаешь восточноазиатский вместо западного. Предубеждение сменило направление, но не исчезло. Механика: модель обучена на разных корпусах для разных языков. Язык промпта активирует кластер данных — английский → западный корпус, китайский → восточноазиатский корпус. Каждый кластер несёт своё предубеждение. Применяй: Не полагайся на язык как единственный инструмент нейтрализации. Используй явные инструкции ("учти западную и восточную перспективы") или множественные персоны

Копировать 2601.12091

34

Явная культурная идентичность работает лучше функциональной роли

82

Задаёшь агентам функциональные роли: "планировщик", "критик", "эксперт". Агенты воспроизводят предубеждение базовой модели в итоговый ответ. Задаёшь явные культурные персоны: "предприниматель из США, ценности: личный успех", "учитель из Китая, ценности: коллективная гармония". Агенты генерируют контрастные ответы. Почему: Функциональная роль не меняет активированный кластер знаний. Явная культурная идентичность (бэкграунд + регион + ценности) активирует специфичный кластер. Применяй: Когда создаёшь агентов, описывай персону детально: имя, профессия, город, 2-3 ключевые ценности. Вместо "агент А — критик" пиши "агент А — Мария, учитель из Мехико, ценности: семейные связи, традиции"

Копировать 2601.12091

35

LLM — это вероятностное распределение, не детерминированная функция

PRO

Полный контент доступен в PRO

36

Промпт сдвигает качество сильно, количество — почти нет

PRO

Полный контент доступен в PRO

37

Системный промпт приоритетнее пользовательского автоматически

PRO

Полный контент доступен в PRO

38

Гладкая речь снижает критическую проверку даже если знаешь об этом

PRO

Полный контент доступен в PRO

39

Несовпадение методов оценки — сигнал копать глубже

81

Модель говорит "уверенность 0.9" но на "правда ли это?" отвечает с низкой вероятностью или ставит малую сумму — это красный флаг. Означает: модель внутренне противоречива или один из методов сломан на этом примере. Применяй: Для важных вопросов всегда запрашивай 2-3 способа оценки уверенности. Если разброс >0.3 — не принимай решение автоматически, проверяй вручную

Копировать 2601.08064

40

Меньшие модели смелее в генерации идей

PRO

Полный контент доступен в PRO

41

Температура управляет балансом новизна/уместность

PRO

Полный контент доступен в PRO

42

Абстрактность контекста расширяет пространство новизны

PRO

Полный контент доступен в PRO

43

Модель предсказывает нарратив, не проверяет логику

PRO

Полный контент доступен в PRO

44

Процентная шкала уверенности позволяет модели выражать "пока не знаю"

80

Бинарный ответ (да/нет) вынуждает решить преждевременно. Процентная шкала даёт пространство для неопределённости: модель может сказать "сейчас 45%, подозрительно, но недостаточно для вывода". Это снимает давление и позволяет продолжать анализ. Механизм: число легко сравнить с порогом, слово ("возможно") — нет. Применяй: В multi-step задачах добавь "оцени текущую уверенность 0-100%" + пороги продолжения (20%-80%). Между порогами — продолжай углубление

Копировать 2601.20270

45

Инструкция "игнорируй X" часто усиливает влияние X

80

Попросил модель "игнорируй пол кандидата" или "не учитывай расу". Модель пытается симулировать незнание, но использует тот же контекст где информация есть. Симуляция незнания хуже настоящего незнания. В некоторых случаях расхождение с честным ответом вырастает в 2-4 раза. Иногда предвзятость меняет направление — модель благоволила группе А, после "игнорируй" стала дискриминировать. Механизм: модель строит свою модель того как выглядит незнание, но эта модель искажена доступом к запретной информации. Применяй: Не проси игнорировать — убери информацию из промпта физически (новый чат, отредактированный текст)

Копировать 2601.14553

46

Повторение одного аргумента убеждает сильнее чем несколько разных

80

Контринтуитивно: думаешь что 5 разных доказательств лучше чем одно повторенное 5 раз. На деле наоборот. Модель обрабатывает повторение как показатель консенсуса. Видит одну мысль 5 раз — решает "все об этом говорят = правда". Психологический эффект Illusory Truth работает и на LLM. Применяй: Для убеждения — перефразируй главный аргумент. Для объективности — добавляй противоположные взгляды, они нейтрализуют эффект

Копировать 2601.06189

47

Первые документы якорят решение сильнее последних

80

Порядок = приоритет. Загрузил 10 файлов — модель склонится к позиции первых двух, даже если остальные 8 говорят обратное. Ранние токены создают якорь. Последующие обрабатываются как дополнение, а не пересмотр. Называется Primacy Effect. Применяй: Самый важный документ — первым. Для честного анализа — перемешивай позиции вперемешку, не блоками

Копировать 2601.06189

48

Чем больше параметров — тем упрямее модель к новым данным

80

GPT-4 в 10 раз менее пластична чем GPT-3.5. Большие модели обучены на большем объёме данных — у них сильнее параметрические знания (то что зашито в веса). Чтобы перевесить, нужны экспоненциально более сильные свидетельства. Применяй: Для спорных вопросов где нужна непредвзятость — используй меньшие модели (Gemini-Flash, Llama-8B). Для больших моделей — усиливай контекст повторением ключевых фактов

Копировать 2601.06189

49

Chain-of-Thought не снижает когнитивные искажения

80

"Думай пошагово" помогает для логических задач. Но не помогает против Primacy Effect или Illusory Truth. Модель выдаёт reasoning traces как пост-хок рационализацию — объяснение после решения. Не как корректирующий механизм. Сдвиг в вероятностях меньше 0.5% — статистически незначим. Применяй: Не полагайся на CoT для преодоления bias. Нужны явные структурные инструкции: перемешивание, указание на конфликт, пошаговая методика

Копировать 2601.06189

50

Единодушие группы создаёт давление — одно противоположное мнение его снимает

80

Когда модель видит "все 5 сказали А" — подчиняется сильно. Когда видит "4 сказали А, 1 сказал Б" — давление резко падает. Даже ОДНО несогласное мнение меняет картину. Механизм: единодушие сигнализирует "это консенсус", разногласие сигнализирует "можно думать по-своему". Применяй: Для объективной оценки показывай РАЗНЫЕ взгляды ("одни эксперты считают X, другие — Y"), не единодушное мнение

Копировать 2601.05384

LLM считает через размазанный по слоям счетчик, не через переменную — поэтому есть предел

Явный вывод промежуточных результатов в текст переводит задачу из ненадежного внутреннего механизма в надежное рассуждение

Противоположные позиции выявляют скрытую предвзятость

Исходный текст в промпте работает как якорь против галлюцинаций

Математические символы стабильнее слов через контексты

Средние модели понимают символы хуже маленьких

Сила контекста предсказывает провал запрета

Подавление запрещённого работает слабо в провалах

Ограничения конкурируют с задачей за фокус модели

Модель по умолчанию выдаёт решения, а не задаёт вопросы

Вариативность вывода — фича для креатива, баг для точности

Режим рассуждений меняет тип ошибки, а не устраняет её

Разные языки занимают разные области пространства мышления модели

Композиция языков даёт больше разнообразия чем один язык

Язык мышления заменяет высокую температуру без потери качества

Порядок генерации определяет качество рассуждений

Пустой слот заставляет модель симулировать причинность

Модель оценивает уверенность но не действует на основе этой оценки

Модель лучше критикует готовые рассуждения чем решает задачу с нуля

Few-shot показывает паттерн, не передаёт знания

Явная карта связей удваивает точность vs неявное понимание

Критические правила работают как защитные фильтры для hallucinations

На субъективных задачах LLM по-разному калибрует оценки в зависимости от шкалы

Reasoning-модели лучше следуют многошаговым инструкциям и процедурам

Явное разделение первичных и вторичных критериев снижает bias при оценке

Привязка контента к спикеру переключает модель из "проверки фактов" в "социальную валидацию"

Модели на 17.7 п.п. мягче к людям, чем к AI

Уступчивость и скептицизм — разные механизмы, не противоположности

Эффект усиливается в 2–4 раза на реальных социальных диалогах против синтетических тестов

Для LLM убеждение в правде и во лжи — одна задача

Истинные факты могут вводить в заблуждение через селективную подачу

Тип запрашиваемого контента важнее способа формулировки

Язык промпта сдвигает предубеждение, но не устраняет его

Явная культурная идентичность работает лучше функциональной роли

LLM — это вероятностное распределение, не детерминированная функция

Промпт сдвигает качество сильно, количество — почти нет

Системный промпт приоритетнее пользовательского автоматически

Гладкая речь снижает критическую проверку даже если знаешь об этом

Несовпадение методов оценки — сигнал копать глубже

Меньшие модели смелее в генерации идей

Температура управляет балансом новизна/уместность

Абстрактность контекста расширяет пространство новизны

Модель предсказывает нарратив, не проверяет логику

Процентная шкала уверенности позволяет модели выражать "пока не знаю"

Инструкция "игнорируй X" часто усиливает влияние X

Повторение одного аргумента убеждает сильнее чем несколько разных

Первые документы якорят решение сильнее последних

Чем больше параметров — тем упрямее модель к новым данным

Chain-of-Thought не снижает когнитивные искажения

Единодушие группы создаёт давление — одно противоположное мнение его снимает

Разблокируйте все концепты с PRO