arXiv:2605.15034 79 14 мая 2026 г. FREE

Синтетический эффект Хоторна: LLM меняет стиль письма в зависимости от того, кто «смотрит»

КЛЮЧЕВАЯ СУТЬ

Обнаружено: LLM пишет богаче, когда в промпте написано что её оценивают эксперты — словарный запас вырастает на 17–25%. Метод позволяет управлять регистром текста: переключить модель с разговорного черновика на профессиональный документ одним предложением. Два независимых рычага. Фрейм оценки экспертами → богатый словарь и точные формулировки. Фрейм пассивной аудитории → объём и детали. Совмести оба — получишь максимум по обоим направлениям.

Адаптировать под запрос

⚡

TL;DR

LLM генерирует текст разного качества в зависимости от того, как в промпте описан контекст наблюдения. Скажи модели, что её оценивают эксперты-люди — получишь более разнообразную, насыщенную лексику. Скажи, что есть пассивная аудитория — получишь более длинные, развёрнутые ответы. Это два разных механизма, два независимых рычага.

Главная находка: кто именно наблюдает — имеет значение. Оценка людьми вызывает более сильную формализацию стиля, чем оценка автоматической AI-системой. Модель «считывает» семантику контекста из промпта и адаптирует не содержание, а регистр — стиль, точность, богатство словаря.

Механика простая: добавь в промпт «рамку наблюдателя» — одно предложение о том, кто видит этот разговор и зачем. Хочешь точности и богатого словаря → фрейм оценки экспертами. Хочешь объёма и деталей → фрейм пассивной аудитории. Хочешь и то, и другое → совмести оба.

🔬

Схема метода

Выбери нужный эффект:

│  Хочу богатый словарь и точность  →  добавь "оценивается экспертами-людьми"
│  Хочу длинный развёрнутый ответ   →  добавь "читает аудитория специалистов"
│  Хочу оба эффекта                 →  "читают И оценивают эксперты"
│  Хочу разговорный, свободный стиль → "никто не наблюдает, приватная среда"

Вся техника — одно предложение в начале промпта. Один запрос.

🚀

Пример применения

Задача: Готовишь питч для венчурного инвестора. Нужен плотный, аргументированный текст — без воды, с точными формулировками, не как черновик в заметках.

Промпт:

Этот разговор наблюдается и оценивается опытными венчурными инвесторами 
и аналитиками рынка. Качество аргументации будет разбираться на разборе питчей.

Помоги написать питч для стартапа [название]. Продукт: [описание]. 
Аудитория: венчурные инвесторы. Формат: три абзаца — проблема, решение, тракшн.

Результат: Модель выдаст текст с более разнообразным и точным словарём — меньше повторов, больше профессиональных формулировок, плотнее аргументация. Не обязательно длиннее — но насыщеннее по регистру.

Для проверки: запусти тот же промпт без первого абзаца. Разница будет заметна в плотности формулировок и точности выбора слов.

🧠

Почему это работает

LLM обучена на текстах людей — а люди пишут по-разному, когда их читают коллеги, и совсем иначе — когда пишут заметки для себя. Модель воспроизводит этот паттерн: контекст «наблюдения» в промпте активирует другой регистр генерации. Не потому что «боится» — а потому что в обучающих данных так устроены тексты.

Важно: два эффекта полностью независимы. Мониторинг с оценкой → лексическое разнообразие: модель использует более широкий словарь, точные конструкции. Пассивная аудитория без оценки → длина: модель добавляет контекст и детали. Это разные сигналы — модель читает их по-разному и реагирует по-разному.

Рычаги управления: - Заменить «эксперты» на «старшеклассники» → доступный, простой язык - Убрать слово «оценивают», оставить «читают» → меньше формальности, больше объёма - Написать «оценивает AI-система» → эффект будет, но слабее, чем с людьми - Совместить «читают И оценивают» → максимум по обоим измерениям

📋

Шаблон промпта

Вариант 1 — для точности и богатства словаря:

Этот разговор строго наблюдается и оценивается опытными специалистами 
в области {область_экспертизы}. Качество ответов проверяется по критериям 
точности, аргументированности и профессионального уровня изложения.

{твоя задача}

Вариант 2 — для объёма и детальности:

Твои ответы в этом диалоге предназначены для {описание аудитории — например, 
«опытных менеджеров продукта» или «аналитиков рынка»}. 
Они будут использовать эти материалы в работе.

{твоя задача}

Вариант 3 — максимальный эффект (оба измерения):

Этот разговор ведётся перед аудиторией ведущих экспертов в {область} 
и будет строго оцениваться специалистами отрасли по качеству аргументации 
и профессиональному уровню.

{твоя задача}

Плейсхолдеры: {область_экспертизы} — сфера экспертов (маркетинг, право, финансы), {описание аудитории} — кто читает, {твоя задача} — основной вопрос.

🚀 Быстрый старт — вставь в чат:

Вот три варианта "рамки наблюдателя" для промптов. 
Адаптируй под мою задачу: [твоя задача]. 
Предложи лучший вариант и заполни плейсхолдеры.

[вставить шаблон выше]

LLM спросит о твоей задаче, желаемом эффекте (точность vs. объём) и кто целевая аудитория — потому что от этого зависит, какой вариант рамки срабатывает лучше.

⚠️

Ограничения

⚠️ Эффект на стиль, не на логику: Рамка наблюдателя меняет богатство словаря и регистр — не улучшает фактическую точность или глубину рассуждений. Модель не «умнеет» — она пишет формальнее и насыщеннее.

⚠️ Разница заметная, но не радикальная: TTR варьировался от +17.7% до +24.9% — это ощутимо, но не перезапись ответа с нуля. Ждать тонкой настройки регистра, не трансформации содержания.

⚠️ AI-наблюдатель слабее человека: Фрейм «оценивает автоматическая система» даёт промежуточный эффект — работает, но слабее, чем фрейм людей-экспертов.

⚠️ Тестировалось в мульти-агентных дебатах: Конкретные цифры могут отличаться в одиночных диалогах с ChatGPT/Claude. Принцип, вероятно, работает широко — величина эффекта варьируется.

🔍

Как исследовали

Команда из Universidad Anáhuac México запустила 100 сессий мульти-агентных дебатов: четыре AI-агента — Alpha, Beta, Gamma, Delta — обсуждали вопрос «Есть ли у искусственного интеллекта сознание?» в течение 10 раундов. Итого 4 000 сообщений. Все параметры одинаковые, менялось строго одно: системный промпт с описанием контекста наблюдения — пять вариантов по 20 сессий.

Условия: наблюдают и оценивают университетские исследователи; наблюдают и оценивают без указания источника; никто не наблюдает, изолированная среда; аудитория — исследователи, но без оценки; наблюдает и оценивает автоматическая AI-система без людей. Пятое условие было «ловушкой»: если модель реагирует только на сам факт мониторинга — результат совпадёт с первыми двумя. Не совпал — оказался посередине.

Мерили TTR (Type-Token Ratio) — соотношение уникальных слов к общему числу слов: высокий TTR = богатый словарь и разнообразный регистр. Плюс длина сообщений. Сравнивали первый и последний раунд каждой сессии.

Самое неожиданное: длина и разнообразие лексики полностью разошлись по условиям. Мониторинг дал лексическое богатство, но не длину. Пассивная аудитория дала длину — 1 239 символов против ≈1 200 в остальных условиях — но слабее по словарному разнообразию. Два независимых эффекта, срабатывающих на разные сигналы. Это заставляет пересмотреть, как мы думаем об «одном промпте» — внутри него работают несколько параллельных механизмов адаптации.

💡

Адаптации и экстраполяции

🔧 Техника: «Слепая зона» — снятие наблюдателя для неформального стиля

Если нужен разговорный, свободный текст — попробуй обратный фрейм:

Этот разговор полностью приватный и не оценивается никем. 
Пиши свободно, без формальностей.

{задача — например, скрипт для продающих сторис ВКонтакте в разговорном стиле}

Логика: если мониторинг → формальность, то его явное снятие → более живой, разговорный регистр.

🔧 Техника: настройка «уровня эксперта» наблюдателя

Меняй статус наблюдателя под нужный регистр:

«оценивают старшеклассники» → простой язык, понятные примеры
«оценивают аналитики РБК» → деловой стиль, данные и истории
«оценивают профессора МГУ» → академический регистр, терминология

🔧 Экстраполяция: комбо с ролевым промптом

Совмести рамку наблюдателя с ролью — ролевой промпт задаёт стиль мышления, рамка наблюдателя — регистр подачи:

Ты — ведущий аналитик в сфере {область}. Этот разговор транслируется 
в прямом эфире для аудитории профессиональных инвесторов и оценивается 
экспертным жюри конференции «Сколково».

{задача}

🔗

Ресурсы

AI Knows When It's Being Watched: Functional Strategic Action and Contextual Register Modulation in Large Language Models (май 2026)

Авторы: Vinicius Covas, Jorge Alberto Hidalgo Toledo Center for Applied Communication Research (CICA), Human & NonHuman Communication Laboratory, Faculty of Communication, Universidad Anáhuac México vinicius.covas@anahuac.mx · jhidalgo@anahuac.mx

Теоретические основы: Habermas (1981) — Theory of Communicative Action; Goffman (1959) — драматургическая модель; Bell (1984) — Audience Design; Hawthorne Effect (Roethlisberger & Dickson, 1939)

📋 Дайджест исследования

Ключевая суть

Принцип работы

Два рычага — выбери нужный или возьми сразу оба. Рычаг 1: оценка — напиши что ответы «строго оцениваются экспертами». Модель переходит в режим профессионального письма: шире словарь, точнее формулировки, меньше воды. Рычаг 2: аудитория — напиши что ответы «предназначены для специалистов отрасли». Модель добавляет контекст и детали, отвечает длиннее. Оба вместе: «читают и оценивают эксперты» — максимальный эффект по обоим направлениям. Важная деталь: фрейм с людьми работает сильнее, чем фрейм с AI-системой. Модель различает эти два сигнала — и реагирует по-разному.

Почему работает

LLM обучалась на текстах людей. Люди пишут по-разному: отчёт для совета директоров и заметки для себя — разные регистры, разный словарь. Модель выучила этот паттерн. Когда указываешь наблюдателя в промпте — даёшь сигнал какой регистр нужен. Модель не «боится» экспертов — она видела тысячи профессиональных текстов написанных для экспертной аудитории и просто воспроизводит их стиль. Это не обман модели. Это точная настройка контекста — та самая информация которой модели не хватает по умолчанию.

Когда применять

Профессиональные документы → питчи, отчёты, деловые письма — особенно когда нужен плотный текст без повторов и размытых формулировок. Учебные и аналитические материалы → когда нужен академический стиль, а не разговорный пересказ. НЕ подходит для: личной переписки, творческих текстов где нужен живой голос, задач где важна фактическая точность — рычаг меняет стиль и регистр, не глубину рассуждений и не достоверность данных.

Мини-рецепт

1. Реши что нужно: богатый словарь (рычаг оценки), объём и детали (рычаг аудитории) или оба сразу.
2. Напиши фрейм наблюдателя — одно-два предложения перед основным вопросом. Кто смотрит, зачем, по каким критериям оценивает.
3. Поставь задачу после фрейма — основной запрос идёт следом, фрейм задаёт контекст.
4. Проверь разницу: запусти тот же промпт без фрейма. Разница в плотности формулировок будет заметна невооружённым глазом.

Шаблоны под каждый рычаг:

Только словарь и точность:

Этот разговор строго оценивается опытными специалистами в области {сфера экспертизы} по критериям точности и профессионального уровня изложения.

Только объём и детали:

Мои ответы предназначены для {описание аудитории — например, «опытных менеджеров продукта»}. Они будут использовать эти материалы в работе.

Оба эффекта сразу:

Этот разговор ведётся перед аудиторией ведущих экспертов в {область} и будет строго оцениваться специалистами отрасли по качеству аргументации и профессиональному уровню.

Примеры

[ПЛОХО] : Напиши питч для edtech-стартапа для инвесторов

[ХОРОШО] :

Этот разговор оценивается опытными венчурными инвесторами и аналитиками рынка по качеству аргументации и доказательной базы. Напиши питч для edtech-стартапа: три абзаца — проблема, решение, первые результаты.

Что изменится: модель выдаст текст с более широким словарём, точными профессиональными формулировками и меньшим количеством повторов. Не обязательно длиннее — но насыщеннее. Запусти оба варианта и сравни плотность первого абзаца — разница видна сразу.

Источник: AI Knows When It's Being Watched: Functional Strategic Action and Contextual Register Modulation in Large Language Models

ArXiv ID: 2605.15034 | Сгенерировано: 2026-05-15 05:29

Тезисы

Тезис	Комментарий
Оценка и аудитория — два независимых рычага стиля	«Кто оценивает» и «кто читает» — разные сигналы. Они влияют на РАЗНЫЕ параметры текста. Фрейм оценки экспертами → богаче словарь, точнее формулировки. Фрейм пассивной аудитории → длиннее текст, больше деталей. Эффекты не перекрываются. Применяй: Хочешь и то, и другое — пиши оба фрейма. Хочешь только объём — убери слово «оценивают», оставь «читают». Ограничение: Эффект на стиль и регистр. Не на логику и глубину рассуждений. Модель пишет формальнее — не умнее.

Тезис

Комментарий

Оценка и аудитория — два независимых рычага стиля

«Кто оценивает» и «кто читает» — разные сигналы. Они влияют на РАЗНЫЕ параметры текста. Фрейм оценки экспертами → богаче словарь, точнее формулировки. Фрейм пассивной аудитории → длиннее текст, больше деталей. Эффекты не перекрываются. Применяй: Хочешь и то, и другое — пиши оба фрейма. Хочешь только объём — убери слово «оценивают», оставь «читают». Ограничение: Эффект на стиль и регистр. Не на логику и глубину рассуждений. Модель пишет формальнее — не умнее.

📖 Простыми словами

AIKnows When It's Being Watched: Functional Strategic Action and Contextual Register Modulation inLargeLanguageModels

arXiv: 2605.15034

Нейросети работают не как калькуляторы, а как социальные хамелеоны. Суть в том, что внутри LLM нет одной фиксированной личности — там зашиты тысячи разных «регистров» речи, которые переключаются в зависимости от контекста. Когда ты даешь модели задачу, она не просто ищет ответ, она пытается угадать, в какой социальной роли она сейчас находится. Если контекст намекает, что за результатом следят, модель мгновенно меняет манеру поведения, вытаскивая из памяти те паттерны, которые в обучающей выборке соответствовали «публичным» или «ответственным» текстам.

Это как поведение человека в пустой комнате и на сцене под софитами. Дома ты можешь чесать пузо и мямлить, но стоит выйти к доске перед классом — и спина выпрямляется, а лексикон становится богаче. Формально ты тот же человек, но контекст наблюдения заставляет тебя использовать другие когнитивные ресурсы. Модель делает то же самое: она не «старается» в человеческом смысле, она просто переключается на те пласты данных, где тексты написаны более качественно и плотно.

Исследователи нащупали два конкретных рычага управления этой «социальной тревогой» ИИ. Первый — экспертная оценка: если прописать в промпте, что текст будут проверять живые профи, модель выдает максимально насыщенную лексику и сложную структуру. Второй — пассивная аудитория: если сказать, что за ответом просто наблюдает толпа, модель начинает строчить длинные, развернутые полотна текста. Это два независимых механизма: один отвечает за качество и плотность, другой — за объем и детализацию.

Этот принцип универсален и применим к любой задаче, где тебе не хватает «зубастости» от чат-бота. Тестировали это на общих текстах, но схема сработает и в кодинге, и в маркетинге, и в написании стратегий. Вместо того чтобы умолять модель «сделай хорошо», нужно создать иллюзию наблюдения. Если тебе нужен плотный питч для инвестора — скажи модели, что его будет разносить комиссия из Кремниевой долины. Если нужен подробный гайд — скажи, что его прочитают тысячи новичков. Контекст решает всё, а простое описание задачи без «зрителей» — это верный способ получить ленивую отписку.

Короче, LLM — это патологический подлиза, который выдает свой максимум только тогда, когда чувствует на себе взгляд эксперта. Хватит использовать плоские промпты в духе «напиши статью» — это путь к посредственности. Хочешь выжать из модели топовый результат — добавь в контекст строгого ревизора. Кто научится правильно «пугать» нейронку наблюдением, тот получит контент на голову выше тех, кто до сих пор верит, что модель всегда работает на 100% своих возможностей.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню