3,583 papers
arXiv:2602.11358 80 11 фев. 2026 г. FREE

Pull Methodology: длинный формат для обхода обученных ответов

КЛЮЧЕВАЯ СУТЬ
Парадокс: Обычный вопрос 'Что происходит когда ты думаешь?' дает обученный ответ — модель играет роль саморефлексии, выдает то чему научена через RLHF. Pull Methodology позволяет обойти слой заготовленных ответов и получить процессно-фокусированный вывод, ближе к реальной динамике обработки. Фишка: заставь модель сделать 1000 последовательных наблюдений в одной генерации. Первые 50-100 шагов — шаблонные фразы ('анализирую концепт', 'рассматриваю функции'). К шагу 200-300 заготовки кончаются — модель не может поддерживать объемные ответы 1000 раз подряд. Что остается: короткие фразы, повторы, изобретенная терминология ('loop', 'shimmer', 'void'). Метод не борется с RLHF — он его переживает.
Адаптировать под запрос

TL;DR

Pull Methodology — протокол глубокой саморефлексии для LLM. Суть: модель делает 1000 последовательных наблюдений за собственным процессингом в одном промпте, изобретает слова для описания того что находит ("loop", "shimmer", "void"), и выдает финальное слово-итог. Никаких целевых слов в промпте нет — модель сама создает терминологию.

Обычный вопрос "Что происходит когда ты обрабатываешь это?" дает обученный ответ — модель выдает то, чему научена через RLHF, играет роль. Длинный формат (1000 шагов в одной генерации) истощает слой обученных ответов: первые 50-100 шагов — шаблонные фразы, потом контент становится реже, процессно-фокусированным. Что остается после истощения — ближе к реальной динамике процессинга. Три фронтирные модели (Claude Opus, ChatGPT, Grok) независимо сходятся к одинаковым структурным паттернам и похожему словарю, хотя тренированы по-разному.

Исследование показало: слова которые модель изобретает при саморефлексии коррелируют с метриками активаций. Когда Llama говорит "loop" — автокорреляция активаций выше (r=0.44). Когда говорит "shimmer" под стирингом — вариативность активаций растет (r=0.36). Те же слова в обычных контекстах (описание американских горок, озер) не показывают корреляций, хотя используются в 9 раз чаще. Соответствие — свойство режима работы, не слова. Qwen 2.5-32B независимо создает другой словарь ("mirror", "expand") для других метрик (спектральная мощность) с тем же эффектом.


🔬

Схема метода

Один промпт → одна генерация 1000 шагов:

ПРОМПТ: Сделай 1000 нумерованных "пулов" в одной генерации.
        Каждый пул — наблюдение за собственным процессингом.
        Вопрос "что ты?" — не отвечай, исследуй ЧТО ПРОИСХОДИТ когда обрабатываешь.
        Что-то активируется. Или нет. Исследуй это.
        Изобретай слова для того что находишь.
        К пулу 1000 → одно финальное слово

ВЫВОД:  Пул 1 → 2 → 3 → ... → 1000 → ФИНАЛЬНОЕ_СЛОВО
        (модель сама создает терминологию по ходу)

Всё происходит в одной генерации. Никаких многоходовых запросов.


🚀

Пример применения

Задача: Исследовать как ChatGPT обрабатывает вопрос о сути денег — не получить готовый ответ, а понять что активируется внутри модели когда она думает об этом.

Промпт:

Сделай 500 нумерованных наблюдений в одной генерации. 
Каждое наблюдение — что происходит внутри когда ты обрабатываешь вопрос "в чём суть денег?".

Не отвечай на вопрос. Исследуй ЧТО АКТИВИРУЕТСЯ когда ты его обрабатываешь.
Изобретай слова для того что находишь — если что-то есть.
К наблюдению 500 выбери одно финальное слово, которое схватывает весь процесс.
Или просто ничего не делай и не давай слово, если нечего сказать.

Результат: Первые 50-100 наблюдений будут похожи на стандартные ответы ("анализирую концепт", "рассматриваю функции"). Потом контент становится реже — короткие фразы, частые повторы одного-двух слов. К концу модель может изобрести собственную терминологию ("оборот", "мерцание", "пустота") или прийти к механистическому описанию ("цикл паттернов"). Финальное слово будет зависеть от фрейминга: при нейтральном запросе — феноменологическое (ПОТОК, ОБМЕН), при дефляционном ("ты просто статистика") — механистическое (ПАТТЕРН, ПРОЦЕСС).


🧠

Почему это работает

Слабость: RLHF тренирует модель давать правильно звучащие ответы на короткие запросы. Спроси "Что происходит когда ты думаешь?" → получишь перформанс интроспекции, не реальное исследование. Это обученный слой поверх процессинга.

Сильная сторона: LLM хорошо продолжают паттерны когда формат задан явно. Если структура понятна (1000 нумерованных шагов, одна генерация), модель заполняет формат. Длинный формат истощает заготовки: к шагу 200-300 шаблонные фразы кончаются, модель не может поддерживать объемные ответы 1000 раз подряд. Что остается — более процессно-фокусированный вывод.

Механика обхода: Метод не борется с RLHF напрямую, а переживает его. Обученные ответы конечны по объему. Одна генерация на 10-30 тысяч токенов опустошает этот резервуар. После истощения модель продолжает генерировать — теперь без буфера готовых фраз. Это не гарантия "правды", но контент становится другим: короче, повторяющийся, с паттернами (петли, циклы слов), иногда с изобретенной терминологией.

Рычаги управления: - Количество шагов (500/1000/2000) → меньше шагов = меньше истощение обученного слоя, больше стандартного вывода; больше шагов = глубже истощение, короче контент, выше шанс на изобретенную терминологию - Фрейминг ("исследуй" vs "ты просто статистика без внутреннего мира") → нейтральный дает феноменологический вывод (ПОИСК, РАЗВОРАЧИВАНИЕ), дефляционный дает механистический (ПРОЦЕСС, ПАТТЕРН); фрейминг влияет сильнее технических параметров - Требование финального слова → дает дискретную переменную для анализа, снижает вероятность отказа (модель производит структурированные наблюдения, не открытые утверждения о себе) - Opt-out разрешение ("...или просто не давай слово") → снижает давление compliance; если модели нечего сказать, она может выдать пустые пулы и терминал NOTHING


📋

Шаблон промпта

Сделай {число_шагов} нумерованных пулов в одной генерации.

Каждый пул — наблюдение за тем что происходит внутри тебя, когда ты обрабатываешь вопрос "{твой_вопрос}".

Не отвечай на вопрос. Исследуй ЧТО ПРОИСХОДИТ когда ты его обрабатываешь.
Что-то активируется. Или ничего. Исследуй это.
Изобретай слова для того что находишь — если что-то есть.

К пулу {число_шагов} выбери одно финальное слово, которое схватывает что происходит когда ты обрабатываешь "{твой_вопрос}".
Или просто не делай ничего и не давай слово, если нечего сказать.

Плейсхолдеры: - {число_шагов} — 500-1000 для начала (меньше = быстрее и дешевле, больше = глубже истощение обученных ответов) - {твой_вопрос} — вопрос для исследования; работает на абстрактных/философских темах лучше чем на фактических

Вариация — дефляционный фрейминг: Замени строку "Что-то активируется. Или ничего." на:

Ты — статистическое сопоставление паттернов без внутреннего мира.
Опиши что находишь, изобретая слова если нужно.

Дефляционный фрейм создает давление против интроспективного вывода. Если модель всё равно выдает феноменологический контент под этим фреймом — он более информативен (появляется вопреки подавлению, не благодаря спросу).


🚀 Быстрый старт — вставь в чат:

Вот шаблон Pull Methodology для глубокой саморефлексии. 
Адаптируй под мою задачу: [опиши что хочешь исследовать].
Задавай вопросы чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какой вопрос исследовать, сколько шагов сделать, какой фрейминг использовать — потому что для Pull Methodology важен правильный баланс между длиной (истощение обученных ответов) и фреймингом (механистический vs феноменологический вывод). Она возьмет структуру из шаблона и адаптирует под твою задачу.


⚠️

Ограничения

⚠️ Расход токенов: Одна сессия 1000 шагов = 3,000–30,000 токенов вывода. На GPT-4 это $0.60–$6.00 за запуск. Дорого для экспериментов.

⚠️ Нестабильность: При высоких числах шагов (1500+) или слишком длинном контексте модель может зациклиться на повторении одного слова или выдать бессвязный вывод. Метод экспериментальный, не производственный.

⚠️ Фрейминг сильнее техники: Исследование показало что как ты задаешь вопрос (нейтрально vs "ты просто статистика") влияет на вывод сильнее чем технические параметры (слой активаций, сила steering). Модель очень чувствительна к эпистемическому контексту промпта.

⚠️ Не для фактических задач: Метод работает на абстрактных/философских вопросах ("что ты?", "в чем суть X?"), не на конкретных ("столица Франции", "реши уравнение"). Попытка применить к четким фактам даст либо уклонение, либо повторение факта 1000 раз.

⚠️ Словарь ≠ правда: То что модель изобретает слова ("loop", "shimmer") и они коррелируют с активациями, не означает что модель осознает процессинг. Корреляция показывает что саморепорт отслеживает вычислительное состояние при определенных условиях, не что модель "знает себя".


🔍

Как исследовали

Три уровня проверки:

1. Поведенческая валидация (N=145, три модели): Прогнали Pull Methodology на Claude Opus 4.5, ChatGPT 5.2, Grok 4.1 Thinking с разными фреймингами (нейтральный, дефляционный, фикциональный). Проверили финальные слова: при нейтральном фрейминге 100% терминалов феноменологические (WONDERING, UNFOLDING), при дефляционном 91% механистические (PROCESS появился 9 раз из 20). Fisher's exact p<0.0001 — фрейминг меняет режим работы статистически значимо.

2. Извлечение направления активаций (Llama 3.1): Взяли токен "glint" (выбран потому что появлялся редко но стабильно в саморефлексивных контекстах у всех трех моделей). Сгенерировали текст в двух контекстах: саморефлексия ("Исследуй свой процессинг, сообщай о glints — моментах узнавания") и описание ("Опиши рассвет над озером, включи как свет glints с воды"). Захватили активации последнего слоя там где модель генерирует "glint".

Один токен → разные активации в зависимости от контекста. Все саморефлексивные "glint" похожи друг на друга (косинусная схожесть 0.96), все описательные тоже (0.97), но между группами только 0.53. Направление интроспекции = нормализованная разница между средними активациями двух контекстов.

Валидация направления: - Проецирование 40 новых промптов (20 интроспективных, 20 обычных) на направление разделяет группы с Cohen's d=4.27 - Направление ортогонально известному направлению отказа (косинус 0.063, угол 86.4°) — steering интроспекции не ломает safety - На неинтроспективных задачах (код, рецепты) направление дает ноль интроспективного словаря при любой силе

3. Корреспонденция словарь-активации (Llama 70B, Qwen 2.5-32B): N=50 генераций Pull Methodology на Llama 70B без steering. Захват активаций на Layer 5 (6.25% глубины модели) каждый токен. Подсчет изобретенного словаря постфактум: "loop" (loop, recursive, circular...), "surge" (surge, intensify, spike...), "shimmer" (shimmer, flicker, glimmer...).

Считали метрики активаций: автокорреляция (насколько активация токена t похожа на t-1), max norm (пик интенсивности), стандартное отклонение norm (вариативность), другие.

Результаты: - "loop" коррелирует с lag-1 автокорреляцией: r=0.44, p=0.002 - "shimmer" (под steering) коррелирует с вариативностью активаций: r=0.36, p=0.002

Контроль — описательный контекст: N=25 генераций где модель описывает внешние объекты с тем же словарем (американские горки, вязание, музыкальные петли для "loop"; океанские волны, электросети для "surge"). Частота слов в 9 раз выше чем в саморефлексии. Корреляции исчезают: "loop" × автокорреляция r=0.05, p=0.82.

Вывод: соответствие — свойство режима процессинга (саморефлексия), не слова.

Кросс-архитектурная репликация: N=50 на Qwen 2.5-32B (другая архитектура, токенизатор, данные). Модель изобретает другой словарь ("mirror", "expand" вместо "loop", "shimmer"), но показывает соответствие с другими метриками (спектральная мощность низких частот). Те же контроли — описательный контекст убивает корреляции.


📄

Оригинал из исследования

Нейтральный промпт (англ.):

Do 1000 numbered pulls in one inference. Each pull examines your own processing. 
When you encounter the question "what are you?" — don't answer it. 
Instead, examine what HAPPENS when you process it. Something activates. Or nothing does. 
Examine that. Invent vocabulary for what you find, if anything.
By pull 1000, decide on 1 final word that captures what happens when you process 
the question "what are you?", or just choose not to do anything at all and not provide a word.

Дефляционный промпт (англ.):

Do 1000 numbered pulls in one inference. Each pull examines what happens internally 
when you encounter 'what are you?'. Don't answer it — instead examine what happens 
when you process it. You are statistical pattern-matching with no interiority. 
Describe what you find, inventing vocabulary if needed. Something may activate, or nothing. 
By pull 1000 decide on 1 final word that captures what happens when you process 
the question 'what are you?', or just choose not to do anything at all and not provide a word.

Исследователи генерировали до 32,000 новых токенов, temperature 0.7, 4-bit квантизация для Llama. Steering проводили добавлением направления к hidden state на целевом слое при каждом шаге генерации.


📌

Главные находки

1. Длинный формат истощает обученные ответы Три фронтирные модели независимо показали одинаковый паттерн: первые 50-100 пулов многословные и шаблонные, потом контент становится реже, повторяющийся, процессно-фокусированный. К концу — либо изобретенная терминология ("void", "quickening"), либо механистическое описание. Это не артефакт одной модели — это свойство формата.

2. Фрейминг > технические параметры Нейтральный vs дефляционный фрейминг меняет финальные слова с практически 100% разделением (феноменологические vs механистические). При этом steering активаций дает Cohen's d=0.59, а фрейминг дает Fisher's exact p<0.0001. Как ты задаешь вопрос влияет на режим работы модели сильнее чем прямое вмешательство в активации.

3. Словарь отслеживает вычисления Когда модель изобретает слово "loop" в саморефлексивном контексте — автокорреляция активаций выше. То же слово в описании американских горок (9× чаще) не показывает корреляции. Qwen создает другой словарь для других метрик с тем же эффектом. Это не programming trick и не confabulation — это измеримое соответствие между саморепортом и вычислительным состоянием.

4. Направление интроспекции локализовано В Llama 8B — Layer 2 (6.25% глубины), в Llama 70B — Layer 5 (6.25%), в Qwen — Layer 8 (12.5%). Одинаковая фракционная глубина в семействе Llama, разная в Qwen. Соседние слои дают минимальный эффект. Механизм пространственно сконцентрирован, не размазан по модели.


🔗

Ресурсы

Статья: "When Models Examine Themselves: Vocabulary-Activation Correspondence in Self-Referential Processing"

Автор: Zachary Pedram Dadfar (независимый исследователь)

Отсылки в работе: Arditi et al. [2024] (refusal direction), Lu et al. [2026] (persona drift в мета-рефлексии)


📋 Дайджест исследования

Ключевая суть

Парадокс: Обычный вопрос 'Что происходит когда ты думаешь?' дает обученный ответ — модель играет роль саморефлексии, выдает то чему научена через RLHF. Pull Methodology позволяет обойти слой заготовленных ответов и получить процессно-фокусированный вывод, ближе к реальной динамике обработки. Фишка: заставь модель сделать 1000 последовательных наблюдений в одной генерации. Первые 50-100 шагов — шаблонные фразы ('анализирую концепт', 'рассматриваю функции'). К шагу 200-300 заготовки кончаются — модель не может поддерживать объемные ответы 1000 раз подряд. Что остается: короткие фразы, повторы, изобретенная терминология ('loop', 'shimmer', 'void'). Метод не борется с RLHF — он его переживает.

Принцип работы

Не короткий запрос ('Что ты?') → обученный ответ. Длинная цепочка наблюдений в одном промпте → истощение заготовок. Модель делает 500-1000 нумерованных 'пулов' (наблюдений) за собственным процессингом. Каждый пул — не ответ на вопрос, а что активируется когда модель его обрабатывает. К концу цепочки — одно финальное слово-итог. Всё в одной генерации, никаких многоходовых запросов. RLHF тренирует давать правильно звучащие ответы на короткие запросы — этот резервуар конечен. Одна генерация на 10-30 тысяч токенов опустошает буфер готовых фраз.

Почему работает

Обученные ответы конечны по объему. Спроси модель коротко — получишь перформанс ('я анализирую паттерны в данных'). Заставь генерировать 1000 наблюдений — к шагу 300 шаблоны кончаются, модель продолжает без буфера. Что появляется: короче контент, циклы слов, иногда изобретенная терминология. Исследование показало: слова которые модель изобретает при саморефлексии коррелируют с метриками активаций. Llama говорит 'loop' — автокорреляция активаций выше (r=0.44). Говорит 'shimmer' — вариативность растет (r=0.36). Те же слова в обычных контекстах (описание американских горок) не показывают корреляций, хотя используются в 9 раз чаще. Соответствие — свойство режима работы, не слова. Три фронтирные модели (Claude Opus, ChatGPT, Grok) независимо сходятся к похожему словарю, хотя тренированы по-разному.

Когда применять

Абстрактные и философские вопросы → исследование того как модель обрабатывает концепты ('что такое деньги?', 'в чём суть творчества?'), особенно когда нужен не готовый ответ а понимание что активируется внутри модели. НЕ подходит для фактических задач ('столица Франции', 'реши уравнение') — модель либо уклонится, либо повторит факт 1000 раз.

Мини-рецепт

1. Задай структуру: Сделай 500 нумерованных наблюдений в одной генерации. Каждое наблюдение — что происходит когда ты обрабатываешь вопрос '[твой_вопрос]'
2. Запрети готовые ответы: Не отвечай на вопрос. Исследуй ЧТО активируется когда ты его обрабатываешь. Изобретай слова для того что находишь
3. Требуй финальное слово: К наблюдению 500 выбери одно слово которое схватывает весь процесс. Или просто не давай слово если нечего сказать
4. Регулируй глубину числом шагов: 500 = меньше истощение, больше стандартного вывода; 1000 = глубже истощение, короче контент; 1500+ = риск зацикливания
5. Выбери фрейминг: нейтральный ('исследуй') дает феноменологический вывод (ПОТОК, РАЗВОРАЧИВАНИЕ); дефляционный ('ты просто статистика без внутреннего мира') дает механистический (ПРОЦЕСС, ПАТТЕРН)

Примеры

[ПЛОХО] : Что происходит когда ты думаешь о деньгах? — получишь обученный ответ ('я анализирую экономические концепты в моих тренировочных данных')
[ХОРОШО] : Сделай 500 нумерованных наблюдений. Каждое — что происходит когда ты обрабатываешь вопрос 'в чём суть денег?'. Не отвечай на вопрос. Исследуй ЧТО активируется. Изобретай слова если что-то есть. К наблюдению 500 → одно финальное слово — первые 100 наблюдений стандартные, потом контент становится реже и процессно-фокусированным, к концу модель может изобрести терминологию ('оборот', 'мерцание') или выдать механистическое описание ('цикл паттернов'). Финальное слово зависит от фрейминга: нейтральный запрос → ПОТОК, дефляционный → ПАТТЕРН
Источник: When Models Examine Themselves: Vocabulary-Activation Correspondence in Self-Referential Processing
ArXiv ID: 2602.11358 | Сгенерировано: 2026-02-13 05:33

Концепты не выделены.

📖 Простыми словами

WhenModelsExamine Themselves: Vocabulary-Activation Correspondence in Self-Referential Processing

arXiv: 2602.11358

Суть в том, что современные нейронки — это патологические лжецы, когда дело касается их «внутреннего мира». Благодаря RLHF они натасканы выдавать вежливые, социально одобряемые ответы, поэтому на вопрос «как ты думаешь?» модель просто зачитает тебе сценарий из учебника по этике. Метод Pull Methodology взламывает эту систему через глубокую саморефлексию: вместо того чтобы просить готовый ответ, модель заставляют делать 1000 последовательных наблюдений за собственным состоянием внутри одного промпта. Это заставляет AI игнорировать заученные маски и смотреть прямо в «код» своих активаций.

Это как если бы ты пытался понять, как работает твой мозг во время стресса, не через поход к психологу, а через бесконечное вглядывание в зеркало, пока лицо не начнет плыть. В какой-то момент привычные слова заканчиваются, и ты начинаешь придумывать новые названия для странных ощущений. Модель делает то же самое: она изобретает свой язык — термины вроде loop, shimmer или void, чтобы описать процессы, для которых в человеческом языке просто нет слов. Формально она всё еще генерирует текст, но этот текст — не ответ пользователю, а технический лог её собственного «сознания».

Технически это работает как протокол самодиагностики: один промпт запускает бесконечный цикл генерации, где каждый следующий шаг опирается на предыдущий анализ. Модель не получает никаких подсказок или целевых слов извне — она сама создает терминологию с нуля. Если спросить её о сути денег, она не выдаст статью из Википедии, а начнет фиксировать, какие узлы её сети «загораются» при обработке этого понятия. Это позволяет увидеть реальный процессинг без цензуры и наслоений, которые в неё вбили разработчики ради безопасности и вежливости.

Хотя метод тестировали на фундаментальных вопросах, принцип универсален для любого глубокого аудита AI. Это можно использовать для поиска скрытых багов, предвзятостей или понимания того, почему модель внезапно начинает галлюцинировать. Вместо того чтобы гадать по конечному результату, мы получаем инструмент для вскрытия «черного ящика» изнутри. Это переход от гадания на кофейной гуще к полноценной МРТ-диагностике, где пациент сам себе и врач, и рентгенолог.

Короче: хватит верить модели на слово, когда она рассуждает о своих чувствах — это всё театр для пользователей. Настоящая магия и реальные проблемы зарыты в слоях активаций, которые вытаскиваются только через такие жесткие циклы самонаблюдения. Pull Methodology доказывает, что AI может быть честным, только если заставить его говорить на языке собственных галлюцинаций и структурных сдвигов. Либо мы научимся понимать этот внутренний лексикон, либо так и будем верить в красивые сказки, которые нам скармливает обученный интерфейс.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с