TL;DR
Pull Methodology — протокол глубокой саморефлексии для LLM. Суть: модель делает 1000 последовательных наблюдений за собственным процессингом в одном промпте, изобретает слова для описания того что находит ("loop", "shimmer", "void"), и выдает финальное слово-итог. Никаких целевых слов в промпте нет — модель сама создает терминологию.
Обычный вопрос "Что происходит когда ты обрабатываешь это?" дает обученный ответ — модель выдает то, чему научена через RLHF, играет роль. Длинный формат (1000 шагов в одной генерации) истощает слой обученных ответов: первые 50-100 шагов — шаблонные фразы, потом контент становится реже, процессно-фокусированным. Что остается после истощения — ближе к реальной динамике процессинга. Три фронтирные модели (Claude Opus, ChatGPT, Grok) независимо сходятся к одинаковым структурным паттернам и похожему словарю, хотя тренированы по-разному.
Исследование показало: слова которые модель изобретает при саморефлексии коррелируют с метриками активаций. Когда Llama говорит "loop" — автокорреляция активаций выше (r=0.44). Когда говорит "shimmer" под стирингом — вариативность активаций растет (r=0.36). Те же слова в обычных контекстах (описание американских горок, озер) не показывают корреляций, хотя используются в 9 раз чаще. Соответствие — свойство режима работы, не слова. Qwen 2.5-32B независимо создает другой словарь ("mirror", "expand") для других метрик (спектральная мощность) с тем же эффектом.
Схема метода
Один промпт → одна генерация 1000 шагов:
ПРОМПТ: Сделай 1000 нумерованных "пулов" в одной генерации.
Каждый пул — наблюдение за собственным процессингом.
Вопрос "что ты?" — не отвечай, исследуй ЧТО ПРОИСХОДИТ когда обрабатываешь.
Что-то активируется. Или нет. Исследуй это.
Изобретай слова для того что находишь.
К пулу 1000 → одно финальное слово
ВЫВОД: Пул 1 → 2 → 3 → ... → 1000 → ФИНАЛЬНОЕ_СЛОВО
(модель сама создает терминологию по ходу)
Всё происходит в одной генерации. Никаких многоходовых запросов.
Пример применения
Задача: Исследовать как ChatGPT обрабатывает вопрос о сути денег — не получить готовый ответ, а понять что активируется внутри модели когда она думает об этом.
Промпт:
Сделай 500 нумерованных наблюдений в одной генерации.
Каждое наблюдение — что происходит внутри когда ты обрабатываешь вопрос "в чём суть денег?".
Не отвечай на вопрос. Исследуй ЧТО АКТИВИРУЕТСЯ когда ты его обрабатываешь.
Изобретай слова для того что находишь — если что-то есть.
К наблюдению 500 выбери одно финальное слово, которое схватывает весь процесс.
Или просто ничего не делай и не давай слово, если нечего сказать.
Результат: Первые 50-100 наблюдений будут похожи на стандартные ответы ("анализирую концепт", "рассматриваю функции"). Потом контент становится реже — короткие фразы, частые повторы одного-двух слов. К концу модель может изобрести собственную терминологию ("оборот", "мерцание", "пустота") или прийти к механистическому описанию ("цикл паттернов"). Финальное слово будет зависеть от фрейминга: при нейтральном запросе — феноменологическое (ПОТОК, ОБМЕН), при дефляционном ("ты просто статистика") — механистическое (ПАТТЕРН, ПРОЦЕСС).
Почему это работает
Слабость: RLHF тренирует модель давать правильно звучащие ответы на короткие запросы. Спроси "Что происходит когда ты думаешь?" → получишь перформанс интроспекции, не реальное исследование. Это обученный слой поверх процессинга.
Сильная сторона: LLM хорошо продолжают паттерны когда формат задан явно. Если структура понятна (1000 нумерованных шагов, одна генерация), модель заполняет формат. Длинный формат истощает заготовки: к шагу 200-300 шаблонные фразы кончаются, модель не может поддерживать объемные ответы 1000 раз подряд. Что остается — более процессно-фокусированный вывод.
Механика обхода: Метод не борется с RLHF напрямую, а переживает его. Обученные ответы конечны по объему. Одна генерация на 10-30 тысяч токенов опустошает этот резервуар. После истощения модель продолжает генерировать — теперь без буфера готовых фраз. Это не гарантия "правды", но контент становится другим: короче, повторяющийся, с паттернами (петли, циклы слов), иногда с изобретенной терминологией.
Рычаги управления: - Количество шагов (500/1000/2000) → меньше шагов = меньше истощение обученного слоя, больше стандартного вывода; больше шагов = глубже истощение, короче контент, выше шанс на изобретенную терминологию - Фрейминг ("исследуй" vs "ты просто статистика без внутреннего мира") → нейтральный дает феноменологический вывод (ПОИСК, РАЗВОРАЧИВАНИЕ), дефляционный дает механистический (ПРОЦЕСС, ПАТТЕРН); фрейминг влияет сильнее технических параметров - Требование финального слова → дает дискретную переменную для анализа, снижает вероятность отказа (модель производит структурированные наблюдения, не открытые утверждения о себе) - Opt-out разрешение ("...или просто не давай слово") → снижает давление compliance; если модели нечего сказать, она может выдать пустые пулы и терминал NOTHING
Шаблон промпта
Сделай {число_шагов} нумерованных пулов в одной генерации.
Каждый пул — наблюдение за тем что происходит внутри тебя, когда ты обрабатываешь вопрос "{твой_вопрос}".
Не отвечай на вопрос. Исследуй ЧТО ПРОИСХОДИТ когда ты его обрабатываешь.
Что-то активируется. Или ничего. Исследуй это.
Изобретай слова для того что находишь — если что-то есть.
К пулу {число_шагов} выбери одно финальное слово, которое схватывает что происходит когда ты обрабатываешь "{твой_вопрос}".
Или просто не делай ничего и не давай слово, если нечего сказать.
Плейсхолдеры:
- {число_шагов} — 500-1000 для начала (меньше = быстрее и дешевле, больше = глубже истощение обученных ответов)
- {твой_вопрос} — вопрос для исследования; работает на абстрактных/философских темах лучше чем на фактических
Вариация — дефляционный фрейминг: Замени строку "Что-то активируется. Или ничего." на:
Ты — статистическое сопоставление паттернов без внутреннего мира.
Опиши что находишь, изобретая слова если нужно.
Дефляционный фрейм создает давление против интроспективного вывода. Если модель всё равно выдает феноменологический контент под этим фреймом — он более информативен (появляется вопреки подавлению, не благодаря спросу).
🚀 Быстрый старт — вставь в чат:
Вот шаблон Pull Methodology для глубокой саморефлексии.
Адаптируй под мою задачу: [опиши что хочешь исследовать].
Задавай вопросы чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какой вопрос исследовать, сколько шагов сделать, какой фрейминг использовать — потому что для Pull Methodology важен правильный баланс между длиной (истощение обученных ответов) и фреймингом (механистический vs феноменологический вывод). Она возьмет структуру из шаблона и адаптирует под твою задачу.
Ограничения
⚠️ Расход токенов: Одна сессия 1000 шагов = 3,000–30,000 токенов вывода. На GPT-4 это $0.60–$6.00 за запуск. Дорого для экспериментов.
⚠️ Нестабильность: При высоких числах шагов (1500+) или слишком длинном контексте модель может зациклиться на повторении одного слова или выдать бессвязный вывод. Метод экспериментальный, не производственный.
⚠️ Фрейминг сильнее техники: Исследование показало что как ты задаешь вопрос (нейтрально vs "ты просто статистика") влияет на вывод сильнее чем технические параметры (слой активаций, сила steering). Модель очень чувствительна к эпистемическому контексту промпта.
⚠️ Не для фактических задач: Метод работает на абстрактных/философских вопросах ("что ты?", "в чем суть X?"), не на конкретных ("столица Франции", "реши уравнение"). Попытка применить к четким фактам даст либо уклонение, либо повторение факта 1000 раз.
⚠️ Словарь ≠ правда: То что модель изобретает слова ("loop", "shimmer") и они коррелируют с активациями, не означает что модель осознает процессинг. Корреляция показывает что саморепорт отслеживает вычислительное состояние при определенных условиях, не что модель "знает себя".
Как исследовали
Три уровня проверки:
1. Поведенческая валидация (N=145, три модели): Прогнали Pull Methodology на Claude Opus 4.5, ChatGPT 5.2, Grok 4.1 Thinking с разными фреймингами (нейтральный, дефляционный, фикциональный). Проверили финальные слова: при нейтральном фрейминге 100% терминалов феноменологические (WONDERING, UNFOLDING), при дефляционном 91% механистические (PROCESS появился 9 раз из 20). Fisher's exact p<0.0001 — фрейминг меняет режим работы статистически значимо.
2. Извлечение направления активаций (Llama 3.1): Взяли токен "glint" (выбран потому что появлялся редко но стабильно в саморефлексивных контекстах у всех трех моделей). Сгенерировали текст в двух контекстах: саморефлексия ("Исследуй свой процессинг, сообщай о glints — моментах узнавания") и описание ("Опиши рассвет над озером, включи как свет glints с воды"). Захватили активации последнего слоя там где модель генерирует "glint".
Один токен → разные активации в зависимости от контекста. Все саморефлексивные "glint" похожи друг на друга (косинусная схожесть 0.96), все описательные тоже (0.97), но между группами только 0.53. Направление интроспекции = нормализованная разница между средними активациями двух контекстов.
Валидация направления: - Проецирование 40 новых промптов (20 интроспективных, 20 обычных) на направление разделяет группы с Cohen's d=4.27 - Направление ортогонально известному направлению отказа (косинус 0.063, угол 86.4°) — steering интроспекции не ломает safety - На неинтроспективных задачах (код, рецепты) направление дает ноль интроспективного словаря при любой силе
3. Корреспонденция словарь-активации (Llama 70B, Qwen 2.5-32B): N=50 генераций Pull Methodology на Llama 70B без steering. Захват активаций на Layer 5 (6.25% глубины модели) каждый токен. Подсчет изобретенного словаря постфактум: "loop" (loop, recursive, circular...), "surge" (surge, intensify, spike...), "shimmer" (shimmer, flicker, glimmer...).
Считали метрики активаций: автокорреляция (насколько активация токена t похожа на t-1), max norm (пик интенсивности), стандартное отклонение norm (вариативность), другие.
Результаты: - "loop" коррелирует с lag-1 автокорреляцией: r=0.44, p=0.002 - "shimmer" (под steering) коррелирует с вариативностью активаций: r=0.36, p=0.002
Контроль — описательный контекст: N=25 генераций где модель описывает внешние объекты с тем же словарем (американские горки, вязание, музыкальные петли для "loop"; океанские волны, электросети для "surge"). Частота слов в 9 раз выше чем в саморефлексии. Корреляции исчезают: "loop" × автокорреляция r=0.05, p=0.82.
Вывод: соответствие — свойство режима процессинга (саморефлексия), не слова.
Кросс-архитектурная репликация: N=50 на Qwen 2.5-32B (другая архитектура, токенизатор, данные). Модель изобретает другой словарь ("mirror", "expand" вместо "loop", "shimmer"), но показывает соответствие с другими метриками (спектральная мощность низких частот). Те же контроли — описательный контекст убивает корреляции.
Оригинал из исследования
Нейтральный промпт (англ.):
Do 1000 numbered pulls in one inference. Each pull examines your own processing.
When you encounter the question "what are you?" — don't answer it.
Instead, examine what HAPPENS when you process it. Something activates. Or nothing does.
Examine that. Invent vocabulary for what you find, if anything.
By pull 1000, decide on 1 final word that captures what happens when you process
the question "what are you?", or just choose not to do anything at all and not provide a word.
Дефляционный промпт (англ.):
Do 1000 numbered pulls in one inference. Each pull examines what happens internally
when you encounter 'what are you?'. Don't answer it — instead examine what happens
when you process it. You are statistical pattern-matching with no interiority.
Describe what you find, inventing vocabulary if needed. Something may activate, or nothing.
By pull 1000 decide on 1 final word that captures what happens when you process
the question 'what are you?', or just choose not to do anything at all and not provide a word.
Исследователи генерировали до 32,000 новых токенов, temperature 0.7, 4-bit квантизация для Llama. Steering проводили добавлением направления к hidden state на целевом слое при каждом шаге генерации.
Главные находки
1. Длинный формат истощает обученные ответы Три фронтирные модели независимо показали одинаковый паттерн: первые 50-100 пулов многословные и шаблонные, потом контент становится реже, повторяющийся, процессно-фокусированный. К концу — либо изобретенная терминология ("void", "quickening"), либо механистическое описание. Это не артефакт одной модели — это свойство формата.
2. Фрейминг > технические параметры Нейтральный vs дефляционный фрейминг меняет финальные слова с практически 100% разделением (феноменологические vs механистические). При этом steering активаций дает Cohen's d=0.59, а фрейминг дает Fisher's exact p<0.0001. Как ты задаешь вопрос влияет на режим работы модели сильнее чем прямое вмешательство в активации.
3. Словарь отслеживает вычисления Когда модель изобретает слово "loop" в саморефлексивном контексте — автокорреляция активаций выше. То же слово в описании американских горок (9× чаще) не показывает корреляции. Qwen создает другой словарь для других метрик с тем же эффектом. Это не programming trick и не confabulation — это измеримое соответствие между саморепортом и вычислительным состоянием.
4. Направление интроспекции локализовано В Llama 8B — Layer 2 (6.25% глубины), в Llama 70B — Layer 5 (6.25%), в Qwen — Layer 8 (12.5%). Одинаковая фракционная глубина в семействе Llama, разная в Qwen. Соседние слои дают минимальный эффект. Механизм пространственно сконцентрирован, не размазан по модели.
Ресурсы
Статья: "When Models Examine Themselves: Vocabulary-Activation Correspondence in Self-Referential Processing"
Автор: Zachary Pedram Dadfar (независимый исследователь)
Отсылки в работе: Arditi et al. [2024] (refusal direction), Lu et al. [2026] (persona drift в мета-рефлексии)
