3,583 papers
arXiv:2602.18918 79 21 фев. 2026 г. FREE

Vibe-Proving: цикл generate→referee→repair для сложных аналитических задач

КЛЮЧЕВАЯ СУТЬ
Попросить модель найти ошибки в том же чате, где она писала — всё равно что попросить автора вычитать собственный текст. Она читает то, что хотела написать, а не то, что написала. Vibe-proving разрезает процесс на три роли в разных сессиях: генератор, критик, ремонтник — и каждый вывод модели считается кандидатом, а не истиной, пока не прошёл через свежую независимую сессию. Метод позволяет довести сложный документ — меморандум, стратегию, анализ — до состояния, где дыры выловлены до того, как текст долетел до аудитории.
Адаптировать под запрос

TL;DR

Vibe-proving — это рабочий процесс итеративной проверки, где LLM не даёт финальный ответ за один запрос, а работает в цикле: сгенерировать черновик → попросить модель найти в нём дыры → починить конкретную дыру → повторить. Ключевое отличие от обычного "попроси и получи": каждый вывод модели считается кандидатом, а не истиной, пока не проверен.

Главная боль: Когда задача сложная — с развёрнутым анализом, аргументацией, юридическими деталями или стратегией — модель выдаёт уверенно звучащий текст, в котором спрятаны тихие ошибки. Пропущенное условие, неправильное следствие, недоказанное утверждение. Без специального процесса проверки эти дыры остаются невидимыми — и ты уходишь с красивым, но неверным результатом.

Метод решает это тремя рычагами: параллельные сессии (одну проблему отправляешь в несколько независимых чатов и сравниваешь ответы), ограниченные рефери-проходы (просишь "найди всё неверное" в свежем чате — но не бесконечно, это даёт убывающую отдачу), и версионирование (фиксируешь каждый исправленный черновик, чтобы новые правки не ломали уже проверенные части).


🔬

Схема метода

[Отдельные запросы / сессии ChatGPT или Claude]

ШАГ 1 — SCAFFOLDING (один запрос):
  Дай модели: цель + контекст + известный подход к задаче
  → Получи: стратегию / план / структуру

ШАГ 2 — GENERATE (один запрос, та же или новая сессия):
  Попроси черновик по стратегии из шага 1
  → Получи: первый кандидат-результат

ШАГ 3 — REFEREE (новая свежая сессия!):
  Вставь черновик → попроси гиперкритический разбор
  → Получи: список конкретных дыр, пропущенных допущений, слабых мест

ШАГ 4 — PARALLEL REPAIR (несколько независимых сессий):
  Возьми ОДНУ конкретную дыру из шага 3
  Открой 2-3 отдельных чата → задай один и тот же вопрос
  → Принимай только патч, который: (а) повторяется в нескольких сессиях
    или (б) ты можешь проверить сам

ШАГ 5 — VERSIONING + REPEAT:
  Зафикисруй исправленную версию
  Повтори шаги 3-4 для следующей дыры
  → Стоп-сигнал: рефери начинает находить мелочи вместо реальных ошибок

Шаги 3 и 4 всегда выполняются в отдельных свежих сессиях. Это принципиально — модель в новом чате не "помнит" своих предыдущих ошибок и даёт независимую оценку.


🚀

Пример применения

Задача: Ты готовишь инвестиционный меморандум для венчурного фонда по своему стартапу — доставка еды в B2B-сегменте (корпоративные обеды). Документ нужен на питч-сессии. Цена ошибки — провал перед инвесторами.


Промпт — Шаг 1 (Scaffolding):

Я готовлю инвестиционный меморандум для венчурного фонда.

Стартап: B2B-доставка корпоративных обедов в офисы в Москве.
Целевой инвестор: фонды стадии Pre-A, чек 30–80 млн рублей.
Известный шаблон структуры: Problem → Solution → Market → Traction → 
Business Model → Team → Ask.

Вот мои данные: [вставь ключевые цифры и факты о своём стартапе]

Предложи стратегию того, как мне выстроить аргументацию, 
чтобы каждый раздел усиливал следующий. 
Где самые слабые места в типичных меморандумах такого типа?

Промпт — Шаг 3 (Referee, новая сессия):

Я — инвестор венчурного фонда. Передо мной инвестиционный меморандум стартапа.
Моя задача: найти все слабые места, противоречия, недоказанные утверждения 
и пропущенные допущения — до того, как меморандум попадёт на питч-сессию.

Будь гиперкритичным. Не хвали. Составь список обязательств:
— что не доказано
— какие цифры требуют источника
— где логика рвётся
— что инвестор точно спросит, а я не отвечаю

Вот меморандум:
[вставь текущий черновик]

Промпт — Шаг 4 (Parallel repair, три отдельных чата):

В инвестиционном меморандуме есть конкретная проблема:
[вставь одну дыру из списка рефери — например: 
"TAM посчитан без источников и выглядит взятым с потолка"]

Предложи как исправить именно этот фрагмент.
Вот контекст: [вставь только нужный кусок меморандума]

Требования к патчу:
— конкретная правка, не советы
— логика проверяема
— не меняй другие части документа

Результат: Модель в шаге 3 выдаст структурированный список дыр — конкретные пункты с объяснением почему это слабое место. В шаге 4 три независимых сессии предложат три варианта правки одного фрагмента. Ты смотришь: что повторяется в двух-трёх ответах — это надёжный патч. Что появляется только в одном — перепроверяешь сам. После 2-3 итераций документ будет закрывать большинство очевидных дыр до питча.


🧠

Почему это работает

LLM плохо проверяет себя в одном контексте. Когда модель генерировала черновик, она "выбрала" определённую логику и дальше её держится. Попросить критику в том же чате — всё равно что попросить автора найти ошибки в собственном тексте: он читает то, что хотел написать, а не то, что написал. Свежая сессия убирает этот контекстный якорь.

Параллельные сессии работают как независимые эксперты. Если три независимых "эксперта" (три сессии) сходятся на одном и том же патче — это сигнал надёжности. Если расходятся — значит, задача неоднозначна и требует твоего суждения. Это не магия: просто статистика вместо одной точки данных.

Ограниченный рефери — ключевой рычаг. После того как главные дыры закрыты, повторные "найди всё неверное" начинают возвращать стилистические придирки и ложные срабатывания. Это сигнал остановиться. Бесконечная критика = шум, не улучшение. Используй рефери-проход как диагностику, а не как молитву.

Рычаги управления: - Количество параллельных сессий → 2 дают проверку, 3+ дают статистику; больше 4 — убывающая отдача - Формулировка обязательства в шаге 4 → чем конкретнее дыра, тем точнее патч. "Что-то не так с числами" → плохо. "TAM в разделе 3 посчитан без методологии" → хорошо - Стоп-критерий рефери → сам определяешь: "остановись, когда рефери находит только мелочи" - Степень гиперкритичности → можно попросить "найди только критические ошибки" (быстро) или "найди всё, включая мелкие допущения" (глубоко)


📋

Шаблон промпта

Scaffolding (Шаг 1):

Я работаю над {тип документа/задачи}.

Цель: {что должен делать финальный результат}
Контекст: {ключевые данные, ограничения, аудитория}
Известный подход: {шаблон / метод / структура, если знаешь}

Вот материал: {данные}

Предложи стратегию: как выстроить аргументацию?
Где типичные слабые места в задачах такого типа?

Referee (Шаг 3, новая сессия):

Ты — строгий эксперт в {область}. Твоя задача: найти всё неверное 
в {тип документа} до того, как он попадёт к {аудитория}.

Будь гиперкритичным. Не хвали. Составь список:
— что не доказано или не обосновано
— где логика рвётся
— какие допущения пропущены
— что {аудитория} точно спросит, а я не отвечаю

Вот {тип документа}:
{текущий черновик}

Parallel Repair (Шаг 4, отдельный чат):

В {тип документа} есть конкретная проблема:
{одна дыра из списка рефери — максимально конкретно}

Предложи как исправить именно этот фрагмент.
Контекст: {только нужный кусок}

Требования:
— конкретная правка, не советы
— не меняй другие части
— объясни логику правки в одном предложении

Плейсхолдеры: - {тип документа/задачи} — меморандум, стратегия, анализ, статья, договор - {область} — инвестиции, юриспруденция, маркетинг, стратегия - {аудитория} — инвестор, клиент, партнёр, редактор - {одна дыра} — берёшь из вывода рефери, формулируешь максимально конкретно


🚀 Быстрый старт — вставь в чат:

Вот шаблон рабочего процесса vibe-proving для сложных аналитических задач. 
Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит о типе задачи, аудитории и известных подходах к ней — потому что без этого она не сможет настроить scaffolding-промпт и правильно сформулировать роль рефери.


⚠️

Ограничения

⚠️ Задачи без структуры: Метод работает лучше всего, когда есть конкретная цель и известный шаблон подхода. Если задача полностью открытая ("придумай что-нибудь интересное") — рефери-проход даст мало, потому что нет критерия правильности.

⚠️ Длинные алгебраические/технические развёртки: В сложных вычислениях модель систематически пропускает промежуточные шаги. Рефери это поймает, но починить такой фрагмент без внешней проверки (калькулятор, специалист) сложно — патчи тоже могут ошибаться.

⚠️ Убывающая отдача рефери: После 2-3 итераций повторные "найди всё неверное" начинают возвращать стилистические замечания вместо реальных ошибок. Не зацикливайся.

⚠️ Ты остаёшься проверяющим: Метод не заменяет твою экспертизу. Параллельные сессии дают сигнал надёжности, но финальное решение "принять патч или нет" — за тобой.


🔍

Как исследовали

Команда из Vrije Universiteit Brussel (Бельгия) и Harvard не планировала эксперимент заранее — они просто "вибировали" с ChatGPT-5.1 (Thinking) на реальной исследовательской задаче из теории матриц. Когда поняли, что модель предлагает жизнеспособный подход к нерешённой задаче, переключились на систематическую документацию.

Итог: 7 задокументированных ChatGPT-треда и 4 версии черновика доказательства — полностью аудируемые, с публичными ссылками на все сессии. Исследователи не просто получили результат — они зафиксировали каждый шаг, чтобы другие могли воспроизвести процесс.

Самый показательный момент: Лемма 4 заняла непропорционально много итераций — одно небольшое техническое обязательство ("в каком квадранте находится арктангенс?") потребовало отдельного треда и полной перестройки структуры аргумента. Это иллюстрирует ключевой вывод: узкое место — не генерация, а верификация. Модель быстро предлагает глобальную структуру, но застревает на нескольких технически сложных точках, которые человек должен проверять вручную.

Важное наблюдение о границах инструмента: когда исследователи просили "гиперкритичный обзор" снова и снова на финальных версиях, модель начинала находить стилистические замечания вместо реальных ошибок — сигнал остановиться, а не продолжать.


📄

Оригинал из исследования

Авторы формулируют рекомендации практикам ("Checklist for Vibe-Proving"), раздел 4.6:

1. Start from scaffolding. Prefer problems where you can state a concrete 
   target theorem and where a recognizable reduction/template exists.

2. Turn critique into obligations. Convert "this seems wrong" into an 
   explicit obligation list (domains, branch conventions, positivity checks 
   before squaring/cross-multiplying, endpoints).

3. Use parallel patch search. Treat independent sessions as competing patch 
   generators; adopt only patches that you can verify locally.

4. Control regressions. Keep versioned drafts and re-check downstream 
   dependencies after each patch; prefer Lamport-style decomposition to 
   expose dependencies.

5. Mechanize the bottleneck. Offload expansions and inequality-domain checks 
   to CAS / certified checkers; reserve human time for conceptual choices 
   and boundary cases.

Контекст: Это итоговый чеклист из анализа 7 ChatGPT-сессий и 4 версий математического доказательства. Написан как практическое руководство для любого, кто использует LLM для сложных аналитических задач.


💡

Адаптации и экстраполяции

1. Адаптация: Lamport-стиль для сложных документов

Авторы упоминают "Lamport-style decomposition" — запрос к модели сделать зависимости между частями документа явными.

💡 Адаптация для юридических договоров или стратегий:

Перепиши {документ} в Lamport-стиле:
— каждый пункт должен явно указывать, от каких предыдущих пунктов он зависит
— если пункт B следует из пункта A — напиши "Зависит от: пункт A"
— если пункт B противоречит пункту A — пометь как "Конфликт с: пункт A"

Цель: сделать логическую структуру видимой, чтобы я мог 
проверять каждый элемент локально.

Вот документ:
{текст}

Это особенно ценно для длинных договоров и стратегических документов — где изменение одного пункта незаметно ломает другие.


2. Техника: превращай "что-то не так" в конкретное обязательство

🔧 Техника: Obligation Framing — от ощущения к задаче

Ключевой инсайт исследования: "это кажется неправильным" → бесполезно. "Вот конкретная проверка, которую нужно пройти" → полезно.

Промпт для трансформации:

У меня есть ощущение, что в {фрагмент} что-то не так, 
но я не могу сформулировать что именно.

Помоги превратить это в список конкретных обязательств для проверки:
— что именно нужно проверить (да/нет)
— какое условие должно выполняться
— как узнать, что условие выполнено

Вот фрагмент: {текст}

После этого — берёшь каждое обязательство и запускаешь в параллельные сессии.


🔗

Ресурсы

Early Evidence of Vibe-Proving with Consumer LLMs: A Case Study on Spectral Region Characterization with ChatGPT-5.2 (Thinking)

Brecht Verbeken, Andres Algaba, Brando Vagenende, Marie-Anne Guerry, Vincent Ginis

Data Analytics Lab & imec-SMIT, Vrije Universiteit Brussel, Belgium; School of Engineering and Applied Sciences, Harvard University, USA

Препринт: February 24, 2026 | brecht.verbeken@vub.be

Публичные транскрипты: Transcript 1 · Transcript 2 · Transcript 3

Связанные работы: Ran & Teng (2024) — Conjecture 20; Dmitriev & Dynkin (1946) — тригонометрический метод; Карпелевич (1951)


📋 Дайджест исследования

Ключевая суть

Попросить модель найти ошибки в том же чате, где она писала — всё равно что попросить автора вычитать собственный текст. Она читает то, что хотела написать, а не то, что написала. Vibe-proving разрезает процесс на три роли в разных сессиях: генератор, критик, ремонтник — и каждый вывод модели считается кандидатом, а не истиной, пока не прошёл через свежую независимую сессию. Метод позволяет довести сложный документ — меморандум, стратегию, анализ — до состояния, где дыры выловлены до того, как текст долетел до аудитории.

Принцип работы

Не «напиши и отправь» — а «напиши черновик → сломай его → почини одну конкретную дыру → зафиксируй → повтори». Рефери работает только в свежем чате — это не опция, это суть метода. Новая сессия не помнит логику предыдущего разговора, не «защищает» свои прошлые решения и смотрит на текст как новый читатель. Параллельный ремонт: одну дыру отправляешь в 2-3 отдельных чата с одним и тем же вопросом. Совпало в двух из трёх — надёжный патч. Разошлось — зона неопределённости, решает твоя голова.

Почему работает

LLM в рамках одной сессии застревает на логике, которую уже выбрала. Черновик писался с определёнными допущениями — и при критике в том же контексте модель читает текст изнутри, пропускает то, что «понятно само собой». Свежая сессия убирает этот контекстный якорь: модель видит документ как новый читатель без груза предыдущих решений. Параллельные сессии работают как независимые эксперты — это статистика вместо одной точки данных. Ограниченное число рефери-проходов принципиально: после 2-3 итераций повторная критика возвращает стилистику и мелочи вместо реальных ошибок. Бесконечная критика — это уже шум.

Когда применять

Аналитические документы с высокой ценой ошибки → инвестиционные меморандумы, юридические аргументы, стратегические планы — особенно когда аудитория будет искать дыры. Технические тексты с логическими цепочками → когда один пропущенный шаг меняет итоговый вывод. НЕ подходит для: коротких творческих задач без критерия правильности — рефери не знает, что считать ошибкой. Простые запросы — накладные расходы трёх сессий не окупятся.

Мини-рецепт

1. Scaffolding — один запрос: Дай модели цель + контекст + известный шаблон подхода к задаче. Попроси стратегию аргументации и список типичных слабых мест. Это фундамент — без него рефери не знает, по какому критерию искать дыры.
2. Generate — та же или новая сессия: Попроси черновик по стратегии из шага 1. Смотри на него как на кандидата, не на готовый результат.
3. Referee — НОВЫЙ чат, никогда тот же: Вставь черновик. Задай роль строгого эксперта с аудиторией, которой текст попадёт. Попроси список: что не доказано, где логика рвётся, что аудитория спросит а ты не ответил. Не хвалить — только дыры.
4. Параллельный ремонт — 2-3 отдельных чата: Возьми одну дыру из списка рефери. Сформулируй максимально конкретно — не «что-то не так с числами», а «TAM в разделе 3 посчитан без методологии». Отправь в 2-3 разных чата. Принимай патч, который совпадает в нескольких ответах — или тот, что можешь проверить сам.
5. Версионирование + повтор: Зафиксируй исправленную версию. Повтори шаги 3-4 для следующей дыры. Стоп-сигнал: рефери возвращает стилистику и мелочи вместо реальных проблем — на этом заканчивай.

Примеры

[ПЛОХО] : Напиши инвестиционный меморандум для моего стартапа по доставке корпоративных обедов
[ХОРОШО] : Шаг 1 — Я готовлю инвестиционный меморандум для фондов стадии до первого раунда, чек 30–80 млн рублей. Стартап: доставка корпоративных обедов в офисы Москвы. Структура: Проблема → Решение → Рынок → Тяга → Бизнес-модель → Команда → Запрос. Вот мои цифры: [данные]. Предложи стратегию аргументации — как каждый раздел усиливает следующий? Где типичные слабые места в меморандумах такого типа? → получи черновик → открой новый чат: Ты инвестор венчурного фонда. Перед тобой инвестиционный меморандум стартапа. Найди всё недоказанное, все логические разрывы, все допущения без источника. Не хвали. Что ты точно спросишь на питче, а меморандум не отвечает? [черновик] → получи список дыр → открой три отдельных чата с одной дырой: В меморандуме конкретная проблема: объём рынка в разделе 3 указан без методологии расчёта и выглядит взятым с потолка. Предложи конкретную правку только этого фрагмента. Не трогай остальное. Объясни логику правки в одном предложении. [нужный кусок текста]
Источник: Early Evidence of Vibe-Proving with Consumer LLMs: A Case Study on Spectral Region Characterization with ChatGPT-5.2 (Thinking)
ArXiv ID: 2602.18918 | Сгенерировано: 2026-02-24 05:29

Проблемы LLM

ПроблемаСутьКак обойти
Модель плохо находит ошибки в своём же текстеПопросил критику в том же чате где писали черновик. Модель "помнит" логику которую выбрала. Читает то что хотела написать — а не то что написала. Реальные дыры остаются невидимыми. Проблема любого аналитического текста: стратегия, договор, меморандум, статьяОткрой новый чат. Вставь черновик туда. Попроси критику там. Свежая сессия не знает предыдущей логики — даёт независимую оценку

Методы

МетодСуть
Цикл: черновик критик правкаТри шага в отдельных сессиях. Шаг 1 — черновик: в новом чате дай цель + контекст + известный шаблон получи первый вариант. Шаг 2 — критик (новый чат!): вставь черновик попроси: Ты — строгий эксперт в {область}. Найди всё что не доказано, где логика рвётся, что {аудитория} точно спросит — а я не отвечаю. Не хвали. Только список дыр. получи список конкретных проблем. Шаг 3 — правка (ещё один новый чат): возьми ОДНУ дыру из списка попроси: Вот конкретная проблема: {одна дыра}. Предложи правку именно этого фрагмента. Не трогай остальное. Объясни логику в одном предложении. Повтори шаги 2-3 для следующей дыры. Стоп-сигнал: критик начинает находить стилистику вместо логических ошибок — значит, главные дыры закрыты. Когда работает: есть конкретная цель и критерий правильности. Когда не работает: задача полностью открытая, нет критерия "верно/неверно"
Параллельные сессии для надёжных правокОдну дыру отправляй в 2-3 отдельных чата с одинаковым запросом. Сравни ответы. Совпало в двух-трёх — надёжный патч, принимай. Разошлось — задача неоднозначна, решай сам. Почему работает: одна сессия — одна точка данных. Три независимых — статистика. Как три независимых эксперта: если все трое говорят одно — это сигнал. Убывающая отдача: больше 4 параллельных сессий почти ничего не добавляют

Тезисы

ТезисКомментарий
Новый чат — это независимый эксперт, тот же чат — соучастникВ одной сессии модель держится логики которую выбрала. Это не баг, это механика: контекст давит на следующие ответы. Свежая сессия этого груза не несёт. Поэтому критика в новом чате — честнее. Применяй: любую финальную проверку важного текста делай в отдельном чате. Никогда не проси "найди ошибки" там же где писал
📖 Простыми словами

Early Evidence of Vibe-Proving with ConsumerLLMs: A Case Study on Spectral Region Characterization withChatGPT-5.2 (Thinking)

arXiv: 2602.18918

Суть vibe-proving в том, что любая современная нейронка — это патологический лжец, который сам верит в свою правду. Когда ты просишь модель что-то написать, она мгновенно влюбляется в свой вариант и будет защищать его до последнего, даже если там откровенная лажа. Метод ломает эту инерцию: мы перестаем воспринимать ответ ChatGPT как истину и начинаем относиться к нему как к сырому кандидату, которого нужно прогнать через фильтр жесткой критики в абсолютно «трезвом» состоянии.

Это как если бы ты написал пьяное письмо бывшей, а утром, проспавшись, перечитал его свежим взглядом. В одном и том же чате модель всегда будет поддакивать сама себе, потому что она заперта в контексте своих предыдущих слов. Vibe-proving заставляет тебя выходить из этого пузыря: ты берешь текст, идешь в новую чистую сессию и заставляешь нейронку искать в нем дыры, как самого дотошного и вредного редактора. Формально работа та же, но результат меняется кардинально, потому что исчезает эффект «замыленного глаза».

На практике это работает через циклическую проверку: сначала генерируешь черновик, потом скармливаешь его модели в новом окне с установкой «найди, где я наврал», и только после этого чинишь конкретные косяки. Ключевые инструменты здесь — изоляция контекста (никаких старых переписок) и итеративное исправление. Если ты готовишь важный отчет или питч, нельзя верить первому прогону; нужно заставить модель сомневаться в каждом факте, пока «вайб» текста не станет железобетонным и логически непробиваемым.

Исследование проводили на сложных технических задачах вроде спектрального анализа, но принцип универсален. Это работает для юридических договоров, кода, маркетинговых стратегий и даже личных писем. Везде, где цена ошибки — провал, нужно использовать этот метод. LLM лажают в самопроверке, но отлично справляются с критикой чужого текста, даже если этот текст написала та же самая модель пять минут назад в соседней вкладке.

Короче: забудь про подход «спросил — получил — скопировал». Это путь к факапам и галлюцинациям. Настоящий профи использует vibe-proving: создает черновик, безжалостно его критикует в новой сессии и пересобирает заново. Один запрос — это лотерея, цикл проверок — это результат. Кто продолжает верить первому ответу нейронки, тот рано или поздно крупно обломается на ровном месте.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с