3,583 papers
arXiv:2604.05137 73 6 апр. 2026 г. FREE

EffiPair / RCF: улучшение результата через контрастное сравнение вместо оценки

КЛЮЧЕВАЯ СУТЬ
Просишь модель «улучши это» — она правит наугад. Нет точки отсчёта: менять стиль? структуру? конкретность? Каждая итерация — новый выстрел, а не уточнение прицела. Метод RCF (Relative Contrastive Feedback) позволяет итеративно улучшать тексты так, что каждый шаг опирается на конкретный анализ, а не на угадывание. Фишка: вместо оценки одного варианта — сравнение двух. Модель сама находит что именно делает лучший вариант лучше — и это становится прямой инструкцией для следующей версии.
Адаптировать под запрос

TL;DR

Relative Contrastive Feedback (RCF) — техника итеративного улучшения, где модели показывают не одну версию с оценкой, а две: лучшую и худшую. Модель сама находит различия и использует их как ориентир для следующей итерации.

Обычная логика итерации: «вот текст, улучши его» или «вот текст, оцени 1–10». Проблема — модель получает абсолютную оценку без структуры направления: что именно менять, куда двигаться. Результат плавает — каждая итерация угадывает, а не прицеливается.

RCF меняет механику: вместо «оцени это» — «сравни хорошую версию и плохую, найди что именно делает хорошую лучше, теперь улучши, опираясь на эти различия». Контраст даёт конкретное направление. Каждый шаг уточняет предыдущий, а не стреляет заново.


🔬

Схема метода

ШАГ 1 (1 запрос): Сгенерировать 2–3 варианта задачи → пул кандидатов

ШАГ 2 (1 запрос): Выбрать лучший вариант (p+) и похожий, но худший (p-)
                   → попросить модель выявить конкретные различия

ШАГ 3 (1 запрос): Используя выявленный контраст как инструкцию → создать
                   улучшенную версию → добавить в пул для следующего раунда

Всё вместе можно упаковать в 1 промпт — или запускать пошагово.

🚀

Пример применения

Задача: Николай пишет питч своего SaaS-стартапа для письма инвесторам. Прошлые версии «не цепляли» — но непонятно почему.

Промпт:

Я готовлю письмо инвестору с питчем SaaS-продукта для автоматизации закупок в ритейле.

ШАГ 1. Напиши три варианта первого абзаца письма — от 3 до 5 предложений каждый.
Варианты должны отличаться по подходу: один — через боль клиента, другой — через цифры, третий — через нарратив/историю.

ШАГ 2. Оцени все три варианта. Выбери лучший (p+) и худший (p-).
Для каждой пары «что именно делает p+ лучше, чем p-» — конкретно:
какие фразы, структура, логика, порядок аргументов.

ШАГ 3. Используя выявленные различия как прямую инструкцию, напиши финальный вариант первого абзаца.

Результат:

Модель покажет три разных первых абзаца, затем явный разбор «что работает vs что нет» с конкретными формулировками — и финальную версию, которая уже опирается на найденный паттерн, а не угадывает.


🧠

Почему это работает

Когда просишь «улучши», модель не знает куда двигаться — у неё нет точки отсчёта. Она делает случайные правки: меняет стиль, переставляет слова, добавляет детали. Результат зависит от удачи, а не от логики.

Контраст даёт другое. Когда модель видит две похожие версии с разным качеством, она может точно назвать что отличает одну от другой. Это не оценка «хуже/лучше» — это конкретная инструкция: «вот здесь перегруженный оборот, вот здесь пассивный залог, вот здесь потеряна конкретика».

Итерация превращается в прицельный огонь, а не шрапнель. Каждый раунд сужает зону улучшений — потому что контраст показывает куда именно нажать.

Рычаги управления: - Число вариантов (2–3–5) → больше кандидатов = сильнее различия между лучшим и худшим = точнее контраст. Для простых задач 2 хватает. - Критерий выбора p+ и p- → можно задать явно: «выбери лучший по убедительности», «по конкретности», «по краткости» — контраст будет прицелен именно в этот параметр. - Число раундов → по исследованию, первый раунд даёт наибольший прирост. Для большинства задач 1–2 итерации достаточно. - Роль оценщика → можно попросить оценивать с позиции конкретного читателя: «как инвестор», «как скептичный клиент», «как редактор Тинькофф-журнала» — контраст станет острее.


📋

Шаблон промпта

Мне нужно улучшить {задача} через контрастное сравнение.

ШАГ 1.
Сгенерируй {число} варианта {задача}.
Варианты должны различаться по {параметр различия: подход, стиль, структура}.

ШАГ 2.
Оцени все варианты по критерию: {критерий качества}.
Определи p+ (лучший) и p- (наиболее похожий на p+, но уступающий ему).
Выяви конкретные различия: что именно делает p+ лучше p-.
Не общие слова — конкретные элементы: фразы, структура, логика, порядок.

ШАГ 3.
Используя выявленный контраст как прямую инструкцию,
создай улучшенную версию {задача}.

Плейсхолдеры: - {задача} — «первый абзац коммерческого предложения», «заголовок поста в ВК», «описание вакансии» - {число} — 2, 3 или 5. Для быстрого результата — 2 - {параметр различия} — «по тону», «по структуре аргумента», «по длине и плотности» - {критерий качества} — «убедительность», «конкретность», «вовлекающий первый абзац»


🚀 Быстрый старт — вставь в чат:

Вот шаблон RCF для контрастного улучшения. Адаптируй под мою задачу.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит что именно нужно улучшить и по какому критерию — потому что без этого она не знает как выбрать p+ и p- и в какую сторону прицелиться.


⚠️

Ограничения

⚠️ Субъективные критерии: Контраст работает лучше всего когда критерий качества чёткий («короче», «конкретнее», «без пассивного залога»). При размытых критериях («выразительнее», «красивее») модель хуже находит значимые различия.

⚠️ Первый раунд — самый ценный: По данным исследования, наибольший прирост даёт первая итерация. Больше 2–3 раундов дают убывающую отдачу — каждый следующий улучшает меньше.

⚠️ Нужны разные варианты: Если все сгенерированные варианты похожи, контраст слабый. Явно проси разные подходы или разные структуры — иначе p+ и p- почти неотличимы.

⚠️ Метод исследовался на коде: Вся инфраструктура заточена под программирование с автоматическим профилированием и тестами. Переносимость принципа на другие задачи — экстраполяция, не прямой результат исследования.


🔗

Ресурсы

EffiPair: Improving the Efficiency of LLM-generated Code with Relative Contrastive Feedback — препринт, на рецензии.

Авторы: Samira Hajizadeh, Suman Jana — Columbia University, New York.

Связанные работы: EffiLearner (Huang et al., 2025), LLM4EFFI (Ye et al., 2025), PerfCodeGen (Peng et al., 2024). Бенчмарки: EvalPerf, Mercury, ENAMEL, EffiBench.


📋 Дайджест исследования

Ключевая суть

Просишь модель «улучши это» — она правит наугад. Нет точки отсчёта: менять стиль? структуру? конкретность? Каждая итерация — новый выстрел, а не уточнение прицела. Метод RCF (Relative Contrastive Feedback) позволяет итеративно улучшать тексты так, что каждый шаг опирается на конкретный анализ, а не на угадывание. Фишка: вместо оценки одного варианта — сравнение двух. Модель сама находит что именно делает лучший вариант лучше — и это становится прямой инструкцией для следующей версии.

Принцип работы

Три шага, которые превращают «улучши» в прицельную работу. Сначала генерируй несколько вариантов — 2–3, а не один. Потом выбирай пару: p+ — лучший по твоему критерию, p- — похожий на p+, но уступающий ему. Важно: не «самый хороший и самый плохой», а близкие варианты с конкретными различиями — так контраст выходит точечным, а не размытым. Наконец, просишь модель назвать что именно делает p+ лучше: не в общих словах, а конкретно — фразы, структура, порядок аргументов. Этот список найденных различий и есть инструкция для следующей версии. Не «улучши», а «сделай X вместо Y, убери W, добавь Z».

Почему работает

Когда говоришь «улучши» без ориентира — модель не знает куда двигаться. Правит что попало: слова, порядок, тон. Это не итерация, это лотерея. Контраст устраняет неопределённость. Две похожие версии с разным результатом — и модель точно видит где разрыв. Не «эта хуже», а «вот здесь перегруженный оборот, вот здесь пассивный залог, вот здесь потеряна конкретика». Это уже прицел, а не шрапнель. Первый раунд даёт наибольший прирост — там контраст самый резкий. После 2–3 итераций отдача резко падает. Дальше шлифовка деталей, а не смена сути. Честное предупреждение: исследование целиком про код с автоматическим измерением скорости выполнения. Принцип контрастного сравнения переносится на тексты умозрительно — данных для некодовых задач у авторов нет.

Когда применять

Итеративная доработка текстов — питчи инвесторам, заголовки, коммерческие предложения, описания вакансий. Особенно когда «что-то не так», но непонятно что именно. НЕ подходит: для задач с размытым критерием («сделай красивее», «выразительнее») — контраст выйдет нечётким; для однозначных или одноразовых задач, где итерация не нужна — три варианта генерировать нет смысла.

Мини-рецепт

1. Задай несколько вариантов: Попроси 2–3 версии одного и того же. Явно укажи чем должны отличаться: по тону, по структуре аргумента, по подходу. Без этого варианты выйдут одинаковыми — и контраст будет слабым.

2. Выбери пару для сравнения: Пусть модель назовёт p+ (лучший по твоему критерию) и p- (похожий на p+, но хуже). Критерий задай явно: «по убедительности», «по конкретности», «по краткости». Без критерия модель выбирает произвольно.

3. Вытащи конкретные различия: Попроси описать что именно делает p+ лучше — не в общих словах, а на уровне элементов. Фразы. Структура. Порядок. Залог глаголов. Это и есть точка прицела.

4. Создай следующую версию: Используй найденные различия как прямую инструкцию для нового варианта. Для большинства задач одного раунда достаточно, двух — с запасом.

Примеры

[ПЛОХО] : Улучши мой питч для инвестора
[ХОРОШО] : Напиши 3 варианта первого абзаца питча для инвестора SaaS-продукта. Первый — через боль клиента, второй — через цифры, третий — через историю. Затем выбери лучший по критерию «убедительность за 10 секунд» (p+) и наиболее похожий на него, но слабее (p-). Опиши конкретно что именно делает p+ лучше: фразы, структура, порядок аргументов. Используй этот разбор как прямую инструкцию и напиши финальный вариант.
Источник: EffiPair: Improving the Efficiency of LLM-generated Code with Relative Contrastive Feedback
ArXiv ID: 2604.05137 | Сгенерировано: 2026-04-08 04:35

Проблемы LLM

ПроблемаСутьКак обойти
Запрос «улучши это» не даёт модели направленияПишешь «улучши текст» или «сделай лучше». Модель не знает куда двигаться. Нет точки отсчёта. Она меняет стиль, переставляет слова, добавляет детали — наугад. Каждая итерация угадывает заново. Работает для любых задач с правками: тексты, питчи, заголовки, аргументыДай модели пару: хороший вариант и похожий, но слабее. Попроси найти конкретные различия. Используй этот список как инструкцию для следующей версии — не «улучши», а «применяй вот эти паттерны»

Методы

МетодСуть
Контрастная пара — направление для правкиШаг 1: попроси сгенерировать 2–3 варианта. Разных — по подходу, структуре или тону. Шаг 2: выбери лучший (p+) и похожий, но слабее (p-). Попроси модель выявить конкретные различия — не «лучше написано», а «вот эта фраза перегружена, вот здесь пассивный залог, вот здесь потеряна конкретика». Шаг 3: используй найденные различия как прямую инструкцию. Пиши: Используя эти различия как ориентир, создай улучшенную версию. Почему работает: Модель не умеет оценивать текст в вакууме точно. Зато умеет сравнивать два похожих текста и называть что именно отличает один от другого. Контраст даёт конкретный список правок вместо размытого «стань лучше». Когда применять: несколько итераций правки, есть критерий качества (убедительность, краткость, конкретность). Когда не работает: критерий размытый («красивее», «выразительнее») — контраст будет слабым
📖 Простыми словами

EffiPair: Improving the Efficiency ofLLM-generated Code with Relative Contrastive Feedback

arXiv: 2604.05137

Суть метода EffiPair в том, что нейронки на самом деле плохо понимают абстрактную команду «сделай лучше». Когда ты просишь модель оптимизировать код, она тыкается как слепой котенок: меняет названия переменных или переставляет строчки, надеясь на чудо. Метод Relative Contrastive Feedback (RCF) дает модели зрение через сравнение. Вместо того чтобы просто оценивать результат, ей подсовывают пару: вот этот вариант работает быстро, а вот этот — как улитка. Модель анализирует разницу между ними и понимает саму физику ошибки, превращаясь из гадалки в инженера.

Это как если бы ты учился готовить идеальный стейк. Если тебе просто скажут «ну, этот нормальный», ты ничему не научишься. Но если перед тобой положат один сочный кусок, а рядом — подошву от сапога, и объяснят, что разница в температуре сковороды, у тебя в голове щелкнет. RCF — это и есть та самая пара «стейк и подошва», которая заставляет модель не просто переписывать текст, а видеть критическую разницу в подходах.

В работе метода ключевую роль играет итеративное улучшение через контраст. Сначала генерируется пачка решений, затем из них выбираются полярные варианты — «хороший» и «плохой». Модель получает их оба и должна сама сформулировать, почему один вариант выигрывает. Этот относительный фидбек работает в разы эффективнее, чем сухие баллы или лайки. В итоге модель не просто фиксит баги, а реально вычищает лишние циклы и тяжелые операции, которые раньше пропускала, потому что «и так сойдет».

Хотя авторы гоняли метод на коде, принцип EffiPair универсален для любой сложной работы. Возьми тот же питч для инвесторов: если ты покажешь нейронке два письма — одно, на которое ответили, и другое, которое улетело в корзину — она моментально выкупит, что дело в четком оффере, а не в вежливых словах. Это применимо к текстам, маркетингу и даже дизайну. Везде, где есть понятие «качество», контраст работает лучше, чем любые инструкции.

Короче, пора перестать кормить AI одиночными промптами и ждать магии. Главный вывод исследования: сравнение — лучший учитель. Если хочешь выжать из модели максимум, заставляй её анализировать свои и чужие косяки в паре с удачными решениями. RCF доказывает, что понимание того, почему один вариант хуже другого, дает больше буста к эффективности, чем бесконечные попытки угадать правильный ответ с нуля.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с