3,583 papers
arXiv:2604.16421 74 3 апр. 2026 г. FREE

Convert-then-Solve: двухшаговый промпт для задач в сложном формате

КЛЮЧЕВАЯ СУТЬ
Модель правильно называет формулу и верный принцип — а потом ломается на следующем шаге и выдаёт неверный ответ. Не потому что не знает. А потому что задача записана в непривычном ей виде. Convert-then-Solve позволяет работать с задачами в любом формате так же точно, как с самыми знакомыми. Фишка: добавляешь один шаг — 'сначала переведи это в привычный вид' — и точность на сложных форматах вырастает до +52 процентных пунктов.
Адаптировать под запрос

TL;DR

LLM отвечает по-разному на одну и ту же задачу — в зависимости от того, как она сформулирована. Не от того, знает ли модель ответ, а от формата подачи. Одни формулировки — привычные "шаблоны" из обучения, другие — слабые места, где модель начинает ошибаться.

Проблема в том, что когда задача записана в непривычном для модели виде, цепочка шагов к решению становится длиннее и символьно плотнее. Каждый дополнительный шаг — новая точка для накопления ошибки. Модель часто знает правильный высокоуровневый подход (называет верную формулу, верный принцип), но "ломается" на механическом исполнении — неверные знаки, перепутанные компоненты, пропущенные операции.

Convert-then-Solve — двухшаговая техника: сначала попросить модель перевести задачу в более привычный ей формат, затем решить переведённую версию. В исследовании это дало прирост точности до 52 процентных пунктов на сложных форматах.


🔬

Схема метода

(Оба шага — в одном промпте)

ШАГ 1: Дать задачу → попросить переформулировать в более простой/привычный вид
ШАГ 2: На основе переформулированной версии → решить задачу

🚀

Пример применения

Задача: Вы — основатель стартапа. Получили term sheet от российского венчурного фонда. Документ написан юридическим языком: liquidation preference 1.5x non-participating, pro-rata rights, drag-along clause, anti-dilution ratchet. Нужно понять, что это значит лично для вас и стоит ли подписывать.

Промпт:

Вот term sheet от венчурного фонда:

[вставить текст документа или ключевые условия]

Шаг 1. Переведи условия на язык конкретных сценариев: 
что происходит с моей долей и деньгами если стартап продадут за 50 млн рублей, 
за 500 млн рублей, за 5 млрд рублей. Опиши каждый сценарий простыми словами — 
кто сколько получает, в каком порядке.

Шаг 2. На основе этих сценариев: какие условия в документе работают против меня 
как основателя? На что стоит попросить фонд поменять условия?

Результат:

Модель сначала покажет три конкретных сценария выхода в рублях — без юридических конструкций, просто "фонд получает X, вы получаете Y". Потом, опираясь на эту конкретику, укажет какие пункты системно ущемляют основателя и сформулирует альтернативные формулировки для переговоров. Качество анализа второго шага заметно выше, чем если бы вы сразу спросили "что не так в этом term sheet" — потому что модель работает с уже привычным ей форматом рассуждений.


🧠

Почему это работает

LLM не хранит знания — она генерирует текст по паттернам из обучения. Чем чаще определённый формат встречался в обучающих данных, тем надёжнее шаблоны рассуждений для него. Привычные форматы — устойчивые шаблоны, редкие форматы — хрупкие цепочки.

Когда задача в непривычном формате, модель часто "знает" правильный принцип (называет верную формулу, правильный подход), но "ломается" на механическом исполнении — длинная цепочка вычислений, каждый шаг которой добавляет вероятность ошибки. Ошибки накапливаются, финальный ответ неверен. Как если бы хирург знал операцию в теории, но работал нехирургическими инструментами.

Convert-then-Solve использует сильную сторону: модель хорошо умеет переводить между форматами (это тоже паттерн из обучения). После перевода — рассуждает в привычной системе координат, где шаблоны крепкие. Два шага вместо одного — но суммарно точнее, чем один шаг напрямую.

Рычаги управления:

  • Явно назови целевой формат ("переведи в конкретные числа / в список шагов / в бытовые аналогии") — чем конкретнее инструкция перевода, тем качественнее второй шаг
  • Оба шага в одном промпте — модель держит переведённую версию в контексте и не теряет её при переходе к решению
  • Попроси показать оба шага — если хочешь проверить качество перевода перед анализом

📋

Шаблон промпта

Вот задача / документ / ситуация в формате {исходный_формат}:

{задача}

Шаг 1. Перепиши это в формате {целевой_формат}: {что должно быть понятно после перевода}.

Шаг 2. На основе этого переформулированного варианта: {конкретный вопрос для решения}.

Что подставлять: - {исходный_формат} — откуда пришла задача: юридический язык, технический регламент, финансовая отчётность, формулы, статистика - {целевой_формат} — в какой вид переводим: конкретные сценарии, бытовые аналогии, список шагов, таблица с числами - {что должно быть понятно} — критерий качества перевода: "кто что получает", "что происходит если X", "в чём суть каждого пункта" - {конкретный вопрос} — то, что реально хочешь решить

🚀 Быстрый старт — вставь в чат:

Вот шаблон Convert-then-Solve. Адаптируй под мою задачу: [твоя задача]. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит: в каком формате пришла задача, какой формат было бы проще анализировать, и что именно нужно решить в итоге — потому что без этого невозможно правильно выбрать целевой формат перевода и сформулировать второй шаг.


⚠️

Ограничения

⚠️ Только для достаточно мощных моделей: слабые модели (малые открытые LLM вроде LLaMA 8B) не получают никакого прироста от техники. Перевод сам по себе им не помогает — там другие, более глубокие проблемы. С GPT-4, Claude, Gemini — работает хорошо.

⚠️ Качество перевода критично: если модель неправильно перевела задачу на шаге 1, шаг 2 даст уверенно неверный ответ. Для важных задач — проверяй шаг 1 перед тем как доверять шагу 2.

⚠️ Больше токенов: два шага = примерно вдвое длиннее ответ. В длинных документах это упирается в контекстное окно. Дроби задачу на части.

⚠️ Исследование в геометрии: принцип экстраполируется, но конкретные цифры прироста — из математических задач. В других доменах эффект будет, но его величина неизвестна.


🔍

Как исследовали

Команда из BITS Pilani взяла 158 задач по геометрии из школьных учебников (NCERT, RD Sharma, RS Aggarwal) и для каждой вручную создала три математически идентичных версии: евклидова (словесная, "треугольник со сторонами..."), координатная (декартова система координат) и векторная (через скалярные и векторные произведения). Итого 474 экземпляра — и каждая модель отвечала на все три варианта одной задачи.

Проверяли 11 моделей — от LLaMA 8B до GPT-5, Claude и Gemini. Главный вопрос: даёт ли одна и та же модель одинаковый ответ на семантически идентичные задачи в разных форматах? Результат оказался неожиданно резким: разрыв точности между форматами достигает 14 процентных пунктов — и это не шум, статистические тесты подтвердили устойчивость эффекта. Векторный формат — стабильно самое слабое место у почти всех моделей. При этом Invariance@3 (доля задач, решённых верно во всех трёх форматах) у LLaMA 8B составила 0.044 — то есть меньше 5% задач модель решает корректно независимо от формулировки.

Затем проверили Convert-then-Solve: модели давали задачу в векторном формате, но сначала просили перевести в евклидов, а потом решать. Gemini 2.5 Flash прыгнула с 0.45 до 0.97 на векторных задачах. Это самый неожиданный результат: проблема была не в незнании, а в формате. Модель умела решать — просто не умела работать с непривычной записью.


📄

Оригинал из исследования

We evaluate CTS on a representative subset of six models... 
CTS dramatically improves accuracy for mid- and high-capacity models — 
vector accuracy jumps by up to 52 pp (Gemini-2.5-Flash: 0.45 → 0.97), 
and accuracy gaps narrow from 14 pp to 2–3 pp — confirming that 
direct-evaluation failures reflect representation sensitivity rather than 
inability to solve the underlying problems. Crucially, LLaMA-3.1-8B shows 
no meaningful gains (vector: 0.13 → 0.16), indicating that conversion 
scaffolding cannot compensate for fundamental capacity limitations.

Контекст: Это описание Convert-then-Solve — основного промптингового вмешательства в исследовании. Модели давали задачу в сложном формате (векторы) и просили сначала перевести в Евклидов вид, потом решать.


💡

Адаптации и экстраполяции

📌

💡 Адаптация: Convert-then-Solve для анализа данных

Когда данные в Excel/SQL структуре — попроси сначала превратить их в нарратив ("это данные о продажах в 3 магазинах за полгода, магазин А падает, Б растёт..."), потом анализировать.

Вот данные: {таблица или описание данных}

Шаг 1. Перескажи что здесь происходит простым языком — 
как будто объясняешь коллеге по телефону. 
Выдели 3 главных тренда.

Шаг 2. На основе этого объяснения: какой вывод следует сделать 
и что предпринять в первую очередь?

📌

🔧 Техника: Явный формат перевода → точнее второй шаг

Чем конкретнее целевой формат, тем лучше:

Исходное Лучше Ещё лучше
"переведи проще" "переведи на бытовой язык" "переведи в 3 сценария с конкретными суммами в рублях"
"объясни" "объясни как список шагов" "объясни как инструкцию из 5 пунктов для человека без опыта"

📌

🔧 Экстраполяция: Format-First для любого сложного ввода

Принцип шире геометрии. Везде, где входной формат непривычен для стандартного рассуждения модели — выгодно добавить шаг "сначала переведи":

  • Юридический документ → "переведи в список прав и обязанностей каждой стороны"
  • Технический регламент → "переведи в последовательность действий для исполнителя"
  • Финансовая отчётность → "переведи в бизнес-историю: что росло, что падало"
  • Академическая статья → "переведи в три конкретных вывода для практика"

🔗

Ресурсы

Работа: Measuring Representation Robustness in Large Language Models for Geometry

Авторы: Vedant Jawandhia, Yash Sinha, Murari Mandal, Ankan Pal, Dhruv Kumar

Учреждения: BITS Pilani (Department of Computer Science and Information Systems; Department of Mathematics), KIIT University (School of Computer Science)

Датасет и промпты: github.com/vedjaw/GeoRepEval


📋 Дайджест исследования

Ключевая суть

Модель правильно называет формулу и верный принцип — а потом ломается на следующем шаге и выдаёт неверный ответ. Не потому что не знает. А потому что задача записана в непривычном ей виде. Convert-then-Solve позволяет работать с задачами в любом формате так же точно, как с самыми знакомыми. Фишка: добавляешь один шаг — 'сначала переведи это в привычный вид' — и точность на сложных форматах вырастает до +52 процентных пунктов.

Принцип работы

Не «реши задачу», а «переведи — потом реши». Чем чаще определённый формат встречался при обучении модели, тем прочнее цепочка рассуждений для него. Редкий формат — хрупкая цепочка, где каждый промежуточный шаг добавляет новый шанс ошибиться. Перевод переносит задачу на знакомую территорию, где шаблоны крепкие. Оба шага пишешь в одном промпте — чтобы модель держала переведённую версию в контексте и не потеряла её при переходе к решению.

Почему работает

LLM не хранит знания — она идёт по паттернам из обучения. Непривычный формат = длинная цепочка рассуждений, где каждый шаг добавляет вероятность ошибки. Это как хирург, который знает операцию теоретически, но работает кухонными ножами — принцип верный, инструмент не тот. Ошибки не в логике, а в механическом исполнении: не тот знак, перепутанные компоненты, пропущенная операция. Перевод заменяет инструменты на привычные — и механика перестаёт ломаться.

Когда применять

Везде, где задача приходит в 'чужом' виде: юридические документы (договоры, term sheet), финансовая отчётность, технические регламенты, уравнения и формулы, статистические данные. Особенно когда нужно не просто понять суть, а сделать правильные вычисления или аналитику по непривычно записанному материалу. НЕ подходит для слабых открытых моделей — LLaMA 8B и подобные прироста не получают. С GPT-4, Claude, Gemini — работает.

Мини-рецепт

1. Определи исходный формат: откуда пришла задача — юридический язык, таблица, формула, технический регламент, статистика.
2. Выбери целевой формат перевода: конкретные сценарии с числами, список шагов, бытовые аналогии, простая таблица — что будет проще анализировать.
3. Составь двухшаговый промпт: шаг 1 — переведи в [целевой формат] так, чтобы было понятно [критерий качества]; шаг 2 — на основе этого — [конкретный вопрос]. Оба шага в одном сообщении.
4. Проверь шаг 1 до того как доверять шагу 2: если перевод кривой — финальный ответ будет уверенно неверным.

Примеры

[ПЛОХО] : Что не так в этом term sheet? [вставить текст документа]
[ХОРОШО] : Вот условия от венчурного фонда: [вставить текст]. Шаг 1. Переведи каждое условие в конкретный сценарий: кто что получает при продаже компании за 50 млн, за 500 млн и за 5 млрд рублей — простыми словами, с числами. Шаг 2. На основе этих сценариев: какие условия системно работают против меня как основателя и что стоит просить поменять?
Источник: Measuring Representation Robustness in Large Language Models for Geometry
ArXiv ID: 2604.16421 | Сгенерировано: 2026-04-21 05:41

Проблемы LLM

ПроблемаСутьКак обойти
Непривычный формат задачи разрушает точность ответаЗадаёшь одну и ту же задачу в двух форматах — получаешь разные результаты. Не потому что модель не знает ответ. А потому что незнакомый формат удлиняет цепочку шагов к решению. Каждый лишний шаг — новый шанс для ошибки. Модель называет верный принцип, но ломается на исполнении: не тот знак, пропущенная операция, перепутанные компоненты. Итог — уверенно неверный ответПопроси модель сначала перевести задачу в более привычный вид. Потом решать уже переведённую версию. Оба шага — в одном запросе

Методы

МетодСуть
Перевод формата перед решениемРазбей запрос на два шага. Шаг 1: "Перепиши это в формате {цель}: {что должно стать понятным}." Шаг 2: "На основе этого — {конкретный вопрос}." Оба шага — в одном запросе, чтобы модель держала переведённую версию в памяти. Почему работает: модель хорошо переводит между форматами — это частый паттерн из обучения. После перевода рассуждает в привычной системе, где шаблоны надёжные и цепочка короткая. Что подставлять в "формат": конкретные сценарии с числами, список шагов, бытовые аналогии, таблица. Чем конкретнее целевой формат — тем качественнее второй шаг. Не работает: со слабыми моделями (малые открытые, менее 70B параметров). Там перевод не спасает — проблемы глубже
📖 Простыми словами

Measuring Representation Robustness inLargeLanguageModelsfor Geometry

arXiv: 2604.16421

Суть в том, что интеллект нейросетей — это иллюзия, которая держится на честном слове и привычных шаблонах. Модель не «понимает» геометрию или логику как таковую, она просто едет по накатанной колее из обучающих данных. Если задача сформулирована так, как модель видела миллион раз, она выдаст верный ответ. Но стоит чуть изменить обертку, не меняя сути, и LLM начинает лажать на ровном месте. Это называется хрупкостью репрезентации: знания у модели вроде есть, но достать их она может только через конкретную «дверь» в промпте.

Это как если бы опытный юрист мог прочитать договор только при свете настольной лампы определенной марки, а при обычном солнечном свете внезапно забывал алфавит. Формально он эксперт, но его навыки привязаны к внешним условиям, которые вообще не должны влиять на результат. В геометрии это проявляется максимально выпукло: поменяй названия точек с A и B на X и Y, и модель, которая только что щелкала теоремы, превращается в беспомощного двоечника. Она не решает задачу, а пытается угадать продолжение текста, и если текст выглядит непривычно, «угадайка» ломается.

Исследователи копнули в устойчивость представлений и выяснили, что у каждой модели есть свои «безопасные гавани» — формулировки, в которых она чувствует себя уверенно. Что реально работает для проверки модели: вариативность подачи (проверка одного и того же факта через разные слова), поиск слепых зон (где точность падает при смене формата) и анализ шаблонов. Оказалось, что даже топовые модели типа GPT-4 могут выдавать правильный ответ в 90% случаев в одном формате и скатываться до 10% в другом, хотя математическая суть задачи осталась идентичной. Это не ошибка в расчетах, это полный провал адаптивности.

Принцип универсален и касается не только треугольников. Представь, что ты основатель стартапа и скармливаешь нейронке сложный юридический документ с терминами вроде liquidation preference или anti-dilution. Если документ написан по стандартному западному шаблону, AI разложит всё по полочкам. Но если юристы фонда проявили креативность и переиначили формулировки, модель может галлюцинировать на ровном месте, пропустив критический риск. Она просто не узнает знакомый юридический механизм в «чужой» одежде. SEO для смыслов работает и здесь: модель реагирует на знакомые маркеры, а не на глубокую логику.

Короче: никогда не доверяй первому ответу нейронки в сложных вопросах, особенно если задача нестандартная. Одна и та же модель — это одновременно гений и идиот, всё зависит от того, в какой шаблон ты попал своим промптом. Чтобы не пролететь, нужно прогонять важные запросы через разные формулировки и смотреть, где логика начинает сыпаться. Если ответ меняется от перестановки слов — значит, модель плавает в теме, и полагаться на такой результат — это чистой воды самоубийство. Кто понимает эти границы, тот управляет инструментом, остальные просто играют в рулетку.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с