3,583 papers
arXiv:2507.23336 85 31 июля 2025 г. FREE

В запросе 'Назови топ-3 страны со стабильной рождаемостью' спрятана ловушка.

КЛЮЧЕВАЯ СУТЬ
В запросе 'Назови топ-3 страны со стабильной рождаемостью' спрятана ловушка. Модель считает: раз спрашивают — значит такие страны точно есть. И уверенно называет несуществующие. Метод инжиниринга контекста (context engineering) позволяет давать модели структурированную 'карту' данных вместо сырого массива — и убирать скрытые допущения из запросов. Фишка: вместо 'назови топ-3' спрашивай 'найди подходящие, потом из них выбери топ-3' — первый вариант предполагает что нужные объекты уже существуют, второй — проверяет. Точность растёт, галлюцинации падают.
Адаптировать под запрос

Исследование вводит и тестирует метод "инжиниринга контекста" (Context Engineering), при котором модели вместо огромного массива сырых данных предоставляется их структурированное описание (метаданные). Авторы сравнивают производительность разных LLM при решении задач по анализу данных, используя этот подход, а также анализируют, как на точность влияют скрытые предположения в формулировках промптов.

Ключевой результат: предоставление модели структурированной "карты" данных и постановка четких, последовательных задач без скрытых допущений значительно повышает точность и надежность ответов.

Представьте, что вам нужно попросить ассистента проанализировать огромный годовой отчет на 500 страниц. У вас есть два варианта: 1. Плохой подход: Бросить отчет на стол ассистенту и сказать: "Найди мне три главные проблемы и предложи решения". Ассистент потратит кучу времени на чтение всего подряд, может упустить важное и запутаться. 2. Хороший подход (суть метода): Дать ассистенту тот же отчет, но приложить к нему краткую справку на один лист: "Это годовой отчет за 2023 год. В нем 5 разделов: Финансы, Продажи, Маркетинг, HR, Логистика. Ключевые цифры в разделе Финансы. Проблемы с поставками описаны в разделе Логистика. Вот первые 5 строк из таблицы продаж". А затем дать четкую задачу: "1. Изучи раздел Продажи и найди месяцы с самым низким доходом. 2. Сопоставь их с проблемами из раздела Логистика. 3. Предложи 3 решения".

"Инжиниринг контекста" (Context Engineering) — это и есть создание такой краткой, структурированной "справки" для LLM. Вместо того чтобы "скармливать" модели весь массив информации (который может не влезть в контекстное окно или содержать много шума), вы даете ей его метаданное описание: количество элементов, их типы, ключевые категории, временные рамки, несколько характерных примеров и т.д. Это помогает модели быстро сориентироваться в "территории" ваших данных.

Второй важный вывод касается "чистоты" запросов. Исследование показывает, что вопрос в стиле "Назови топ-3 страны с самой стабильной рождаемостью" хуже, чем двухэтапный запрос: "1. Найди страны со стабильной рождаемостью. 2. Из них выведи топ-3". Первый вариант неявно предполагает, что такие страны вообще существуют, что может привести к ошибке или галлюцинации. Второй вариант логически безопаснее и дает более надежный результат.

  • Прямая применимость:

    • Создание "контекстных блоков": Перед любой сложной задачей, связанной с анализом информации (статьи, отзыва, документа), пользователь может создать в промпте блок [КОНТЕКСТ], где в виде списка или пар "ключ: значение" описывает основные характеристики этой информации.
    • Декомпозиция запросов: Вместо того чтобы задавать один сложный вопрос со скрытым предположением ("Какие три самые дешевые опции..."), можно разбить его на два шага: "1. Найди все доступные опции и их цены. 2. Отсортируй их по цене и покажи три самые дешевые".
  • Концептуальная ценность:

    • Исследование наглядно демонстрирует, что LLM — это инструмент, а не волшебник. Качество результата напрямую зависит от качества и структуры предоставленных данных и инструкций.
    • Оно формирует у пользователя полезную привычку "думать за модель": "Какую минимально необходимую информацию мне нужно предоставить, чтобы модель поняла задачу и не галлюцинировала?". Это сдвигает парадигму от "задай вопрос" к "поставь задачу с контекстом".
  • Потенциал для адаптации:

    • Метод легко адаптируется для любой задачи. Вместо JSON-структуры для данных, как в статье, обычный пользователь может использовать Markdown-разметку: заголовки, списки, выделение жирным. Например, при анализе отзывов на товар контекстный блок может включать: **Товар:**, **Источник отзывов:**, **Количество:**, **Основные темы:**. Принцип структурирования остается тем же.

Представим, что вы менеджер продукта и вам нужно проанализировать отзывы пользователей о новом приложении для медитации.

Ты — опытный продакт-аналитик. Твоя задача — проанализировать отзывы пользователей и дать рекомендации по улучшению продукта.

[КОНТЕКСТ]
**Продукт:** Мобильное приложение "Тихий Ум".
**Источник данных:** 150 отзывов из App Store за последний месяц.
**Структура данных:** Каждый отзыв содержит оценку (1-5 звезд) и текстовый комментарий.
**Ключевые особенности приложения, упоминаемые в отзывах:**
- Библиотека медитаций (более 100 практик)
- Дыхательные упражнения
- Персональные рекомендации на основе ИИ
- Платная подписка "Тихий Ум+"
**Примеры отзывов (первые 5):**
1. "5 звезд: Отличное приложение! Особенно нравятся дыхательные упражнения."
2. "2 звезды: Идея хорошая, но ИИ предлагает одно и то же. И подписка дорогая."
3. "4 звезды: Большая библиотека, но сложно найти нужную медитацию."
4. "1 звезда: Постоянно вылетает на моем старом телефоне."
5. "5 звезд: Пользуюсь каждый день перед сном, спасибо!"

[ЗАДАЧА]
Выполни следующие шаги:
1.  Проанализируй все отзывы и определи, существуют ли в них повторяющиеся темы (как позитивные, так и негативные).
2.  Если такие темы существуют, сгруппируй их по категориям (например: "Цена", "Технические проблемы", "Контент", "UX/UI").
3.  Для каждой категории приведи 2-3 цитаты из отзывов.
4.  На основе этого анализа сформулируй 3 главных приоритета для команды разработки на следующий квартал. Ответ представь в виде маркированного списка.

Этот промпт эффективен благодаря прямому применению выводов исследования:

  1. Инжиниринг контекста: Блок [КОНТЕКСТ] работает как структурированная "карта данных" из статьи. Он дает модели всю необходимую вводную информацию: что за продукт, откуда данные, какие у него ключевые фичи. Это избавляет модель от необходимости гадать и позволяет сразу сфокусироваться на задаче, соотнося текст отзывов с известными ей особенностями приложения.
  2. Структурирование и примеры: Предоставление Примеров отзывов (аналог Sample rows из статьи) помогает модели понять формат и тональность данных, с которыми ей предстоит работать.
  3. "Чистый" и пошаговый запрос: Задача разбита на 4 последовательных шага. Вместо общего вопроса "Что улучшить?", мы используем безопасные формулировки: "определи, существуют ли повторяющиеся темы", "Если такие темы существуют...". Это аналог "clean query", который не делает предположений и ведет модель по логической цепочке, что, как показало исследование, значительно повышает точность.

Задача: Составить контент-план для блога эксперта по личным финансам.

Ты — опытный контент-маркетолог. Твоя задача — помочь эксперту по личным финансам разработать контент-план для его блога.

[КОНТЕКСТ]
**Эксперт:** Иван Петров, финансовый консультант.
**Целевая аудитория:** Молодые специалисты 25-35 лет, которые хотят начать инвестировать, но имеют ограниченные знания и бюджет.
**Основной посыл блога:** "Инвестиции — это просто и доступно каждому".
**Ключевые темы, в которых эксперт силен:**
- Бюджетирование и сбережения
- Основы фондового рынка (акции, облигации)
- Налоговые вычеты для инвесторов
- Психология денег
**Формат контента:** Статьи в блоге (1000-1500 слов) и короткие посты для Telegram.

[ЗАДАЧА]
Действуй по шагам:
1.  Проанализируй интересы и "боли" целевой аудитории, исходя из предоставленного контекста.
2.  Предложи 5 конкретных тем для статей в блог, которые бы отвечали на эти "боли" и соответствовали посылу блога.
3.  Для каждой из 5 тем напиши краткий план (3-4 пункта).
4.  Предложи 3 идеи для коротких постов в Telegram, которые могли бы анонсировать одну из этих статей или дополнить ее.

Этот промпт следует той же успешной логике, что и предыдущий, адаптируя принципы исследования для креативной задачи:

  1. Инжиниринг контекста: Блок [КОНТЕКСТ] четко очерчивает "игровое поле" для LLM. Модель знает, для кого она пишет (Целевая аудитория), какой главный месседж нужно донести (Основной посыл) и на какие сильные стороны эксперта можно опереться (Ключевые темы). Это предотвращает генерацию общих, нерелевантных идей и направляет креативность модели в нужное русло.
  2. Декомпозиция сложной задачи: Вместо абстрактной команды "Придумай контент-план", задача разбита на логические этапы: анализ аудитории -> генерация тем статей -> детализация тем -> генерация идей для другого формата. Этот "multi-step" подход, эффективность которого доказана в исследовании, заставляет модель рассуждать последовательно, что приводит к более продуманному и комплексному результату. Каждый следующий шаг логически вытекает из предыдущего, повышая общую согласованность ответа.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Очень высокая. Исследование вводит и тестирует концепцию "Context Engineering" (инжиниринг контекста) — структурированную подачу метаданных вместо "сырых" данных. Также анализируется влияние формулировок промпта (raw vs. clean queries) на результат, что напрямую относится к промпт-инжинирингу.
  • B. Улучшение качества диалоговых ответов: Высокое. Хотя исследование сфокусировано на генерации кода для анализа данных, его выводы универсальны. Принципы структурированного контекста и устранения двусмысленности/скрытых предположений ("data leakage") напрямую ведут к более точным и релевантным ответам в любых задачах.
  • C. Прямая практическая применимость: Высокая. Пользователь может немедленно применить концепцию "Context Engineering" без каких-либо инструментов, просто структурируя важную информацию в начале своего промпта. Техника "чистых запросов" (clean queries) также применяется сразу, меняя формулировку вопроса.
  • D. Концептуальная ценность: Очень высокая. Исследование дает пользователю мощную ментальную модель: LLM — это не всезнающий оракул, а мощный, но буквальный обработчик информации. Ему нужно помогать, предоставляя "карту" данных (контекст) и четкие, последовательные инструкции. Оно наглядно показывает, почему важна структура и точность в промпте.
  • E. Новая полезная практика (кластеризация): Работа попадает сразу в несколько ключевых кластеров:

    • #1 Техники формулирования промптов: Анализ "raw vs. clean" запросов и multi-step подходов.
    • #2 Поведенческие закономерности LLM: Демонстрирует чувствительность к "data leakage" (скрытым предположениям в промпте).
    • #3 Оптимизация структуры промптов: "Context Engineering" — это, по сути, продвинутый метод структурирования входных данных.
    • #6 Контекст и память: Предлагает эффективную стратегию работы с контекстом, когда сами данные слишком велики для окна модели.
    • #7 Надежность и стабильность: Показывает, как более точные формулировки снижают количество ошибок.
  • Чек-лист практичности (+15 баллов): Да, исследование дает готовые конструкции (структурированный контекст, "чистые" запросы), объясняет, как подавать важную информацию, как структурировать сложные запросы и раскрывает неочевидные особенности поведения LLM. +15 баллов к базовой оценке (70) = 85.

📌

Цифровая оценка полезности

Аргументы за оценку 85: Исследование вводит и доказывает эффективность двух чрезвычайно полезных практик для любого пользователя LLM: 1. "Инжиниринг контекста": Это формализация и название для того, что опытные пользователи делают интуитивно — готовят для LLM краткую, структурированную сводку по теме перед постановкой задачи. Работа дает четкую структуру, как это делать (см. Таблицу 3). 2. Борьба с "утечкой данных" в промпте: Пример с "raw" и "clean" запросами ("Среди умерших..." vs "Были ли смерти...") — это блестящая иллюстрация того, как наши неосознанные предположения в вопросе могут сбить модель с толку. Это учит пользователя формулировать запросы более чисто и логически последовательно.

Эти два вывода имеют огромную практическую ценность и могут быть немедленно применены в любой сфере, от написания отчетов до планирования путешествий, что делает исследование крайне полезным для широкой аудитории.

Контраргументы (почему оценка могла быть ниже): * Узкая специализация: Все эксперименты проводятся в области Data Science и генерации Python-кода. Неопытному пользователю может быть сложно абстрагироваться от pandas и matplotlib и увидеть универсальность этих принципов. * Академический фокус: Основная цель статьи — создание бенчмарка для оценки LLM-агентов, а не написание руководства по промптингу. Практические выводы являются скорее побочным продуктом анализа, а не его главной целью.


📋 Дайджест исследования

Ключевая суть

В запросе 'Назови топ-3 страны со стабильной рождаемостью' спрятана ловушка. Модель считает: раз спрашивают — значит такие страны точно есть. И уверенно называет несуществующие. Метод инжиниринга контекста (context engineering) позволяет давать модели структурированную 'карту' данных вместо сырого массива — и убирать скрытые допущения из запросов. Фишка: вместо 'назови топ-3' спрашивай 'найди подходящие, потом из них выбери топ-3' — первый вариант предполагает что нужные объекты уже существуют, второй — проверяет. Точность растёт, галлюцинации падают.

Принцип работы

Стандартный подход: бросить модели весь массив данных плюс один сложный вопрос. Итог — модель тонет в шуме и подтверждает то, что ожидает услышать пользователь. Инжиниринг контекста работает иначе. Сначала — блок [КОНТЕКСТ]: структурированное описание данных (что за данные, сколько записей, какие поля, 5 примеров строк). Потом — блок [ЗАДАЧА] с пошаговой декомпозицией без скрытых допущений. Каждый шаг — одно действие. Каждый следующий шаг логически вытекает из предыдущего. Модель не гадает что перед ней — она сразу понимает 'территорию' и идёт по чёткому маршруту.

Почему работает

Модель как навигатор без карты — не знает где ты, строит маршрут куда попало. Структурированный контекст — это и есть карта. Модель перестаёт угадывать структуру данных и тратить ресурс на ориентацию в шуме. Главное открытие: скрытые допущения в запросах — один из главных источников галлюцинаций при анализе данных. Спрашиваешь 'топ-3' — модель уверена что они есть и придумает их. Спрашиваешь 'найди, если существуют, потом выбери топ-3' — модель сначала проверяет, потом отвечает. Честно скажу: конкретных цифр улучшения в исследовании нет, но принцип про скрытые допущения — это реальный инсайт, который объясняет много привычных проблем.

Когда применять

Анализ структурированных данных: таблицы, отзывы, отчёты, базы — особенно когда задача содержит сортировку, фильтрацию или поиск топ-N из большого массива. Хорошо работает для задач типа: анализ отзывов, составление контент-плана на основе аудитории, разбор финансовых данных. НЕ подходит для простых вопросов без данных — там контекстный блок только раздует промпт без пользы.

Мини-рецепт

1. Создай блок [КОНТЕКСТ]: Опиши данные структурированно. Что за данные, откуда, сколько записей, какие поля или категории, 3-5 примеров строк. Не вали всё подряд — только карту.

2. Создай блок [ЗАДАЧА]: Разбей сложный вопрос на шаги. Каждый шаг — одно конкретное действие. Каждый следующий логически вытекает из предыдущего.

3. Убери скрытые допущения: Замени 'Назови топ-3 X' на 'Найди все X. Если они есть — выбери топ-3.' Замени 'Какие проблемы есть?' на 'Есть ли повторяющиеся темы? Если да — сгруппируй.'

4. Проверь перед отправкой: Перечитай задачу. Есть ли слова, которые предполагают, что ответ уже существует? Убери их или добавь 'если существуют'.

Примеры

[ПЛОХО] : Вот 200 отзывов на приложение. Назови три главные проблемы и что улучшить.
[ХОРОШО] : [КОНТЕКСТ] 200 отзывов из App Store за март. Оценки 1-5. Ключевые темы упоминаний: скорость, дизайн, цена, техподдержка. Примеры отзывов: 1. '5 звёзд: очень быстро работает', 2. '2 звезды: подписка дорогая', 3. '1 звезда: вылетает на старом телефоне'. [ЗАДАЧА] 1. Найди повторяющиеся темы в отзывах — если они есть. 2. Если темы найдены — сгруппируй их по категориям и для каждой дай 2 цитаты. 3. Если проблемных тем несколько — предложи 3 приоритета для команды разработки.
Источник: DSBC: Data Science task Benchmarking with Context Engineering
ArXiv ID: 2507.23336 | Сгенерировано: 2026-03-02 17:20

Проблемы LLM

ПроблемаСутьКак обойти
Скрытое допущение в вопросе вызывает галлюцинациюСпрашиваешь "назови топ-3 страны с самой стабильной рождаемостью". Модель слышит: такие страны точно есть, их точно три, найди их. Берёт допущение как факт. Если таких стран нет или их меньше трёх — придумает. Срабатывает на любом вопросе с неявным "это существует" или "их именно столько"Разбей на два шага. Шаг 1: "Найди страны со стабильной рождаемостью". Шаг 2: "Если такие есть — выбери топ-3". Первый шаг проверяет существование. Второй работает с реальным результатом, а не с допущением

Методы

МетодСуть
Блок [КОНТЕКСТ] с описанием данных вместо сырых данныхВместо того чтобы вставить тысячи строк данных — опиши их структуру. Формат: количество записей, поля и их типы, ключевые категории, временной диапазон, 3–5 примеров строк. Пример: Данные: 150 отзывов из App Store. Поля: оценка (1–5), текст. Ключевые темы: цена, технические ошибки, контент. Почему работает: Модель получает "карту местности" вместо самой местности. Не тратит ресурсы на чтение шума. Сразу понимает, где искать нужное. Сырые данные часто не помещаются в окно контекста или перегружают его. Метаданные — компактная замена. Когда применять: анализ документов, отзывов, таблиц, любых структурированных массивов. Когда не нужно: данные маленькие и легко читаются целиком
Двухэтапный запрос: сначала найди, потом выбериСоставные вопросы вида "назови лучшие три X" превращай в цепочку. Шаг 1 всегда проверяет существование: "Найди все X, которые подходят под условие Y". Шаг 2 работает с результатом: "Из найденных выбери топ-3 по критерию Z". Почему работает: Шаг 1 не предполагает ответа. Если ничего не найдено — модель скажет об этом. Шаг 2 получает реальный список, а не галлюцинацию. Применяй везде, где вопрос предполагает что объект уже существует
📖 Простыми словами

DSBC: бенчмаркинг задач науки о данных с контекстной инженерией

arXiv: 2507.23336

Суть в том, что современные LLM — это не просто калькуляторы текста, а контекстные процессоры. Исследование DSBC доказывает: модель выдает результат не на основе своих «знаний», а на основе того, как ты упаковал вводные данные. Если ты просто закинешь пачку отзывов и скажешь «проанализируй», нейронка выдаст общие фразы. Но стоит применить инженерию контекста, и она начинает видеть структуру там, где раньше был хаос. Это фундаментальный сдвиг от простого промптинга к архитектуре данных внутри запроса.

Это как если бы ты пришел к опытному аналитику и вывалил ему на стол гору мятых чеков, обрывков салфеток и скриншотов. Формально данные есть, но бедолага потратит кучу времени просто на то, чтобы понять, где тут дата, а где сумма. Метод DSBC — это когда ты приносишь те же данные, но уже разложенные по папкам, с цветными стикерами и четким ТЗ. В первом случае ты получишь раздраженное «ну, вроде продажи растут», во втором — детальный отчет по сегментам, потому что ты убрал когнитивную нагрузку с исполнителя.

В работе выделяют конкретный механизм: структурирование задачи через контекст. Когда ты анализируешь отзывы о приложении для медитации, ты не просто просишь «найти проблемы». Ты задаешь ролевую модель (менеджер продукта), определяешь границы анализа (только технические баги или юзабилити) и, главное, используешь разметку сущностей. Это заставляет модель не гадать, что важно, а фокусироваться на конкретных паттернах, которые ты заранее подсветил. В итоге точность выводов растет в разы, потому что ты буквально «прошил» логику решения в сам запрос.

Хотя исследование гоняли на задачах Data Science, этот принцип универсален. Он работает везде: от юридического аудита договоров до написания маркетинговых стратегий. Если ты понимаешь, как структурировать сырой поток информации, ты можешь заставить ChatGPT или Claude делать работу уровня крепкого мидла. Это уже не просто «чат с ботом», а программирование на естественном языке, где контекст выступает в роли жесткого каркаса для логики.

Короче: забудь про короткие промпты в одну строчку — это путь в никуда. Будущее за сложной инженерией контекста, где ты заранее выстраиваешь путь для мысли модели. Исследование DSBC подтверждает: чем лучше ты подготовил «сцену» для нейронки, тем меньше шансов, что она начнет галлюцинировать или лить воду. Либо ты учишься управлять контекстом, либо продолжаешь получать на выходе бесполезную фигню, которую стыдно показать начальству.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с