3,583 papers
arXiv:2606.12407 70 10 июня 2026 г. FREE

Принцип «всё вместе»: как способ подачи контекста меняет точность LLM больше, чем выбор специальной модели

КЛЮЧЕВАЯ СУТЬ
С 15% до 44% точности — без смены модели, без дообучения, только изменением формата запроса. Исследователи MIT и Harvard обнаружили: то, КАК ты подаёшь несколько фрагментов, важнее того, КАКУЮ модель используешь. Метод 'всё в одном' позволяет анализировать документы, скриншоты или изображения так, чтобы модель видела связи между ними — а не слепо голосовала по частям. Фишка: подай все фрагменты одним промптом и явно попроси искать паттерны — модель получает полную картину и сравнивает части между собой, а не выдаёт изолированный ответ на каждый кусок.
Адаптировать под запрос

TL;DR

Если у тебя несколько изображений, документов или фрагментов — не отправляй их по одному и не голосуй за ответы. Подай всё сразу в один промпт. Исследователи из MIT и Harvard обнаружили, что этот выбор меняет точность ответов радикальнее, чем переход на специализированные модели.

Главная находка: то, КАК ты подаёшь контекст, важнее того, КАКУЮ модель ты используешь. Типичная ошибка — это «режим голосования»: отправить каждую картинку отдельно, получить 30 независимых ответов, выбрать большинство. Модель при этом ни разу не видит картину целиком — она голосует вслепую, не сравнивая части между собой.

Альтернатива — «всё в одном» (All-in-One): все фрагменты идут в один промпт, модель рассуждает над ними совместно. На задачах классификации это подняло точность с 15% до 44% — без смены модели, без обучения, только изменением формата запроса. Второй принцип: широкий охват бьёт мелкую детализацию для большинства задач — крупные фрагменты с «птичьего взгляда» лучше, чем много мелких с максимальным увеличением.


🔬

Схема метода

НЕПРАВИЛЬНО (Majority Vote):
  Фрагмент 1 → Запрос 1 → Ответ 1
  Фрагмент 2 → Запрос 2 → Ответ 2   → Голосование → Итог
  Фрагмент N → Запрос N → Ответ N
  (Модель НИКОГДА не видит всё вместе)

ПРАВИЛЬНО (All-in-One):
  Фрагмент 1 + Фрагмент 2 + ... + Фрагмент N
                        ↓
                 Один промпт
                        ↓
           Совместное рассуждение → Итог
  (Модель видит полную картину и СРАВНИВАЕТ части)

Оба варианта работают в обычном чате — никакого кода не нужно.


🚀

Пример применения

⚠️ Метод силён там, где нужно сравнивать и классифицировать. Слабее там, где нужна ювелирная детализация одного объекта.


Задача: Ты продакт-менеджер в стартапе. Нужно понять, куда движется конкурент — Wildberries или Ozon — на основе 8 скриншотов их новых экранов из App Store.

Промпт (неправильный подход):

[Скриншот 1] Что здесь изменилось?
...затем отдельно...
[Скриншот 2] Что здесь изменилось?
...и потом вручную собираешь картину

Промпт (правильный подход):

Вот 8 скриншотов обновлённого приложения Ozon — все сразу.

[Скриншот 1] [Скриншот 2] [Скриншот 3] [Скриншот 4]
[Скриншот 5] [Скриншот 6] [Скриншот 7] [Скриншот 8]

Смотри на них вместе, не по отдельности. Что объединяет эти изменения? 
На какую аудиторию или стратегический сдвиг это указывает? 
Какие паттерны повторяются в нескольких экранах сразу?

Результат: Модель увидит повторяющиеся паттерны, сравнит стиль между экранами, заметит сквозные изменения в навигации или тональности. При раздельной подаче каждый ответ будет изолированным — сравнительный анализ пропадает.


🧠

Почему это работает

Слабость LLM при раздельной обработке: Когда модель видит каждый фрагмент отдельно, у неё нет возможности сравнивать. Она выдаёт локальный ответ без глобального контекста. Потом ты голосуешь «большинством» — но большинство частичных ответов не равно одному правильному.

Сильная сторона LLM: Модель хорошо умеет удерживать несколько объектов в контексте и рассуждать о связях между ними. Это её главная сила — и именно эту силу убивает раздельная подача.

Как метод использует сильное против слабого: Joint inference (совместная обработка) активирует именно ту способность модели, которая ценна: сравнение, нахождение паттернов, синтез из нескольких источников. Вместо 20 слепых голосов — одно зрячее рассуждение.

Рычаги управления: - Количество фрагментов — больше лучше. Исследование показало, что прирост точности останавливается примерно на 20 единицах контекста. Не надо грузить 50 скриншотов. - Уровень детализации — для задач «что это такое?» лучше широкий взгляд. Для задач «найди конкретный дефект» — зум. - Явное указание сравнивать — добавь в промпт «смотри на них вместе» или «найди, что общего». Это активирует совместное рассуждение.


📋

Шаблон промпта

Вот {количество} {тип контента} — смотри на них вместе, а не по отдельности.

{контент 1}
{контент 2}
...
{контент N}

Задача: {задача}

При анализе:
— Ищи паттерны и связи, которые видны только при взгляде на всё сразу
— Сравни {что сравнивать} между фрагментами
— Сделай вывод на основе общей картины, не отдельных частей

Плейсхолдеры: - {количество} — сколько фрагментов (оптимально 5-20) - {тип контента} — скриншотов / страниц PDF / отзывов / фрагментов текста - {задача} — что нужно понять или решить - {что сравнивать} — конкретный аспект: тональность, структуру, визуальный стиль


⚠️

Ограничения

⚠️ Задачи с мелкой детализацией: Для задач, где важен масштаб «под микроскопом» — например, найти конкретную ошибку в коде или точный дефект на фото — широкий охват работает хуже. Нужно зумировать.

⚠️ Контекстное окно: Если фрагментов слишком много или они слишком длинные — не всё влезет. Модель начнёт «забывать» ранние фрагменты. Тестируй на 5-10 сначала.

⚠️ Неоднородные задачи: Когда каждый фрагмент требует ответа на разный вопрос, совместный промпт может запутать модель. Метод лучше всего работает когда ты ищешь одно общее — паттерн, категорию, вывод.

⚠️ Применимость вне визуального контента: Исследование проводилось на изображениях. Принцип логично переносится на тексты и документы, но это экстраполяция, не прямое доказательство.


🔍

Как исследовали

Команда из MIT, Harvard Medical School и Dana-Farber взялась за вопрос: насколько правильно мы тестируем обычные LLM на медицинских задачах? Взяли патологические снимки опухолей — гигапиксельные изображения тканей — и прогнали GPT-5 через 72 разные конфигурации подачи: разные размеры фрагментов (224 px vs. 1024 px), разное увеличение (5× против 20×), разное количество фрагментов (10, 20 или 30), и два способа обработки — по одному или все вместе.

Результат удивил: стандартный способ тестирования (маленькие фрагменты, высокое увеличение, обработка по одному) систематически занижал возможности обычных моделей. Когда переключились на оптимальную конфигурацию, точность GPT-5 на классификации типа рака прыгнула с 15% до 44% — без смены модели, без дообучения. Специализированные модели для патологии, которые до этого казались явными победителями — на самом деле просто тестировались против плохо настроенного baseline.

Особенно показательно, что результат воспроизвёлся на двух других моделях (Gemini и Qwen) и на данных, которые исследователи вообще не смотрели во время экспериментов. Это не переобучение под датасет — это устойчивый принцип.


💡

Адаптации и экстраполяции

💡 Адаптация для анализа текстов: Тот же принцип работает для текстовых фрагментов — например, если анализируешь несколько отзывов клиентов или несколько версий текста.

Вот 10 отзывов на наш продукт — читай их вместе как единый массив, 
не давай оценку каждому по отдельности.

{отзыв 1}
{отзыв 2}
...
{отзыв 10}

Что объединяет негативные отзывы? Какой паттерн боли повторяется 
в нескольких отзывах сразу, но не бросается в глаза при чтении по одному?

🔧 Техника: явное разграничение режима анализа

Иногда модель начинает отвечать на каждый фрагмент по очереди вместо совместного анализа. Добавь явный запрет:

НЕ анализируй каждый фрагмент отдельно и НЕ давай список ответов на каждый.
Сделай ОДИН вывод на основе всего массива сразу.

🔧 Принцип детализации под задачу:

Задача Правильный уровень
Классифицировать / категоризировать Широкий охват, меньше деталей
Найти конкретную ошибку/дефект Узкий фрагмент, максимум деталей
Понять стратегию/паттерн Широкий охват
Проверить конкретный факт Точный кусок с контекстом

🔗

Ресурсы

Работа: How Seemingly Inconsequential Design Choices Dictate Performance of LLMs in Pathology

Авторы: Kian R. Weihrauch, Thomas A. Buckley, William Lotter, Arjun K. Manrai

Организации: Massachusetts Institute of Technology; Harvard Medical School; Dana-Farber Cancer Institute

Контакт: Arjun_Manrai@hms.harvard.edu

Бенчмарк: MultiPathQA (934 вопроса по патологии: GTEx, TCGA, PANDA, SlideBench, ExpertVQA)

Другие упомянутые системы: GIANT framework, SlideChat, MedGemma 1.5, PathAgent


📋 Дайджест исследования

Ключевая суть

С 15% до 44% точности — без смены модели, без дообучения, только изменением формата запроса. Исследователи MIT и Harvard обнаружили: то, КАК ты подаёшь несколько фрагментов, важнее того, КАКУЮ модель используешь. Метод 'всё в одном' позволяет анализировать документы, скриншоты или изображения так, чтобы модель видела связи между ними — а не слепо голосовала по частям. Фишка: подай все фрагменты одним промптом и явно попроси искать паттерны — модель получает полную картину и сравнивает части между собой, а не выдаёт изолированный ответ на каждый кусок.

Принцип работы

Стандартная ошибка — режим голосования: 20 фрагментов, 20 отдельных запросов, выбираешь мнение большинства. Модель ни разу не видит всё вместе — значит, никакого сравнения. Она голосует вслепую. Совместное рассуждение работает иначе: все фрагменты в одном промпте — модель видит полную картину и находит сквозные паттерны. Это как разница между 20 свидетелями, каждый из которых видел один угол комнаты, — и одним детективом, который осмотрел всю сцену целиком.

Почему работает

LLM хороша ровно в одном: удерживать несколько объектов в голове и рассуждать о связях между ними. Раздельная подача убивает именно эту способность — остаётся только локальная оценка без глобального контекста. При этом больше не значит лучше: прирост точности останавливается примерно на 20 фрагментах, после чего модель начинает 'забывать' ранние части. Исследование проводилось на изображениях в медицинской патологии — но принцип совместного рассуждения работает для любого мультимодального анализа.

Когда применять

Для анализа нескольких источников сразу — конкурентные скриншоты, страницы документов, отзывы пользователей, фрагменты кода — особенно когда нужно найти общий паттерн или сделать сравнительный вывод. Не подходит для задач, где важна детальная точность по одному объекту: найти конкретную ошибку в строке кода или точный дефект на фотографии — там нужен зум, а не широкий охват.

Мини-рецепт

1. Собери всё в одно сообщение: скриншоты, страницы PDF, текстовые куски — оптимально 5-20 фрагментов, не 50+. Больше — хуже.
2. Явно скажи смотреть вместе: добавь в промпт фразу 'смотри на них вместе, не по отдельности'.
3. Попроси искать связи: 'найди паттерны, которые видны только при взгляде на всё сразу'.
4. Уточни что сравнивать: тональность, структуру, визуальный стиль — конкретный аспект, иначе модель будет описывать каждый фрагмент отдельно по привычке.

Примеры

[ПЛОХО] : Отправляешь каждый скриншот отдельно — Что изменилось на этом экране? — и так восемь раз подряд, потом вручную собираешь картину из ответов.
[ХОРОШО] : Вот 8 скриншотов обновлённого приложения Ozon — смотри на них вместе, не по отдельности. [Скриншот 1][Скриншот 2][Скриншот 3][Скриншот 4][Скриншот 5][Скриншот 6][Скриншот 7][Скриншот 8] Какие паттерны повторяются в нескольких экранах? Что объединяет эти изменения? На какую аудиторию или стратегический сдвиг это указывает? Модель увидит сквозные изменения в навигации, сравнит тональность между экранами, заметит повторяющиеся элементы. При раздельной подаче каждый ответ изолирован — сравнительный анализ пропадает.
Источник: How Seemingly Inconsequential Design Choices Dictate Performance of LLMs in Pathology
ArXiv ID: 2606.12407 | Сгенерировано: 2026-06-11 05:23

Проблемы LLM

ПроблемаСутьКак обойти
Раздельная подача убивает сравнительный анализОтправляешь 10 документов по одному. Модель отвечает на каждый изолированно. Потом берёшь ответы большинства. Проблема: модель ни разу не видела всё вместе. Она не сравнивала части между собой. Голосование по частичным ответам не равно одному правильному ответу. Работает плохо для любых задач где нужно найти паттерн, категорию, общий выводОтправь все фрагменты одним запросом. Добавь явное указание: "смотри на них вместе, а не по отдельности". Модель получит возможность сравнивать

Методы

МетодСуть
Все фрагменты в один запрос — совместное рассуждениеСобери все части в один промпт. Изображения, тексты, документы — всё сразу. Шаблон: Вот {N} {тип контента} — смотри на них вместе. {контент 1} {контент 2} ... Задача: {задача}. Ищи паттерны между фрагментами, сравни {аспект}, сделай вывод на основе общей картины. Почему работает: модель умеет удерживать несколько объектов в контексте и рассуждать о связях. При раздельной подаче эта способность не задействуется. Один совместный запрос активирует сравнение вместо 20 изолированных ответов. Когда применять: поиск паттернов, классификация, синтез из нескольких источников. Когда не работает: нужна детализация одного объекта; неоднородные задачи (каждый фрагмент требует своего вопроса)

Тезисы

ТезисКомментарий
Способ подачи контекста влияет на точность сильнее, чем выбор моделиОдна и та же модель даёт качественно разные результаты в зависимости от формата запроса. Смена формата (раздельно всё вместе) даёт больший прирост, чем переход на специализированную модель. Механика: модель не становится умнее, но получает возможность использовать свою главную силу — рассуждение над несколькими объектами сразу. Применяй: перед сменой модели проверь, оптимален ли формат подачи
📖 Простыми словами

How Seemingly Inconsequential Design Choices Dictate Performance ofLLMsin Pathology

arXiv: 2606.12407

Суть в том, что современные нейронки — это не магические оракулы, а капризные процессоры, чья эффективность на 90% зависит от того, как ты «нарезал» им задачу. Исследователи из MIT и Гарварда копнули в медицинскую диагностику и обнаружили фундаментальный баг в логике пользователей: мы привыкли дробить сложные данные на части, чтобы модели было «проще». На деле всё ровно наоборот. Когда ты скармливаешь AI куски информации по отдельности, ты убиваешь глобальный контекст, превращая мощный интеллект в близорукого крота, который видит только то, что у него под носом.

Это как собирать пазл из тысячи деталей, когда тебе показывают по одной картинке в минуту и сразу прячут её в коробку. Ты формально видишь все элементы, но никогда не поймешь, что нарисовано в целом, потому что не можешь сопоставить края. В итоге ты гадаешь на кофейной гуще, хотя все ответы у тебя на руках. Модель в таком режиме просто теряет способность к сравнительному анализу, выдавая случайные попадания вместо осознанного вывода.

Работает только один метод: единый контекстный промпт. Вместо того чтобы заставлять модель анализировать пять слайдов по очереди и потом суммировать результаты, нужно запихнуть всё в одно окно. Когда AI видит всю панораму данных разом, включается механизм сопоставления, который в разы точнее любых «голосований большинством». Цифры говорят сами за себя: правильная компоновка промпта дает больший прирост точности, чем переход на дорогущие специализированные модели.

Хотя тест проводили на сложных патологических снимках, этот принцип — абсолютный стандарт для любой работы с данными. Будь то пачка юридических договоров, финансовые отчеты или отзывы клиентов — никогда не проси AI анализировать их поштучно. Если нужно найти аномалию или выбрать лучший вариант, модель должна видеть всё поле боя целиком. GEO и RAG-системы лажают именно здесь: они выдергивают куски, теряя связь между ними, и в итоге выдают уверенную, но бесполезную чепуху.

Короче, завязывай с дроблением задач и попытками «помочь» модели, скармливая ей инфу по чайной ложке. Главный вывод исследования: архитектура подачи данных важнее, чем крутизна самой нейронки. Либо ты даешь модели всю картину сразу, либо получаешь результат уровня «пальцем в небо». Хочешь адекватный ответ — грузи всё в один промпт, иначе даже самая умная модель превратится в бесполезную игрушку.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с