TL;DR
Если у тебя несколько изображений, документов или фрагментов — не отправляй их по одному и не голосуй за ответы. Подай всё сразу в один промпт. Исследователи из MIT и Harvard обнаружили, что этот выбор меняет точность ответов радикальнее, чем переход на специализированные модели.
Главная находка: то, КАК ты подаёшь контекст, важнее того, КАКУЮ модель ты используешь. Типичная ошибка — это «режим голосования»: отправить каждую картинку отдельно, получить 30 независимых ответов, выбрать большинство. Модель при этом ни разу не видит картину целиком — она голосует вслепую, не сравнивая части между собой.
Альтернатива — «всё в одном» (All-in-One): все фрагменты идут в один промпт, модель рассуждает над ними совместно. На задачах классификации это подняло точность с 15% до 44% — без смены модели, без обучения, только изменением формата запроса. Второй принцип: широкий охват бьёт мелкую детализацию для большинства задач — крупные фрагменты с «птичьего взгляда» лучше, чем много мелких с максимальным увеличением.
Схема метода
НЕПРАВИЛЬНО (Majority Vote):
Фрагмент 1 → Запрос 1 → Ответ 1
Фрагмент 2 → Запрос 2 → Ответ 2 → Голосование → Итог
Фрагмент N → Запрос N → Ответ N
(Модель НИКОГДА не видит всё вместе)
ПРАВИЛЬНО (All-in-One):
Фрагмент 1 + Фрагмент 2 + ... + Фрагмент N
↓
Один промпт
↓
Совместное рассуждение → Итог
(Модель видит полную картину и СРАВНИВАЕТ части)
Оба варианта работают в обычном чате — никакого кода не нужно.
Пример применения
⚠️ Метод силён там, где нужно сравнивать и классифицировать. Слабее там, где нужна ювелирная детализация одного объекта.
Задача: Ты продакт-менеджер в стартапе. Нужно понять, куда движется конкурент — Wildberries или Ozon — на основе 8 скриншотов их новых экранов из App Store.
Промпт (неправильный подход):
[Скриншот 1] Что здесь изменилось?
...затем отдельно...
[Скриншот 2] Что здесь изменилось?
...и потом вручную собираешь картину
Промпт (правильный подход):
Вот 8 скриншотов обновлённого приложения Ozon — все сразу.
[Скриншот 1] [Скриншот 2] [Скриншот 3] [Скриншот 4]
[Скриншот 5] [Скриншот 6] [Скриншот 7] [Скриншот 8]
Смотри на них вместе, не по отдельности. Что объединяет эти изменения?
На какую аудиторию или стратегический сдвиг это указывает?
Какие паттерны повторяются в нескольких экранах сразу?
Результат: Модель увидит повторяющиеся паттерны, сравнит стиль между экранами, заметит сквозные изменения в навигации или тональности. При раздельной подаче каждый ответ будет изолированным — сравнительный анализ пропадает.
Почему это работает
Слабость LLM при раздельной обработке: Когда модель видит каждый фрагмент отдельно, у неё нет возможности сравнивать. Она выдаёт локальный ответ без глобального контекста. Потом ты голосуешь «большинством» — но большинство частичных ответов не равно одному правильному.
Сильная сторона LLM: Модель хорошо умеет удерживать несколько объектов в контексте и рассуждать о связях между ними. Это её главная сила — и именно эту силу убивает раздельная подача.
Как метод использует сильное против слабого: Joint inference (совместная обработка) активирует именно ту способность модели, которая ценна: сравнение, нахождение паттернов, синтез из нескольких источников. Вместо 20 слепых голосов — одно зрячее рассуждение.
Рычаги управления: - Количество фрагментов — больше ≠ лучше. Исследование показало, что прирост точности останавливается примерно на 20 единицах контекста. Не надо грузить 50 скриншотов. - Уровень детализации — для задач «что это такое?» лучше широкий взгляд. Для задач «найди конкретный дефект» — зум. - Явное указание сравнивать — добавь в промпт «смотри на них вместе» или «найди, что общего». Это активирует совместное рассуждение.
Шаблон промпта
Вот {количество} {тип контента} — смотри на них вместе, а не по отдельности.
{контент 1}
{контент 2}
...
{контент N}
Задача: {задача}
При анализе:
— Ищи паттерны и связи, которые видны только при взгляде на всё сразу
— Сравни {что сравнивать} между фрагментами
— Сделай вывод на основе общей картины, не отдельных частей
Плейсхолдеры:
- {количество} — сколько фрагментов (оптимально 5-20)
- {тип контента} — скриншотов / страниц PDF / отзывов / фрагментов текста
- {задача} — что нужно понять или решить
- {что сравнивать} — конкретный аспект: тональность, структуру, визуальный стиль
Ограничения
⚠️ Задачи с мелкой детализацией: Для задач, где важен масштаб «под микроскопом» — например, найти конкретную ошибку в коде или точный дефект на фото — широкий охват работает хуже. Нужно зумировать.
⚠️ Контекстное окно: Если фрагментов слишком много или они слишком длинные — не всё влезет. Модель начнёт «забывать» ранние фрагменты. Тестируй на 5-10 сначала.
⚠️ Неоднородные задачи: Когда каждый фрагмент требует ответа на разный вопрос, совместный промпт может запутать модель. Метод лучше всего работает когда ты ищешь одно общее — паттерн, категорию, вывод.
⚠️ Применимость вне визуального контента: Исследование проводилось на изображениях. Принцип логично переносится на тексты и документы, но это экстраполяция, не прямое доказательство.
Как исследовали
Команда из MIT, Harvard Medical School и Dana-Farber взялась за вопрос: насколько правильно мы тестируем обычные LLM на медицинских задачах? Взяли патологические снимки опухолей — гигапиксельные изображения тканей — и прогнали GPT-5 через 72 разные конфигурации подачи: разные размеры фрагментов (224 px vs. 1024 px), разное увеличение (5× против 20×), разное количество фрагментов (10, 20 или 30), и два способа обработки — по одному или все вместе.
Результат удивил: стандартный способ тестирования (маленькие фрагменты, высокое увеличение, обработка по одному) систематически занижал возможности обычных моделей. Когда переключились на оптимальную конфигурацию, точность GPT-5 на классификации типа рака прыгнула с 15% до 44% — без смены модели, без дообучения. Специализированные модели для патологии, которые до этого казались явными победителями — на самом деле просто тестировались против плохо настроенного baseline.
Особенно показательно, что результат воспроизвёлся на двух других моделях (Gemini и Qwen) и на данных, которые исследователи вообще не смотрели во время экспериментов. Это не переобучение под датасет — это устойчивый принцип.
Адаптации и экстраполяции
💡 Адаптация для анализа текстов: Тот же принцип работает для текстовых фрагментов — например, если анализируешь несколько отзывов клиентов или несколько версий текста.
Вот 10 отзывов на наш продукт — читай их вместе как единый массив,
не давай оценку каждому по отдельности.
{отзыв 1}
{отзыв 2}
...
{отзыв 10}
Что объединяет негативные отзывы? Какой паттерн боли повторяется
в нескольких отзывах сразу, но не бросается в глаза при чтении по одному?
🔧 Техника: явное разграничение режима анализа
Иногда модель начинает отвечать на каждый фрагмент по очереди вместо совместного анализа. Добавь явный запрет:
НЕ анализируй каждый фрагмент отдельно и НЕ давай список ответов на каждый.
Сделай ОДИН вывод на основе всего массива сразу.
🔧 Принцип детализации под задачу:
| Задача | Правильный уровень |
|---|---|
| Классифицировать / категоризировать | Широкий охват, меньше деталей |
| Найти конкретную ошибку/дефект | Узкий фрагмент, максимум деталей |
| Понять стратегию/паттерн | Широкий охват |
| Проверить конкретный факт | Точный кусок с контекстом |
Ресурсы
Работа: How Seemingly Inconsequential Design Choices Dictate Performance of LLMs in Pathology
Авторы: Kian R. Weihrauch, Thomas A. Buckley, William Lotter, Arjun K. Manrai
Организации: Massachusetts Institute of Technology; Harvard Medical School; Dana-Farber Cancer Institute
Контакт: Arjun_Manrai@hms.harvard.edu
Бенчмарк: MultiPathQA (934 вопроса по патологии: GTEx, TCGA, PANDA, SlideBench, ExpertVQA)
Другие упомянутые системы: GIANT framework, SlideChat, MedGemma 1.5, PathAgent
