TL;DR
Исследование SGI-Bench разбивает научный процесс на 4 стадии и тестирует как LLM справляются с каждой. Deliberation (изучение литературы и синтез знаний), Conception (генерация методологии), Action (выполнение экспериментов — код или лабораторные протоколы), Perception (анализ результатов). Модель основана на Practical Inquiry Model — теоретическом фреймворке научного познания. Исследователи создали бенчмарк на 1000+ экспертных задач из 10 научных дисциплин, вдохновлённых списком "125 больших вопросов науки 21 века" журнала Science.
Главные находки про слабости LLM в научных задачах: модели хорошо находят информацию, но плохо делают количественные расчёты (точность <20% в задачах с числами). В генерации методологии не хватает конкретики — шаги описаны размыто, нет проверок реализуемости. В коде синтаксис правильный, но результаты вычислений часто неверны. В лабораторных протоколах путают последовательность действий, пропускают шаги. В анализе результатов лучше с причинными связями, хуже со сравнительным анализом. Даже лучшие закрытые модели получили ~30/100 по общему SGI-Score.
Практический вывод: структурируй сложные исследовательские задачи по 4 стадиям — сначала изучение, потом методология, потом выполнение, потом анализ. На каждой стадии компенсируй слабости: требуй единицы измерения и пошаговые расчёты при работе с числами, требуй детальную проработку каждого шага методологии, проверяй код на тестовых данных, требуй явную последовательность действий в протоколах с условиями перехода.
Схема 4-стадийной модели
СТАДИЯ 1 — Deliberation (Изучение):
Поиск источников → Синтез знаний → Проверка фактов и расчётов
[Слабость: количественные расчёты, точность <20%]
СТАДИЯ 2 — Conception (Методология):
Формулировка идеи → Дизайн метода → Проработка деталей
[Слабость: размытые шаги, нет проверки реализуемости]
СТАДИЯ 3 — Action (Выполнение):
Dry (код): Написание → Отладка → Запуск → Проверка результатов
Wet (протокол): Планирование → Последовательность → Параметры
[Слабость: код работает, но результаты неверны; протоколы с пропущенными шагами]
СТАДИЯ 4 — Perception (Анализ):
Интерпретация данных → Причинные связи → Выводы
[Слабость: сравнительный анализ хуже причинного]
Важно: Это не линейный процесс — стадии могут повторяться итеративно.
Пример применения
⚠️ Метод для исследовательских задач, где нужна системная проработка. Не для простых вопросов или креативных задач без фактической базы.
Задача: Разобраться можно ли запустить тёмную кухню (dark kitchen) с доставкой здорового питания в спальном районе Москвы — проанализировать рынок, проверить гипотезу, посчитать юнит-экономику.
Промпт:
Помоги разобрать бизнес-идею по 4 стадиям научного подхода:
**ИДЕЯ:** Тёмная кухня (dark kitchen) с доставкой здорового питания
в спальном районе Москвы (например, Бутово или Марьино).
**СТАДИЯ 1 — Deliberation (Изучение):**
- Изучи рынок здорового питания в Москве: объём, конкуренты, средний чек
- Найди данные по спальным районам: плотность населения, доход, привычки заказа еды
- ОБЯЗАТЕЛЬНО: все цифры с источниками и единицами (₽, чел., %)
**СТАДИЯ 2 — Conception (Методология):**
- Опиши пошагово как проверить спрос: какие действия, какие данные собрать
- Для КАЖДОГО шага укажи: что делать, сколько времени, какой результат ожидать
- Проверка реализуемости: что может пойти не так на каждом шаге
**СТАДИЯ 3 — Action (Выполнение):**
- Построй модель юнит-экономики в виде простых формул
- Укажи последовательность действий для MVP: что делать день 1, день 2, и т.д.
- ОБЯЗАТЕЛЬНО: условия перехода к следующему действию
**СТАДИЯ 4 — Perception (Анализ):**
- Какие метрики смотреть, чтобы понять работает ли идея
- Какие результаты = успех, какие = провал
- Причинные связи: что влияет на что в этой бизнес-модели
Результат:
Модель выдаст структурированный анализ по 4 блокам. В первом — цифры рынка с источниками (но проверь расчёты вручную, LLM слаба в арифметике). Во втором — пошаговый план валидации с конкретными действиями и критериями перехода. В третьем — последовательность для MVP и формулы юнит-экономики (код или расчёты — обязательно проверь на тестовых данных). В четвёртом — метрики успеха и схема причинно-следственных связей. Каждая стадия компенсирует типичную слабость LLM через явные требования: единицы измерения, детализация шагов, условия перехода, проверки.
Почему это работает
LLM хорошо находят паттерны в тексте, но плохо делают точные расчёты — модель может вспомнить что средний чек в Москве "около 500 рублей", но если нужно посчитать маржинальность по формуле (выручка - переменные издержки) / выручка × 100%, может ошибиться в арифметике. Поэтому в стадии Deliberation мы требуем не просто "найди данные", а "все цифры с единицами измерения и источниками" — это триггерит более аккуратный режим и позволяет проверить расчёты вручную.
LLM генерируют размытые планы без детализации — на вопрос "как проверить спрос?" модель может ответить "1. Изучи конкурентов 2. Опроси людей 3. Сделай MVP", но не объяснит КАК именно опросить, сколько человек, какие вопросы задать. Поэтому в стадии Conception мы требуем "для КАЖДОГО шага: что делать, сколько времени, какой результат" — это заставляет модель раскрыть абстрактные команды в конкретные действия. Добавляем "проверка реализуемости: что может пойти не так" — модель не будет предлагать нереальные шаги.
Четырёхстадийная структура использует сильную сторону LLM — работу с явными структурами. Когда говоришь "разбери по 4 стадиям" с названиями, модель активирует паттерн методичной проработки вместо хаотичного потока мыслей. Это как в Chain-of-Thought — явная структура улучшает качество рассуждений. Плюс разбиение большой задачи на 4 блока снижает когнитивную нагрузку на модель — каждый блок решает узкую подзадачу.
Рычаги управления:
- Требования к числам ("с единицами", "с источниками") → убери если нужна быстрая прикидка без точности
- Детализация шагов ("для КАЖДОГО шага") → убери для простых задач, сэкономишь токены
- Проверки реализуемости → замени на "проверка безопасности" для медицинских задач или "проверка легальности" для юридических
- Условия перехода в стадии Action → замени на "условия отката" если нужен план с запасными вариантами
- Число стадий → можешь использовать только 2-3 стадии, если задача не требует полного цикла
Шаблон промпта
Помоги разобрать задачу по 4 стадиям научного подхода:
**ЗАДАЧА:** {опиши задачу — исследовательский вопрос, бизнес-идею, технический эксперимент}
**СТАДИЯ 1 — Deliberation (Изучение):**
- Изучи {что нужно изучить: рынок, литературу, данные, аналоги}
- Найди данные по {конкретные параметры}
- ОБЯЗАТЕЛЬНО: все цифры с источниками и единицами измерения
**СТАДИЯ 2 — Conception (Методология):**
- Опиши пошагово как {что проверить/реализовать}
- Для КАЖДОГО шага укажи: что делать, сколько времени, какой результат ожидать
- Проверка реализуемости: что может пойти не так на каждом шаге
**СТАДИЯ 3 — Action (Выполнение):**
- {Если код: построй модель/алгоритм в виде формул или псевдокода}
- {Если протокол: укажи последовательность действий с условиями перехода}
- ОБЯЗАТЕЛЬНО: как проверить корректность на каждом шаге
**СТАДИЯ 4 — Perception (Анализ):**
- Какие метрики смотреть, чтобы понять {критерий успеха}
- Какие результаты = успех, какие = провал
- Причинные связи: что влияет на что в этой {системе/процессе/модели}
Плейсхолдеры:
- {опиши задачу} — исследовательский вопрос, бизнес-идея, технический эксперимент, аналитическая задача
- {что нужно изучить} — рынок, литература, данные, аналоги, существующие решения
- {конкретные параметры} — объём рынка, технические характеристики, статистика, кейсы
- {что проверить/реализовать} — гипотезу, идею, метод, алгоритм
- {Если код / Если протокол} — выбери что подходит: код для вычислительных задач, протокол для последовательных действий
- {критерий успеха} — что именно хочешь проверить/достичь
- {системе/процессе/модели} — в чём ищешь закономерности
🚀 Быстрый старт — вставь в чат:
Вот шаблон 4-стадийной модели научного процесса. Адаптируй под мою задачу: [твоя задача].
Задавай уточняющие вопросы, чтобы заполнить поля под мой контекст.
[вставить шаблон выше]
LLM спросит что именно изучать на стадии Deliberation, какой результат ожидать на стадии Conception, какой формат нужен на стадии Action (код или протокол) — потому что каждая стадия требует конкретики под твою задачу. Она возьмёт паттерн из шаблона и адаптирует: если задача бизнес-аналитика — спросит про метрики и рынок, если техническая — про алгоритмы и тесты.
Ограничения
⚠️ Не для простых задач: Если вопрос решается за один шаг — 4 стадии избыточны, потратишь токены впустую. Метод для задач где нужна системная проработка: исследования, проверка гипотез, дизайн методологии, анализ сложных систем.
⚠️ Числа всё равно проверяй: Модель стала аккуратнее с единицами измерения и источниками, но точность расчётов <20% по исследованию. Если в задаче критичны цифры (финансы, научные расчёты) — проверяй арифметику вручную или в калькуляторе.
⚠️ Код работает, результаты могут быть неверны: Если в стадии Action модель генерирует код — синтаксис будет правильный, но логика вычислений может быть некорректной. Обязательно тестируй на известных данных, где знаешь правильный ответ.
⚠️ Не заменяет экспертизу: Модель структурирует мышление, но не знает нюансов твоей предметной области. В сложных научных или бизнес-задачах результаты — это черновик для доработки экспертом, не финальное решение.
Как исследовали
Создание бенчмарка: Исследователи из Shanghai AI Lab построили SGI-Bench — датасет из 1000+ задач по 10 научным дисциплинам (астрономия, химия, науки о Земле, энергетика, информатика, биология, материаловедение, нейронаука, физика, математика). Задачи вдохновлены списком "125 больших вопросов для 21 века" из журнала Science. Материалы взяты из топовых журналов Nature, Science, Cell. Процесс: многораундовое сотрудничество с экспертами → аннотация PhD-исследователями → проверка моделями → rule-based консистентность.
Система оценки: Обычный "LLM-as-a-judge" не справлялся с разнообразием метрик, поэтому создали Agent-as-a-judge framework. Агент с инструментами: веб-поиск, Python-интерпретатор, чтение файлов, парсинг PDF, специфичные для дисциплин метрики. 4 стадии работы агента: выбор вопросов → кастомизация метрик → инференс и оценка → генерация отчёта.
Что тестировали: GPT-4, Claude, Gemini, открытые модели (Qwen, DeepSeek, LLaMA). Задачи разбиты на 4 типа:
Deep Research (Deliberation) — 4 подтипа задач: Data (поиск данных в литературе), Properties (характеристики материалов/молекул), Micro-experiments (небольшие контролируемые эксперименты), Macro-experiments (крупномасштабные события типа астрономических). Метрики: точное совпадение (exact match), совпадение по шагам (step-level), релевантность источников.
Idea Generation (Conception) — генерация методологии исследования. Модель получает задачу и должна сгенерировать структурированную идею: название, описание, данные, метод, оценка, ожидаемые результаты. Метрики: эффективность (effectiveness), новизна (novelty), детальность (elaboration), реализуемость (feasibility).
Dry Experiment (Action — код) — задачи типа code completion: модель получает научный код с замаскированными функциями и должна восстановить их. 6 типов функций: численные расчёты, статистический анализ, симуляции, вычисление метрик, обработка данных, предиктивное моделирование. Метрики: исполняемость кода (executability), точность результатов (execution result accuracy).
Wet Experiment (Action — протокол) — планирование лабораторных процедур. Модель получает описание эксперимента и набор возможных действий (action space), должна составить последовательность шагов с параметрами. Метрики: sequence fidelity (совпадение последовательности), parameter accuracy (точность параметров).
Experimental Reasoning (Perception) — анализ экспериментальных результатов из изображений (графики, диаграммы, микроскопия). 4 типа рассуждений: перцептивное (perceptual — считывание данных с графика), дескриптивное (descriptive — описание паттернов), сравнительное (comparative — сравнение групп), причинное (causal — выводы о механизмах). Мультимодальные модели (GPT-4V, Gemini-Vision, Qwen-VL).
Главные цифры:
- Deep Research: exact match 10-20%, даже при правильных промежуточных шагах итоговый ответ неверен
- Idea Generation: низкие баллы по feasibility и elaboration — идеи размытые, нереализуемые
- Dry Experiment: executability высокая (~80%), но execution accuracy низкая (~30-40%) — код работает, но считает неправильно
- Wet Experiment: sequence fidelity <50% — модели путают порядок шагов, пропускают действия
- Experimental Reasoning: лучше с causal и perceptual (~60%), хуже с comparative (~40%), слабее всего в materials science и earth systems
Общий SGI-Score: лучшие закрытые модели ~30/100, открытые ~25/100. Закрытые модели имеют лишь небольшое преимущество.
Дополнительно: Тестировали test-time scaling и reinforcement learning — небольшое улучшение генерации гипотез и рассуждений через итеративную обратную связь, но не прорыв.
Ресурсы
SGI-Bench: A Scientific Intelligence Benchmark for LLMs via Scientist-Aligned Workflows
Сайт: https://InternScience.github.io/SGI-Page/
Код: https://github.com/InternScience/SGI-Bench
Данные: https://huggingface.co/collections/InternScience/sgi-bench
Теоретическая основа: Practical Inquiry Model (Dewey, Garrison et al.)
Вдохновлено: "125 Questions: Exploration and Discovery" (журнал Science, 2005)
Авторы: Shanghai Artificial Intelligence Laboratory
