3,583 papers
arXiv:2512.16969 74 18 дек. 2025 г. FREE

SGI-Bench: четырёхстадийная модель научного процесса для работы с LLM

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM плохи в количественных расчётах (точность <20%), генерируют размытые методологии без деталей, код синтаксически правилен но вычисления неверны, в протоколах путают последовательность шагов. Исследование SGI-Bench протестировало модели на 1000+ экспертных задачах из 10 научных дисциплин и составило карту специфических провалов. Фишка: разбей задачу на 4 стадии научного процесса (Изучение → Методология → Выполнение → Анализ) и на каждой компенсируй конкретную слабость. Требуй единицы измерения при работе с числами, детализацию каждого шага методологии, явную последовательность действий в протоколах, проверку кода на тестовых данных. Даже лучшие модели получили ~30/100 баллов по общему SGI-Score — проблема системная, не случайная.
Адаптировать под запрос

TL;DR

Исследование SGI-Bench разбивает научный процесс на 4 стадии и тестирует как LLM справляются с каждой. Deliberation (изучение литературы и синтез знаний), Conception (генерация методологии), Action (выполнение экспериментов — код или лабораторные протоколы), Perception (анализ результатов). Модель основана на Practical Inquiry Model — теоретическом фреймворке научного познания. Исследователи создали бенчмарк на 1000+ экспертных задач из 10 научных дисциплин, вдохновлённых списком "125 больших вопросов науки 21 века" журнала Science.

Главные находки про слабости LLM в научных задачах: модели хорошо находят информацию, но плохо делают количественные расчёты (точность <20% в задачах с числами). В генерации методологии не хватает конкретики — шаги описаны размыто, нет проверок реализуемости. В коде синтаксис правильный, но результаты вычислений часто неверны. В лабораторных протоколах путают последовательность действий, пропускают шаги. В анализе результатов лучше с причинными связями, хуже со сравнительным анализом. Даже лучшие закрытые модели получили ~30/100 по общему SGI-Score.

Практический вывод: структурируй сложные исследовательские задачи по 4 стадиям — сначала изучение, потом методология, потом выполнение, потом анализ. На каждой стадии компенсируй слабости: требуй единицы измерения и пошаговые расчёты при работе с числами, требуй детальную проработку каждого шага методологии, проверяй код на тестовых данных, требуй явную последовательность действий в протоколах с условиями перехода.


📌

Схема 4-стадийной модели

СТАДИЯ 1 — Deliberation (Изучение):
Поиск источников → Синтез знаний → Проверка фактов и расчётов
[Слабость: количественные расчёты, точность <20%]

СТАДИЯ 2 — Conception (Методология):
Формулировка идеи → Дизайн метода → Проработка деталей
[Слабость: размытые шаги, нет проверки реализуемости]

СТАДИЯ 3 — Action (Выполнение):
  Dry (код): Написание → Отладка → Запуск → Проверка результатов
  Wet (протокол): Планирование → Последовательность → Параметры
[Слабость: код работает, но результаты неверны; протоколы с пропущенными шагами]

СТАДИЯ 4 — Perception (Анализ):
Интерпретация данных → Причинные связи → Выводы
[Слабость: сравнительный анализ хуже причинного]

Важно: Это не линейный процесс — стадии могут повторяться итеративно.


🚀

Пример применения

⚠️ Метод для исследовательских задач, где нужна системная проработка. Не для простых вопросов или креативных задач без фактической базы.

Задача: Разобраться можно ли запустить тёмную кухню (dark kitchen) с доставкой здорового питания в спальном районе Москвы — проанализировать рынок, проверить гипотезу, посчитать юнит-экономику.

Промпт:

Помоги разобрать бизнес-идею по 4 стадиям научного подхода:

**ИДЕЯ:** Тёмная кухня (dark kitchen) с доставкой здорового питания 
в спальном районе Москвы (например, Бутово или Марьино).

**СТАДИЯ 1 — Deliberation (Изучение):**
- Изучи рынок здорового питания в Москве: объём, конкуренты, средний чек
- Найди данные по спальным районам: плотность населения, доход, привычки заказа еды
- ОБЯЗАТЕЛЬНО: все цифры с источниками и единицами (₽, чел., %)

**СТАДИЯ 2 — Conception (Методология):**
- Опиши пошагово как проверить спрос: какие действия, какие данные собрать
- Для КАЖДОГО шага укажи: что делать, сколько времени, какой результат ожидать
- Проверка реализуемости: что может пойти не так на каждом шаге

**СТАДИЯ 3 — Action (Выполнение):**
- Построй модель юнит-экономики в виде простых формул
- Укажи последовательность действий для MVP: что делать день 1, день 2, и т.д.
- ОБЯЗАТЕЛЬНО: условия перехода к следующему действию

**СТАДИЯ 4 — Perception (Анализ):**
- Какие метрики смотреть, чтобы понять работает ли идея
- Какие результаты = успех, какие = провал
- Причинные связи: что влияет на что в этой бизнес-модели

Результат:

Модель выдаст структурированный анализ по 4 блокам. В первом — цифры рынка с источниками (но проверь расчёты вручную, LLM слаба в арифметике). Во втором — пошаговый план валидации с конкретными действиями и критериями перехода. В третьем — последовательность для MVP и формулы юнит-экономики (код или расчёты — обязательно проверь на тестовых данных). В четвёртом — метрики успеха и схема причинно-следственных связей. Каждая стадия компенсирует типичную слабость LLM через явные требования: единицы измерения, детализация шагов, условия перехода, проверки.


🧠

Почему это работает

LLM хорошо находят паттерны в тексте, но плохо делают точные расчёты — модель может вспомнить что средний чек в Москве "около 500 рублей", но если нужно посчитать маржинальность по формуле (выручка - переменные издержки) / выручка × 100%, может ошибиться в арифметике. Поэтому в стадии Deliberation мы требуем не просто "найди данные", а "все цифры с единицами измерения и источниками" — это триггерит более аккуратный режим и позволяет проверить расчёты вручную.

LLM генерируют размытые планы без детализации — на вопрос "как проверить спрос?" модель может ответить "1. Изучи конкурентов 2. Опроси людей 3. Сделай MVP", но не объяснит КАК именно опросить, сколько человек, какие вопросы задать. Поэтому в стадии Conception мы требуем "для КАЖДОГО шага: что делать, сколько времени, какой результат" — это заставляет модель раскрыть абстрактные команды в конкретные действия. Добавляем "проверка реализуемости: что может пойти не так" — модель не будет предлагать нереальные шаги.

Четырёхстадийная структура использует сильную сторону LLM — работу с явными структурами. Когда говоришь "разбери по 4 стадиям" с названиями, модель активирует паттерн методичной проработки вместо хаотичного потока мыслей. Это как в Chain-of-Thought — явная структура улучшает качество рассуждений. Плюс разбиение большой задачи на 4 блока снижает когнитивную нагрузку на модель — каждый блок решает узкую подзадачу.

Рычаги управления:

  • Требования к числам ("с единицами", "с источниками") → убери если нужна быстрая прикидка без точности
  • Детализация шагов ("для КАЖДОГО шага") → убери для простых задач, сэкономишь токены
  • Проверки реализуемости → замени на "проверка безопасности" для медицинских задач или "проверка легальности" для юридических
  • Условия перехода в стадии Action → замени на "условия отката" если нужен план с запасными вариантами
  • Число стадий → можешь использовать только 2-3 стадии, если задача не требует полного цикла

📋

Шаблон промпта

Помоги разобрать задачу по 4 стадиям научного подхода:

**ЗАДАЧА:** {опиши задачу — исследовательский вопрос, бизнес-идею, технический эксперимент}

**СТАДИЯ 1 — Deliberation (Изучение):**
- Изучи {что нужно изучить: рынок, литературу, данные, аналоги}
- Найди данные по {конкретные параметры}
- ОБЯЗАТЕЛЬНО: все цифры с источниками и единицами измерения

**СТАДИЯ 2 — Conception (Методология):**
- Опиши пошагово как {что проверить/реализовать}
- Для КАЖДОГО шага укажи: что делать, сколько времени, какой результат ожидать
- Проверка реализуемости: что может пойти не так на каждом шаге

**СТАДИЯ 3 — Action (Выполнение):**
- {Если код: построй модель/алгоритм в виде формул или псевдокода}
- {Если протокол: укажи последовательность действий с условиями перехода}
- ОБЯЗАТЕЛЬНО: как проверить корректность на каждом шаге

**СТАДИЯ 4 — Perception (Анализ):**
- Какие метрики смотреть, чтобы понять {критерий успеха}
- Какие результаты = успех, какие = провал
- Причинные связи: что влияет на что в этой {системе/процессе/модели}

Плейсхолдеры: - {опиши задачу} — исследовательский вопрос, бизнес-идея, технический эксперимент, аналитическая задача - {что нужно изучить} — рынок, литература, данные, аналоги, существующие решения - {конкретные параметры} — объём рынка, технические характеристики, статистика, кейсы - {что проверить/реализовать} — гипотезу, идею, метод, алгоритм - {Если код / Если протокол} — выбери что подходит: код для вычислительных задач, протокол для последовательных действий - {критерий успеха} — что именно хочешь проверить/достичь - {системе/процессе/модели} — в чём ищешь закономерности


🚀 Быстрый старт — вставь в чат:

Вот шаблон 4-стадийной модели научного процесса. Адаптируй под мою задачу: [твоя задача].
Задавай уточняющие вопросы, чтобы заполнить поля под мой контекст.

[вставить шаблон выше]

LLM спросит что именно изучать на стадии Deliberation, какой результат ожидать на стадии Conception, какой формат нужен на стадии Action (код или протокол) — потому что каждая стадия требует конкретики под твою задачу. Она возьмёт паттерн из шаблона и адаптирует: если задача бизнес-аналитика — спросит про метрики и рынок, если техническая — про алгоритмы и тесты.


⚠️

Ограничения

⚠️ Не для простых задач: Если вопрос решается за один шаг — 4 стадии избыточны, потратишь токены впустую. Метод для задач где нужна системная проработка: исследования, проверка гипотез, дизайн методологии, анализ сложных систем.

⚠️ Числа всё равно проверяй: Модель стала аккуратнее с единицами измерения и источниками, но точность расчётов <20% по исследованию. Если в задаче критичны цифры (финансы, научные расчёты) — проверяй арифметику вручную или в калькуляторе.

⚠️ Код работает, результаты могут быть неверны: Если в стадии Action модель генерирует код — синтаксис будет правильный, но логика вычислений может быть некорректной. Обязательно тестируй на известных данных, где знаешь правильный ответ.

⚠️ Не заменяет экспертизу: Модель структурирует мышление, но не знает нюансов твоей предметной области. В сложных научных или бизнес-задачах результаты — это черновик для доработки экспертом, не финальное решение.


🔍

Как исследовали

Создание бенчмарка: Исследователи из Shanghai AI Lab построили SGI-Bench — датасет из 1000+ задач по 10 научным дисциплинам (астрономия, химия, науки о Земле, энергетика, информатика, биология, материаловедение, нейронаука, физика, математика). Задачи вдохновлены списком "125 больших вопросов для 21 века" из журнала Science. Материалы взяты из топовых журналов Nature, Science, Cell. Процесс: многораундовое сотрудничество с экспертами → аннотация PhD-исследователями → проверка моделями → rule-based консистентность.

Система оценки: Обычный "LLM-as-a-judge" не справлялся с разнообразием метрик, поэтому создали Agent-as-a-judge framework. Агент с инструментами: веб-поиск, Python-интерпретатор, чтение файлов, парсинг PDF, специфичные для дисциплин метрики. 4 стадии работы агента: выбор вопросов → кастомизация метрик → инференс и оценка → генерация отчёта.

Что тестировали: GPT-4, Claude, Gemini, открытые модели (Qwen, DeepSeek, LLaMA). Задачи разбиты на 4 типа:

  • Deep Research (Deliberation) — 4 подтипа задач: Data (поиск данных в литературе), Properties (характеристики материалов/молекул), Micro-experiments (небольшие контролируемые эксперименты), Macro-experiments (крупномасштабные события типа астрономических). Метрики: точное совпадение (exact match), совпадение по шагам (step-level), релевантность источников.

  • Idea Generation (Conception) — генерация методологии исследования. Модель получает задачу и должна сгенерировать структурированную идею: название, описание, данные, метод, оценка, ожидаемые результаты. Метрики: эффективность (effectiveness), новизна (novelty), детальность (elaboration), реализуемость (feasibility).

  • Dry Experiment (Action — код) — задачи типа code completion: модель получает научный код с замаскированными функциями и должна восстановить их. 6 типов функций: численные расчёты, статистический анализ, симуляции, вычисление метрик, обработка данных, предиктивное моделирование. Метрики: исполняемость кода (executability), точность результатов (execution result accuracy).

  • Wet Experiment (Action — протокол) — планирование лабораторных процедур. Модель получает описание эксперимента и набор возможных действий (action space), должна составить последовательность шагов с параметрами. Метрики: sequence fidelity (совпадение последовательности), parameter accuracy (точность параметров).

  • Experimental Reasoning (Perception) — анализ экспериментальных результатов из изображений (графики, диаграммы, микроскопия). 4 типа рассуждений: перцептивное (perceptual — считывание данных с графика), дескриптивное (descriptive — описание паттернов), сравнительное (comparative — сравнение групп), причинное (causal — выводы о механизмах). Мультимодальные модели (GPT-4V, Gemini-Vision, Qwen-VL).

Главные цифры:

  • Deep Research: exact match 10-20%, даже при правильных промежуточных шагах итоговый ответ неверен
  • Idea Generation: низкие баллы по feasibility и elaboration — идеи размытые, нереализуемые
  • Dry Experiment: executability высокая (~80%), но execution accuracy низкая (~30-40%) — код работает, но считает неправильно
  • Wet Experiment: sequence fidelity <50% — модели путают порядок шагов, пропускают действия
  • Experimental Reasoning: лучше с causal и perceptual (~60%), хуже с comparative (~40%), слабее всего в materials science и earth systems

Общий SGI-Score: лучшие закрытые модели ~30/100, открытые ~25/100. Закрытые модели имеют лишь небольшое преимущество.

Дополнительно: Тестировали test-time scaling и reinforcement learning — небольшое улучшение генерации гипотез и рассуждений через итеративную обратную связь, но не прорыв.


🔗

Ресурсы

SGI-Bench: A Scientific Intelligence Benchmark for LLMs via Scientist-Aligned Workflows

Сайт: https://InternScience.github.io/SGI-Page/

Код: https://github.com/InternScience/SGI-Bench

Данные: https://huggingface.co/collections/InternScience/sgi-bench

Теоретическая основа: Practical Inquiry Model (Dewey, Garrison et al.)

Вдохновлено: "125 Questions: Exploration and Discovery" (журнал Science, 2005)

Авторы: Shanghai Artificial Intelligence Laboratory


📋 Дайджест исследования

Ключевая суть

Обнаружено: LLM плохи в количественных расчётах (точность <20%), генерируют размытые методологии без деталей, код синтаксически правилен но вычисления неверны, в протоколах путают последовательность шагов. Исследование SGI-Bench протестировало модели на 1000+ экспертных задачах из 10 научных дисциплин и составило карту специфических провалов. Фишка: разбей задачу на 4 стадии научного процесса (Изучение → Методология → Выполнение → Анализ) и на каждой компенсируй конкретную слабость. Требуй единицы измерения при работе с числами, детализацию каждого шага методологии, явную последовательность действий в протоколах, проверку кода на тестовых данных. Даже лучшие модели получили ~30/100 баллов по общему SGI-Score — проблема системная, не случайная.

Принцип работы

Вместо хаотичного промпта «проанализируй идею» структурируй по 4 стадиям с явными требованиями под каждую слабость. Стадия 1 — Изучение: требуй цифры с единицами и источниками (компенсация слабости в расчётах). Стадия 2 — Методология: требуй для КАЖДОГО шага конкретику — что делать, сколько времени, какой результат, что может пойти не так (компенсация размытости). Стадия 3 — Выполнение: если код — требуй проверку на тестовых данных, если протокол — явную последовательность с условиями перехода (компенсация ошибок в вычислениях и логике). Стадия 4 — Анализ: фокусируй на причинных связях, а не только на сравнении (модель лучше в первом, хуже во втором). Стадии не линейны — могут повторяться итеративно.

Почему работает

LLM хорошо находят паттерны в тексте, но проседают в точных расчётах. Модель вспомнит что средний чек «около 500₽», но если нужно посчитать маржинальность по формуле — может ошибиться в арифметике. Требование «все цифры с единицами и источниками» триггерит более аккуратный режим и даёт возможность проверить расчёты вручную. Четырёхстадийная структура использует сильную сторону LLM — работу с явными структурами. Когда говоришь «разбери по 4 стадиям» с названиями, модель активирует паттерн методичной проработки вместо хаотичного потока. Это как Chain-of-Thought — явная структура улучшает рассуждения. Плюс разбиение большой задачи на 4 блока снижает когнитивную нагрузку — каждый блок решает узкую подзадачу. Исследование показало: даже топовые закрытые модели получили только ~30 баллов из 100 по общему SGI-Score — системное разделение по стадиям с компенсацией помогает вытащить больше.

Когда применять

Для исследовательских и аналитических задач — проверка бизнес-гипотез, дизайн методологии, анализ сложных систем, технические эксперименты. Особенно когда задача требует системной проработки: нужно найти данные, построить метод, выполнить расчёты/код/протокол, проанализировать результаты. НЕ подходит для простых вопросов решаемых за один шаг (там 4 стадии — избыточная трата токенов) и креативных задач без фактической базы.

Мини-рецепт

1. Стадия Изучение (Deliberation): Укажи что изучить (рынок/литература/данные) + требуй «все цифры с источниками и единицами измерения»
2. Стадия Методология (Conception): Требуй пошаговый план где для КАЖДОГО шага указано: что делать, сколько времени, какой результат + «проверка реализуемости: что может пойти не так»
3. Стадия Выполнение (Action): Если код — требуй проверку на тестовых данных где известен правильный ответ. Если протокол — требуй «последовательность действий с условиями перехода к следующему шагу»
4. Стадия Анализ (Perception): Укажи метрики успеха/провала + требуй «причинные связи: что влияет на что» (не только сравнение)
5. Проверка: Числа и код — всегда перепроверяй вручную или калькулятором (точность расчётов <20% по исследованию)

Примеры

[ПЛОХО] : Проанализируй можно ли запустить тёмную кухню с доставкой здорового питания в спальном районе Москвы
[ХОРОШО] : Помоги разобрать бизнес-идею по 4 стадиям научного подхода: ИДЕЯ: Тёмная кухня с доставкой здорового питания в спальном районе Москвы (Бутово/Марьино) СТАДИЯ 1 — Изучение: Изучи рынок здорового питания в Москве (объём, конкуренты, средний чек). Найди данные по спальным районам (плотность населения, доход, привычки заказа еды). ОБЯЗАТЕЛЬНО: все цифры с источниками и единицами (₽, чел., %) СТАДИЯ 2 — Методология: Опиши пошагово как проверить спрос. Для КАЖДОГО шага укажи: что делать, сколько времени, какой результат ожидать. Проверка реализуемости: что может пойти не так СТАДИЯ 3 — Выполнение: Построй модель юнит-экономики в виде формул. Укажи последовательность для MVP: что делать день 1, день 2. ОБЯЗАТЕЛЬНО: условия перехода к следующему действию СТАДИЯ 4 — Анализ: Какие метрики смотреть. Какие результаты = успех/провал. Причинные связи: что влияет на что в этой бизнес-модели
Источник: Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows
ArXiv ID: 2512.16969 | Сгенерировано: 2026-01-08 23:10

Проблемы LLM

ПроблемаСутьКак обойти
LLM ошибаются в расчётах с числами — точность <20%Запрос с формулами/вычислениями модель делает арифметические ошибки; исследование SGI-Bench показало точность <20% на количественных задачах; трансформеры работают с токенами, не с числовой логикойТребуй пошаговые расчёты с единицами измерения проверяй арифметику вручную или калькулятором для критичных расчётов используй Code Interpreter
Планы получаются размытыми — нет конкретики шаговЗапрос "как сделать X" абстрактные шаги без детализации (например: "изучи конкурентов, опроси людей" — но без КАК именно, сколько, какие вопросы); в SGI-Bench на стадии Conception модели не проверяли реализуемостьТребуй для каждого шага: что делать + сколько времени + какой результат добавь проверка реализуемости: что может пойти не так используй слова "конкретно", "пошагово", "с деталями"
Код работает, но результаты вычислений неверныГенерация кода синтаксис корректен, но логика расчётов ошибочна; в SGI-Bench (стадия Action) синтаксис правильный, результаты нет; модель хорошо воспроизводит паттерны кода, плохо с математической логикойТестируй код на данных с известным правильным ответом требуй комментарии к каждому вычислению для критичных расчётов проверяй логику вручную
Протоколы с нарушенным порядком и пропущенными шагамиЗапрос протокола действий модель пропускает шаги или путает последовательность; в SGI-Bench (стадия Action, лабораторные протоколы) отсутствовали критичные шаги; LLM хуже держит порядок в длинных цепочкахТребуй явную нумерацию с условиями перехода: Шаг 3 если X, то шаг 4, иначе шаг 5 добавь для каждого шага: результат и следующее действие проверь критичные шаги по чеклисту
Сравнительный анализ получается хуже причинногоЗадача "сравни A и B" поверхностное сравнение; задача "почему X влияет на Y" модель справляется лучше; в SGI-Bench (стадия Perception) причинные задачи решались точнееДля сравнения явно задай критерии: сравни A и B по параметрам X, Y, Z разбей на подзадачи: сначала описание каждого, потом сравнение используй табличный формат
📖 Простыми словами

SGI-Bench: четырёхстадийная модель научного процесса для работы с LLM

arXiv: 2512.16969

Современные нейросети часто называют «умными», но до настоящего научного интеллекта им не хватало четкой системы координат. Исследователи создали SGI-Bench, чтобы проверить, может ли модель реально думать как ученый, а не просто пересказывать Википедию. В основе лежит механика Practical Inquiry Model — это жесткий каркас, который делит научный поиск на четыре фазы: от копания в литературе до анализа кривых графиков. LLM здесь оценивают не по умению болтать, а по способности пройти весь цикл познания, не завалившись на полпути из-за банальной невнимательности.

Это как нанять стажера-отличника в серьезную лабораторию. Он прочитал все учебники и может цитировать статьи, но когда дело доходит до реального эксперимента, он может перепутать пробирки или забыть, зачем вообще смешивает эти реактивы. Формально он в теме, но без четкого алгоритма действий его знания — это просто куча фактов в голове. SGI-Bench заставляет модель не просто «выдать ответ», а построить логическую цепочку от гипотезы до конкретного протокола действий, отсекая тех, кто просто красиво имитирует научный стиль.

Внутри бенчмарка зашито более 1000 экспертных задач из 10 дисциплин, и работают они через четыре фильтра. Сначала идет Deliberation (синтез знаний), затем Conception (разработка методики), следом Action (написание кода или протокола) и, наконец, Perception (интерпретация того, что получилось). Главный прикол в том, что модели заставляют работать с цифрами и источниками максимально жестко. Если нужно посчитать маржинальность или дозировку, модель не имеет права «галлюцинировать» — она обязана выдать конкретные единицы измерения, иначе проверка покажет, что интеллект там и не ночевал.

Хотя тест гоняли на фундаментальной науке и вопросах из списка журнала Science, этот подход — универсальный паттерн для любой сложной аналитики. Его можно и нужно применять в бизнесе, инженерии или праве. Если ты просишь нейросеть проанализировать рынок, не давай ей просто «подумать». Прогони её по тем же стадиям: заставь собрать базу, составить план проверки, написать скрипт для расчетов и только потом делать выводы. SEO-копирайтинг в прошлом, теперь нам нужен системный подход, где каждый шаг модели проверяем на адекватность.

Короче: хватит воспринимать LLM как магический шар с ответами. Исследование доказывает, что настоящий профит дают только структурированные рабочие процессы, имитирующие действия реальных ученых. Если модель лажает в арифметике или логике — это не приговор, а повод сменить промпт на более жесткий и поэтапный. Используй четыре стадии познания, требуй пруфы на каждую цифру, и тогда нейронка превратится из болтливого стажера в мощный инструмент, который реально двигает твои задачи вперед.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с