3,583 papers
arXiv:2601.15714 77 22 янв. 2026 г. FREE

Zero-Error Horizon (ZEH): граница надёжности LLM

КЛЮЧЕВАЯ СУТЬ
GPT-5.2 пишет симуляторы динамики жидкостей, но ошибается на умножении 127×82 и не может определить чётность строки из 5 символов. Zero-Error Horizon (ZEH) позволяет найти границу надёжности модели — максимальный размер задачи, до которого модель решает ВСЕ примеры без единой ошибки. Фишка: высокая средняя точность (98%) не защищает от провалов на конкретных простых задачах. Модель может быть точна в целом, но ошибиться именно на том примере, который попадётся в твоей критичной задаче.
Адаптировать под запрос

TL;DR

Zero-Error Horizon (ZEH) — метрика, которая показывает максимальный размер задачи, до которого модель решает все примеры без единой ошибки. Если ZEH = 126 для умножения, модель справляется со всеми умножениями до 126×126, но ошибается хотя бы на одном примере размера 127. Это граница надёжности: внутри можно условно доверять, за пределами — осторожность.

Даже GPT-5.2 — топовая модель, которая пишет симуляторы динамики жидкостей — ошибается на удивительно простых задачах: не может вычислить чётность строки 11000 (5 символов), считает что скобки ((((()))))) сбалансированы (они нет), ошибается в умножении 127×82 (даёт 10314 вместо 10414). При этом та же модель решает сложнейшие задачи. Эта непоследовательность — главная проблема при использовании LLM в критичных сферах: финансы, медицина, право. Модель может применить изощрённую теорию, но ошибиться в простом умножении внутри рассуждения.

ZEH выявляет эти дыры в возможностях. Высокая средняя точность (98%) не гарантирует отсутствие ошибок на конкретных простых примерах. Модель с точностью 98% на умножениях до 99×99 может иметь ZEH = 5 — то есть ошибаться даже на однозначных числах. Исследование показало: маленькие модели механически запоминают примеры из обучающих данных и ошибаются случайно. Большие модели учат алгоритм вычисления, и их ошибки концентрируются на алгоритмически сложных задачах (много переносов разрядов в умножении). ZEH растёт именно когда модель переходит от запоминания к пониманию правил.

📌

Главный инсайт для пользователя

ZEH — это не техника промптинга, а концепция понимания границ LLM. Из неё можно извлечь практические принципы:

1. Проверяй модель на простых задачах перед сложными

Прежде чем доверить модели сложный расчёт, проверь её на серии простых примеров того же типа. Если модель ошибается на 20×20, ей нельзя доверить финансовые расчёты с трёхзначными числами.

2. Высокая точность в среднем ≠ надёжность на каждом примере

Модель может быть на 98% точна, но эти 2% ошибок могут концентрироваться на неожиданно простых задачах. Не полагайся на средние метрики в критичных задачах.

3. Перепроверяй шаги с базовыми вычислениями

Сложная задача часто содержит простые подшаги: умножение, подсчёт, проверка баланса. Модель может ошибиться именно на этом простом шаге, и ошибка распространится дальше. LLM склонны к self-delusion: одна ошибка тянет за собой цепочку неверных выводов.

🚀

Пример применения

Задача: Ты готовишь инвестиционную модель для стартапа. Модель должна считать метрики роста: конверсии, LTV, unit-экономику. В расчётах участвуют десятки умножений и делений двух-трёхзначных чисел. Перед тем как доверить модели финальные расчёты, проверь её границы.

Промпт:

Перед основной задачей проверь свои вычислительные возможности. 
Реши эти умножения и покажи только ответы через запятую:

5×5, 12×12, 23×23, 34×29, 47×51, 68×73, 89×92, 127×82

Если где-то ошибёшься или сомневаешься, честно скажи.

После проверки — основная задача:
[здесь твоя инвестиционная модель с расчётами]

Результат:

Модель решит тестовые умножения. Если ошибётся на 127×82 (что делает GPT-5.2), ты увидишь границу надёжности. Это сигнал: для трёхзначных умножений в основной задаче добавь инструкцию "разложи умножение пошагово" или "используй калькулятор" (если доступен), или перепроверь сам критичные цифры.

Если модель справилась со всеми примерами, это хороший знак (но не гарантия) — можно доверить основную задачу, но всё равно проверить итоговые цифры.

📌

Почему это важно

Слабость LLM: Модели генерируют текст по паттернам из обучающих данных. Даже если модель "понимает" алгоритм умножения, она может ошибиться в выполнении: пропустить перенос разряда, перепутать цифры. Это похоже на человеческие ошибки в устном счёте, но у LLM нет "внутреннего калькулятора" — они симулируют вычисления через текст.

Непредсказуемость ошибок: Маленькие модели ошибаются случайно — они запоминают примеры, а не правила. Если пример не встречался в обучении, модель гадает. Большие модели учат алгоритм, но всё равно ошибаются на алгоритмически сложных случаях. Проблема: ты не знаешь заранее, где именно модель споткнётся.

Распространение ошибок: LLM генерирует текст последовательно. Если модель ошибётся на шаге 3 из 10, она продолжит рассуждать, опираясь на неверный результат. Эффект self-delusion: модель убеждает сама себя в правильности неверного вывода, потому что он уже появился в контексте. Одна ошибка в простом умножении может обрушить всю цепочку рассуждений.

Рычаги управления:

  • Размер проверочных примеров — начни с совсем простых (однозначные числа) и постепенно усложняй, чтобы найти границу, где модель начинает ошибаться
  • Тип проверочных задач — подбирай задачи, аналогичные тем, что будут в основной задаче (если в задаче деления — проверяй деления, а не умножения)
  • Инструкция при ошибке — попроси модель честно признаться, если не уверена, вместо выдачи неверного ответа
  • Пошаговость — если модель ошиблась на проверочных примерах, добавь "реши пошагово" в основную задачу
📋

Шаблон промпта

Задача: {описание_задачи}

Перед решением проверь себя на простых подзадачах того же типа:

{пример_1_простой}
{пример_2_чуть_сложнее}
{пример_3_ещё_сложнее}
...
{пример_N_близко_к_реальной_сложности}

Покажи ответы на проверочные задачи. Если где-то сомневаешься или замечаешь ошибку, честно скажи.

После проверки приступай к основной задаче. Если обнаружил слабые места на проверке, в основной задаче будь особо внимателен на похожих шагах или используй пошаговое решение.

Что подставлять: - {описание_задачи} — твоя реальная задача, где есть риск ошибки на простых шагах - {пример_1_простой} и далее — серия задач того же типа, что встретятся в основной задаче, от очень простых к близким по сложности к реальным. Например, для умножения: 5×5, 12×12, 23×23, 47×51, 127×82

Логика: Ты вручную находишь ZEH модели для конкретного типа задач. Это не замена основному решению, а калибровка доверия перед критичной задачей.

⚠️

Ограничения

⚠️ Проверка не даёт 100% гарантии: Даже если модель справилась с тестовыми примерами, она может ошибиться на конкретном примере в основной задаче. ZEH показывает, что до определённого размера модель решает все задачи правильно, но в реальности промпт и контекст могут меняться, и границы сдвигаются.

⚠️ Зависит от промпта: ZEH измеряется при фиксированном промпте. Смени формулировку — и граница может сдвинуться на 10-20%. Для критичных задач лучше проверить с несколькими формулировками и взять самый осторожный результат.

⚠️ Не для всех задач применимо: ZEH имеет смысл для задач с чёткой градацией сложности (длина строки, размер чисел, количество узлов в графе). Для субъективных задач (креатив, стиль текста) понятие "размера задачи" размыто.

⚠️ Затратно по времени: Чтобы найти ZEH точно, нужно протестировать все задачи до определённого размера. Для быстрой проверки в чате достаточно 5-10 примеров возрастающей сложности, но это даёт только примерное представление, не точную границу.

🔍

Как исследовали

Исследователи взяли несколько моделей (Qwen2.5 от 0.5B до 72B параметров, GPT-5.2) и прогнали их через все задачи возрастающей сложности: 1×1, 1×2, 1×3, ..., пока не нашли первую ошибку. Это и есть граница ZEH. Проверяли на четырёх типах задач: умножение целых чисел, вычисление чётности бинарных строк, проверка баланса скобок, хроматическое число графов.

Обнаружили парадокс: GPT-5.2 с ZEH = 126 для умножения (справляется с двузначными числами) делает ошибку на 127×82 — отвечает 10314 вместо 10414. Разница — 100, это ошибка переноса разряда. То есть модель знает алгоритм, но сбоит в выполнении. Для скобок ZEH = 10 — не может обработать 11 символов ((((()))))). Для чётности ZEH = 4 — ошибается на строке из 5 символов 11000.

Детальный анализ на Qwen2.5 показал переход от запоминания к пониманию. Маленькие модели (0.5B, 1.5B) имеют высокую корреляцию между точностью и частотой примера в обучающих данных (C4 корпус) — они запоминают. Корреляция у 0.5B — 0.27, у 1.5B — 0.20. Большие модели (32B, 72B) имеют корреляцию около 0.04 — они не зависят от запоминания, значит, используют алгоритм.

Ещё один паттерн: структурированность ошибок. Если модель ошибается на величину, кратную 10 (например, 986 → 1006, разница 20), это ошибка переноса разряда, признак алгоритмического мышления. У маленьких моделей только 58% ошибок структурированы, у больших — 90%. Это значит, большие модели реально считают по алгоритму, а не угадывают, но всё равно делают "человеческие" ошибки в исполнении.

Регрессионный анализ показал: чем больше модель, тем сильнее она страдает от задач с переносами разрядов. Казалось бы, парадокс — модель умнее, но больше ошибается на сложных случаях? Нет, это логично: маленькие модели безразличны к переносам (они угадывают), а большие модели алгоритмически решают, и алгоритмически сложные задачи (много переносов) для них действительно сложнее. Это доказывает, что они не запоминают, а считают.

Почему это важно: Если модель запоминает, у неё случайные дыры в возможностях — не знаешь, где ошибётся. ZEH таких моделей не растёт даже при росте точности. Если модель понимает алгоритм, ошибки концентрируются на сложных случаях, и ZEH может расти.

🔗

Ресурсы

Even GPT-5.2 Can't Count to Five: The Case for Zero-Error Horizons in Trustworthy LLMs

Ryoma Sato, National Institute of Informatics

Код: https://github.com/joisino/zeh


📋 Дайджест исследования

Ключевая суть

GPT-5.2 пишет симуляторы динамики жидкостей, но ошибается на умножении 127×82 и не может определить чётность строки из 5 символов. Zero-Error Horizon (ZEH) позволяет найти границу надёжности модели — максимальный размер задачи, до которого модель решает ВСЕ примеры без единой ошибки. Фишка: высокая средняя точность (98%) не защищает от провалов на конкретных простых задачах. Модель может быть точна в целом, но ошибиться именно на том примере, который попадётся в твоей критичной задаче.

Принцип работы

Не полагайся на среднюю точность — найди границу где модель начинает ошибаться. Проверяй модель на серии простых задач возрастающей сложности ПЕРЕД тем как дать основную задачу. Серия 5×5, 12×12, 47×51, 127×82 покажет где появляется первая ошибка — это твоя граница доверия. Если модель ошиблась на 127×82, не доверяй ей трёхзначные умножения в финальных расчётах без пошагового разбора.

Почему работает

LLM генерирует текст последовательно. Ошибка на шаге 3 из 10 разрушает всю цепочку — модель продолжает рассуждать, опираясь на неверный результат. Эффект самообмана модели (self-delusion): она убеждает сама себя в правильности неверного вывода, потому что он уже появился в контексте. Одна ошибка в простом умножении обрушивает всё рассуждение. Маленькие модели ошибаются случайно (запоминание примеров), большие — на алгоритмически сложных случаях (много переносов разрядов). Непредсказуемость ошибок — главная проблема: ты не знаешь заранее где именно модель споткнётся.

Когда применять

Критичные задачи → финансы, медицина, право, инвестиционные модели → особенно когда сложное рассуждение содержит простые подшаги (умножение, подсчёт, проверка баланса). НЕ подходит для субъективных задач (креатив, стиль) — там нет чёткой градации сложности.

Мини-рецепт

1. Подбери серию проверочных задач: от очень простых к близким по сложности к основной задаче. Для умножений: 5×5, 12×12, 23×23, 47×51, 127×82
2. Добавь проверку в промпт: Перед основной задачей реши эти примеры и покажи только ответы через запятую: [твоя серия]. Если где-то сомневаешься, честно скажи.
3. Найди границу ошибок: где модель споткнулась — там твой Zero-Error Horizon
4. Калибруй доверие к основной задаче: если модель ошиблась на проверке, добавь в основную задачу реши пошагово или будь особо внимателен на умножениях или перепроверь критичные цифры сам

Примеры

[ПЛОХО] : Посчитай unit-экономику стартапа: стоимость привлечения клиента 15 тысяч, пожизненная ценность (LTV) 127 тысяч, удержание (retention) 82% — модель может ошибиться на 127×82 внутри расчёта и ты не узнаешь
[ХОРОШО] : Сначала проверь себя на умножениях — покажи ответы через запятую: 5×5, 12×12, 23×23, 47×51, 68×73, 127×82. Если где-то ошибёшься, скажи честно. После проверки посчитай unit-экономику: привлечение клиента 15к, LTV 127к, retention 82%. Если на проверке были ошибки — разложи вычисления пошагово. — ты увидишь границу надёжности и скорректируешь основную задачу
Источник: Even GPT-5.2 Can't Count to Five: The Case for Zero-Error Horizons in Trustworthy LLMs
ArXiv ID: 2601.15714 | Сгенерировано: 2026-01-23 05:32

Концепты не выделены.

📖 Простыми словами

EvenGPT-5.2 Can't Count to Five: The Case for Zero-Error Horizons in TrustworthyLLMs

arXiv: 2601.15714

Проблема современных нейросетей в том, что они патологические лжецы с отличной дикцией. Даже топовые модели вроде GPT-4o могут бодро рассуждать о квантовой физике, но внезапно споткнуться на умножении трехзначных чисел. Фундаментальная механика тут проста: LLM не «считают» в классическом смысле, а предсказывают наиболее вероятный следующий символ. Когда задача становится чуть сложнее, чем те, на которых модель тренировалась, она переходит в режим галлюцинаций. Ты ждешь от нее математической точности, а получаешь творческую интерпретацию таблицы умножения.

Это как нанять бухгалтера, который идеально сводит баланс до миллиона рублей, но как только цифры переваливают за эту отметку, начинает просто придумывать их из головы, сохраняя при этом максимально уверенный вид. Формально отчет готов, но верить ему нельзя. Ты никогда не знаешь, в какой именно момент его мозг «отключится» и он начнет выдавать бред вместо реальности. Именно для этого ввели понятие Zero-Error Horizon (ZEH) — четкую границу, до которой модель гарантированно не лажает.

Суть метода ZEH проста: мы ищем максимальный размер задачи, где модель выдает ноль ошибок. Если тест показывает, что для умножения чисел твой ИИ имеет ZEH = 126, это значит, что на примерах 126 на 126 он стабилен как скала. Но на первом же примере 127 на 127 он гарантированно выдаст хотя бы один косяк. Это не просто «статистическая вероятность», а граница надежности. Внутри этого горизонта ты можешь расслабиться, за его пределами — модель превращается в тыкву, и каждый ее ответ нужно перепроверять с калькулятором.

Этот принцип универсален и применим не только к математике. Тестировали на числах, но логика работает для любой структурированной задачи: кодинга, анализа юридических договоров или проверки медицинских дозировок. Если ты строишь финтех-сервис или автоматизируешь логистику, тебе плевать на «среднюю точность 95%». Тебе нужно знать, где наступает точка отказа. SEO для цифр закончилось, теперь важна математическая верификация: либо модель тянет нагрузку без единой ошибки, либо она бесполезна для серьезного бизнеса.

Короче: хватит верить маркетинговым заявлениям о том, что нейросети «стали умнее». Пока ты не знаешь Zero-Error Horizon своей модели для конкретной задачи, ты играешь в русскую рулетку. Найди эту границу, очерти круг доверия и никогда не выпускай ИИ за его пределы без присмотра. Иначе однажды ты обнаружишь, что твоя «умная» система не смогла посчитать до пяти, а ты на основе этих данных принял решение на миллион.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с