TL;DR
Ключевая находка исследования: самописные правила для AI не работают сами по себе — важно как ими управлять. Когда LLM накапливает правила без контроля, результат нулевой. Когда правила проходят через четыре механизма управления — эффект колоссальный. Узкое место не в том, как написать хорошее правило, а в том, как содержать библиотеку правил в порядке.
Обычный пользователь Claude или ChatGPT добавляет инструкции в системный промпт или «мой документ с правилами» — и никогда их не удаляет. Правила накапливаются: полезные смешиваются с бесполезными и вредными. Контекст раздувается. Часть инструкций начинает противоречить другим. AI следует правилам, которые давно устарели или активно мешают — но пользователь этого не замечает, потому что никогда не проверял, что работает, а что нет.
Ratchet — это рецепт управления библиотекой инструкций через четыре принципа гигиены: выводить плохие правила в отставку на основе реальных результатов, держать размер библиотеки ограниченным, писать новые правила по единому шаблону, и добавлять правила только из анализа провалов — не из ощущения «это должно помочь».
Схема метода
НАБЛЮДЕНИЕ: задача провалилась → что именно пошло не так?
↓
ДИАГНОСТИКА (Критик): определить паттерн ошибки
↓
СИНТЕЗ (синтезатор + мета-шаблон): написать правило по единому формату
↓
НАКОПЛЕНИЕ ДОКАЗАТЕЛЬСТВ: правило применяется → фиксируем помогло / навредило
↓
ОТСТАВКА (куратор): правило ≥ N применений + отрицательный счёт → удалить
↓
ОГРАНИЧЕНИЕ: в активной библиотеке не более C правил одновременно
Шаги 1–3 — однократные при добавлении каждого правила. Шаги 4–6 — непрерывный мониторинг и чистка библиотеки.
В полной системе всё автоматически. Для ручного применения — делаешь вручную раз в неделю / после каждого крупного блока задач.
Пример применения
Задача: Антон ведёт телеграм-канал про инвестиции в российский рынок. Он давно использует Claude: пишет разборы отчётов, посты, объяснения для подписчиков. За год у него накопился документ «Правила для Claude» на 40 пунктов. Посты стало сложнее редактировать — Claude иногда выдаёт противоречивые стили, игнорирует часть инструкций, а некоторые «правила» он добавил когда-то под конкретную ситуацию и забыл удалить.
Промпт (ревизия библиотеки по принципу Ratchet):
Ты — куратор библиотеки инструкций. Я покажу тебе мой список правил для работы с AI
и последние 5 задач где я был недоволен результатом.
Твоя задача — провести ревизию по четырём критериям:
**ШАГ 1. Диагностика провалов**
По каждой провальной задаче определи: какой паттерн ошибки? Напиши одной фразой
(например: «AI игнорирует требование краткости когда есть сложная тема»).
**ШАГ 2. Аудит существующих правил**
По каждому правилу из моего списка выдай вердикт:
- АКТИВНО — правило явно помогло в последних задачах
- НЕЙТРАЛЬНО — нет свидетельств ни за ни против
- ВРЕДИТ — правило спровоцировало ошибки в провальных задачах
- УСТАРЕЛО — правило противоречит другим или потеряло актуальность
**ШАГ 3. Новые правила из провалов**
Для каждого выявленного паттерна ошибки предложи новое правило в формате:
- Когда применяется: [ситуация]
- Ключевой инсайт: [что делать иначе]
- Как проверить: [признак что правило сработало]
**ШАГ 4. Рекомендация к чистке**
- Удалить: [список правил с вердиктом ВРЕДИТ или УСТАРЕЛО]
- Оставить: [список с вердиктом АКТИВНО]
- На испытательный срок: [список НЕЙТРАЛЬНО — проверить ещё 5 задач]
Целевой размер активной библиотеки: не более 20 правил.
---
МОИ ТЕКУЩИЕ ПРАВИЛА:
{вставить список правил}
МОИ ПРОВАЛЬНЫЕ ЗАДАЧИ (что просил / что получил / чем недоволен):
{вставить описание 3-5 задач}
Результат:
Промпт выдаст структурированный аудит: каждое правило получит вердикт с объяснением. Отдельно — список новых правил, написанных из диагностики провалов в едином формате когда/инсайт/проверка. И финальный список — что удалить, что оставить, что пока на испытании. Это ревизия, которая занимает 10 минут вместо часа ручной работы.
Почему это работает
Слабость LLM — и пользователей: мы добавляем правила когда что-то идёт не так, но никогда не удаляем когда правило перестаёт работать. Библиотека только растёт. При этом правила, которые «теоретически должны помочь», в среднем дают нулевой эффект — это показал SkillsBench: LLM-generated skills без управления = +0.0% к результату.
Ключевой инсайт: узкое место — библиотекарь, не автор. Проблема не в том, что правило плохо написано. Проблема в том, что нет механизма удаления плохих правил на основе реальных результатов. Те же правила, отобранные человеком, дают +16% к результату. Значит, дело не в качестве генерации — дело в отборе.
Три рычага управления:
- Отставка на основе доказательств: правило уходит не потому что «кажется устаревшим», а потому что навредило N раз подряд. Это убирает интуицию как критерий
- Ограничение размера: активная библиотека ≤ C правил. Новое правило вытесняет худшее из старых — это создаёт конкуренцию за место, а не бесконечное накопление
- Правила из провалов, не из успехов: когда что-то сработало — непонятно почему. Когда провалилось — причина конкретная. Диагностика провалов даёт правила с точным когда применяется, а не размытые советы
Неожиданная находка из экспериментов: явная дедупликация (поиск похожих правил и их слияние) не нужна, если есть мета-шаблон — единый формат для написания правил. Когда все правила написаны в одном стиле, похожие автоматически не размножаются. Это значит: один хороший шаблон заменяет сложную логику поиска дубликатов.
Шаблон промпта
Ты — куратор библиотеки инструкций для AI-задач в области {область_работы}.
Режим: {АУДИТ / ДОБАВЛЕНИЕ / ЧИСТКА}
---
**Если АУДИТ:**
Проанализируй мои текущие правила и последние провальные задачи.
Для каждого правила: АКТИВНО / НЕЙТРАЛЬНО / ВРЕДИТ / УСТАРЕЛО + одна строка почему.
Для каждого провала: паттерн ошибки одной фразой.
Итог: что удалить, что оставить, что добавить.
Лимит активных правил: {лимит} штук.
Мои правила:
{список_правил}
Провальные задачи:
{описание_провалов}
---
**Если ДОБАВЛЕНИЕ (после конкретного провала):**
Задача: {что просил}
Что получил: {что выдал AI}
Чем недоволен: {конкретно что не так}
Напиши новое правило в формате:
- Когда применяется: [ситуация-триггер]
- Ключевой инсайт: [что делать иначе, конкретно]
- Как проверить: [признак что правило сработало]
- Категория: [стиль / структура / ограничения / формат / другое]
Проверь: не дублирует ли это правило уже существующие?
{список_текущих_правил}
---
**Если ЧИСТКА (раз в месяц):**
Я отмечал какие правила сработали (✓) и навредили (✗) за последние {период}.
Результаты:
{правило → количество ✓ и ✗}
Реши: оставить / испытание ещё {N} задач / удалить.
Критерий отставки: правило применялось ≥ {мин_применений} раз И отрицательный счёт.
Что подставлять:
- {область_работы} — маркетинг, копирайтинг, анализ данных, юридические документы
- {лимит} — 15–25 для большинства; больше 50 контрпродуктивно
- {мин_применений} — не менее 5–10, иначе случайная выборка даст ложные сигналы
- {период} — неделя, месяц, квартал
🚀 Быстрый старт — вставь в чат:
Вот шаблон системы управления библиотекой AI-инструкций (принцип Ratchet).
Адаптируй под мою задачу: {твоя задача и область}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит о твоей области работы, размере существующей библиотеки правил и как ты сейчас отслеживаешь что работает — потому что без этого невозможно настроить критерии отставки и формат аудита под конкретный контекст.
Ограничения
⚠️ Холодный старт: Правило нужно применить минимум 5–10 раз чтобы судить — работает ли оно. Для пользователей с редкими задачами накопление доказательств займёт недели.
⚠️ Размытые задачи: Принцип плохо работает для субъективного контента — когда нельзя чётко определить «провал» vs «успех». Нужен ясный критерий качества.
⚠️ Жёсткая отставка вредит больше чем мягкая: Один из самых неожиданных результатов исследования — слишком быстрое удаление правил (после 20 применений вместо 100) давало результат хуже чем полное отсутствие правил. Накапливай достаточно данных прежде чем удалять.
⚠️ Масштабирование: Ручной аудит работает до ~50 правил. Дальше нужна автоматизация или структурированная таблица с трекингом.
Как исследовали
Идея была простой: предыдущий бенчмарк (SkillsBench) показал, что LLM сами себе пишут бесполезные правила (+0% к результату), а правила от людей дают +16.2%. Исследователи поставили вопрос: а что если проблема не в том, кто пишет, а в том, кто управляет библиотекой?
Команда взяла 100 сложных задач на Python-программирование, разделила 60/40 (обучение / проверка), и запустила систему на 100 раундов с Claude Opus 4.7. На старте модель решала ~26% задач. Без управления библиотекой результат практически не менялся (+0.2%). С полным рецептом Ratchet — вырос до 58–66%.
Самые интересные находки пришли из восьми экспериментов, где отключали по одному компоненту. Удаление мета-шаблона (единого формата правил) забирало почти половину прироста. Слишком агрессивное удаление правил (после 20 применений вместо 100) давало результат хуже нулевого — правила удалялись на случайных данных раньше чем набирали достаточно сигнала. А явная дедупликация (поиск похожих правил) неожиданно оказалась лишней: мета-шаблон сам обеспечивал достаточную однородность стиля.
В конце проверили на другом типе задач — реальных баг-репортах из GitHub (SWE-bench Verified). За 20 раундов система подняла долю решённых задач с 65% до 87%. Это подтвердило: принципы переносятся за пределы одного домена без изменений архитектуры.
Адаптации и экстраполяции
🔧 Техника: разделить роли «диагност» и «автор правила»
В оригинале Critic и Synthesizer — разные роли. В ручном применении: сначала попроси AI диагностировать провал и назвать паттерн. Затем — отдельным запросом — написать правило. Это убирает самообман: когда диагноз и правило пишет один запрос, AI склонен «подтянуть» правило под то что уже хотело сказать.
🔧 Техника: испытательный срок вместо немедленного добавления
Новые правила — сначала в «кандидаты». Помечай их
[НОВОЕ]в документе. После 3–5 применений решай переводить в активные или удалять. Это прямой аналог CANDIDATE-статуса из Ratchet.
🔧 Экстраполяция: тот же принцип для промпт-шаблонов команды
Если несколько человек используют общие промпты (маркетинговая команда, редакция, юристы) — корпоративная библиотека промптов деградирует по той же причине: все добавляют, никто не удаляет. Квартальный аудит по принципу Ratchet: вердикт по каждому шаблону, удаление неработающих, обновление мета-шаблона формата.
Ресурсы
«Ratchet: A Minimal Hygiene Recipe for Self-Evolving LLM Agents» — Xing Zhang, Yanwei Cui, Guanghui Wang, Peiyang He (AWS Generative AI Innovation Center); Ziyuan Li, Wei Qiu, Bing Zhu (HSBC Technology Center, China)
Связанные работы упомянутые в исследовании: Voyager (1), SkillsBench (2), Reflexion (4), AutoManual (9), RuleShaping (6)
