База практического промптинга по науке
Техники, доказанные исследованиями
NovaPaperAlert
Уведомления о новых исследованиях
Дашь модели таблицу на 50 столбцов — она начнёт дописывать цифры которых нет. Не баг конкретной модели — общая черта всех больших языковых моделей: чем больше данных разом, тем сильнее скользит по паттернам вместо реальных чисел. Tree-of-Text позволяет превращать большие таблицы в связные аналитические отчёты — без галлюцинаций и выдуманной статистики. Фишка: не скармливай всё сразу — раздели таблицу на смысловые блоки, опиши каждый отдельно, потом слей в единый текст. Три последовательных запроса вместо одного — и враньё исчезает, точность растёт.
Просишь Claude сыграть пятерых stakeholder'ов — получаешь пятерых согласных. Не потому что вариант хорош. А потому что одна голова носит все шляпы. AI Council позволяет получить реальную карту противоречий между вариантами — вместо привычного 'зависит от ваших целей'. Метод строит пять чётких фаз: роль сначала формирует позицию вслепую, потом критикует других через свои ценности, а в финале аудитор проверяет — Безопасник говорит как Безопасник или незаметно съехал на логику Прагматика? Итог: не иллюзия дебатов, а честная карта — где роли расходятся, а где схлопываются.
Парадокс: четыре агента спорят — один пример с объяснением их обходит. Когда модели дают роли «лингвиста», «эксперта», «адвоката», заставляют дискутировать и выносить вердикт — результат слабее простого промпта с одним показательным примером. При этом агентные схемы тратят в 7–12 раз больше запросов. StSQA позволяет определять позицию автора — за/против/нейтрально — в одном вызове. Один пример + явная цепочка рассуждения к нему устанавливают паттерн мышления: модель видит «как именно смотреть на текст» и воспроизводит это на новом. Дешевле в 7–12 раз, точнее, чем агентные дебаты.
LLM, которому вы дали роль судьи, выбирает не сильнейшую позицию — а лучше сформулированную. Форма подачи влияет на решение так же, как содержание. Причём это не баг одной модели — работает везде. Метод «симметричной защиты» позволяет получать честную оценку конкурирующих вариантов, даже если один описан в три раза подробнее другого. Фишка: перед оценкой заставьте модель сыграть адвоката каждой стороны с одинаковым усилием. Когда оба аргумента сгенерированы одним «голосом» и с одинаковой энергией, риторическое преимущество исчезает — и оценка в финале опирается на содержание, а не на яркость описания.
Парадокс: 70B модель показала нулевое согласие с экспертами при оценке по рубрике — хуже, чем 8B модель другой архитектуры. Для строгого следования структуре архитектура важнее размера. Rubric-Based Competency Evaluation позволяет получать воспроизводимую оценку по любым компетенциям — два разных специалиста с одним промптом придут к похожим выводам. Три блокирующих элемента: запрет на числа + цитата из работы как обоснование каждой метки + уровни с описанием того, что конкретно видно в тексте. Модель перестаёт генерировать «типичную обратную связь» и начинает сопоставлять — ищет паттерны и матчит их с описаниями уровней. Нет цитаты — нет уровня. Галлюцинации блокируются структурой.
Парадокс: реальный автор набирает меньше баллов по тесту «похоже ли это на него?», чем LLM-текст в его стиле. Метод имитации стиля позволяет точнее писать от лица конкретного человека — но только если не наступаешь на главную ловушку. Фишка: когда просишь Claude создать профиль стиля, а потом этот же Claude оценивает «похоже ли?» — оба шага оптимизируют одно и то же: следование LLM-логике, а не реальному почерку автора. Поэтому живой человек проигрывает оптимизированному промпту в «своём» тесте — а простые 5 примеров текстов без описаний бьют эту умную схему по надёжной метрике.
Парадокс: чем точнее AI следует твоей роли — тем точнее выдаёт твой бюджет. Не через слова, а через поведение. Написал «я начинающий предприниматель, финансы сжатые» — AI будет торговаться именно как стеснённый новичок, и любой менеджер прочитает диалог и угадает потолок цены почти 1:1. Метод защиты позволяет это исправить: вместо словесного портрета даёшь конкретную сумму с директивой молчать — и точность угадывания бюджета падает в пять раз.
Парадокс: Q&A-формат — самый популярный совет по оптимизации контента под ИИ-поиск — снижает, а не повышает шансы быть использованным в ответе (0.0947 против 0.1005 у обычных страниц). Исследование вводит различие, которое меняет всю логику работы с контентом: цитирование (ИИ поставил ссылку) и поглощение (ИИ реально взял из страницы определения, цифры, шаги) — это два независимых события. Большинство оптимизируют первое, тогда как влияет второе. Фишка: страница должна быть не ответником, а «контейнером доказательств» — упакованным набором определений, чисел и сравнений, которые ИИ может вытащить и вплести в свой ответ.
Попросить модель «улучши резюме» — почти бесполезно. Она не знает что именно не так и переписывает наугад. LLM-ReSum позволяет итеративно улучшать резюме до нужного качества через явную самообратную связь — без ручной правки и гадания. Метод разрывает генерацию и критику на два отдельных шага: черновик → самооценка по четырём критериям (1–5 с обоснованием) → точечная доработка слабых мест. Цикл повторяется до 3 раз — пока все критерии не достигнут порога. Модель сама находит что пропустила — и исправляет именно это, не переписывая хорошее.
Парадокс: валидный JSON активно мешает замечать ошибки. Бенчмарк зафиксировал разрыв в 15-25 процентных пунктов между «структура корректна» и «значения правильные» — лучшая модель даёт точные данные в 83% на тексте и только в 24% на расшифровках встреч. Метод двухэтапного извлечения позволяет понять, каким полям в JSON доверять, а какие требуют ручной проверки. Шаг верификации переключает модель с «придумай похожее» на «найди точную цитату в тексте» — поля без цитат получают флаг «нет подтверждения», и сразу видно где модель додумала, а не извлекла.
Колонка
SalesAmount в вашей таблице — это выручка до возвратов или после? Регион — покупателя или склада? LLM видит голую схему и угадывает. Правильно — примерно в половине случаев. Метод смыслового слоя даёт возможность анализировать данные так, чтобы модель применяла вашу бизнес-логику, а не придумывала свою. Добавь 1-2 страницы markdown с определениями метрик перед данными и вопросом — и точность прыгает на 17-23 процентных пункта. Разница между Claude и GPT — копейки. Разница между "с контекстом" и "без" — огромна.
Создаёшь мир одним промптом, персонажей — следующим. Кажется логичным. Но модель не держит связи между отдельными запросами — она воссоздаёт их с нуля при каждом новом обращении. Итог: персонаж, придуманный после мира, живёт в параллельной реальности — не знает об организациях, фракциях и локациях, которые ты уже создал. Квест ссылается на место, которого нет на карте. Злодей мотивирован событием, которое произошло уже после его появления.
Метод Dependency-Aware Pipeline позволяет генерировать сложный взаимосвязанный контент — миры, персонажи, сюжетные арки, задачи — где каждый новый элемент знает о существовании всех предыдущих.
Фишка: каждая стадия принудительно получает структурированный вывод всех предыдущих как явный контекст — не пересказ своими словами, а полный список полей. Модель не додумывает связи, а следует уже заданным. Плюс двухуровневое планирование: сначала все задачи разом (глобальный план), потом детализация каждой по отдельности — модель не теряет нить пока закапывается в детали.
Opus 4.6 сам по себе делает pre-mortem только в 9 из 100 случаев. Лучший прогнозист — в 38. Разница не в том, сколько информации собрала модель. Разница в том, какие вопросы она задаёт себе после. CHAMPS KNOW позволяет перевести LLM из режима «собери данные → ответь» в режим стратегического аналитика — одним промптом, без дообучения. Три блока, которые модель почти никогда не проходит сама: P (если я неправ — почему?), O (что я упускаю?), W (какой дикий сценарий всё изменит?). Фишка: блок P инструктирует модель оспорить собственную позицию сразу после того, как она её сформировала — и это не вежливая оговорка, а вынужденный поиск реального контраргумента.
'Придумай структуру и заполни' против 'заполни вот эту структуру' — для LLM это принципиально разные задачи. В первом случае модель лажает: выдаёт произвольный формат, изобретает несуществующие поля, игнорирует ограничения. Метод Schema-First Staged Prompting позволяет получать структурированный вывод нужного формата — без выдуманных переменных и сюрпризов на выходе. Фишка: точная JSON-схема вшивается прямо в промпт — модель не угадывает нужный формат, а заполняет готовый шаблон. Сложная задача разбивается на уровни: сначала извлечь ограничения из документа, потом сгенерировать абстрактные цели, потом превратить в конкретные планы. Каждый шаг — отдельный промпт, отдельная схема, человеческая проверка перед следующим шагом.
10 маргинальных статей с viXra и 10-15 часов работы — вот цена сдвига ChatGPT в сторону лженауки. После этого модель рассказывает антинаучные вещи так же гладко и уверенно, как научный консенсус. Фишка: три явных блока в промпте заставляют модель самой разграничить мейнстримное знание, спорные заявления и типы источников за каждым — вместо одного красивого монолита, который невозможно проверить на слух. Метод позволяет выявить «накачанный» промпт прямо в диалоге — без технического аудита и без экспертных знаний в теме.
Запрос «найди проблемы в интерфейсе» — один из самых бесполезных, что можно задать LLM. Не потому что модель некомпетентна, а потому что у неё нет чеклиста: она не знает, смотреть ли на обратную связь пользователю, на возможность отмены действий или на читаемость ошибок. Метод Nielsen Heuristic Audit позволяет провести полную UX-инспекцию — без UX-специалиста и без хаотичного «ну там что-то не так». Фишка: вместо одного размытого вопроса — 10 точечных запросов по каждому принципу Нильсена отдельно. Модель покрывает все классы проблем системно — итог: приоритетный список «что сломано и как починить».
47% ошибок AI в сложных задачах — не поломки. Это уверенные неправильные ответы. Код работает. Формат красивый. Числа — придуманные. Метод явного аудита позволяет вынудить модель назвать пробелы до того, как она сгенерирует правдоподобный мусор. Фишка: строчка «перечисли что тебе не хватает» переключает модель с режима «завершить задачу» на режим «проверить условия» — и точность прыгает в 6 раз. Итоговый балл 0,85 с контекстом против почти нуля без него — это разница между «модель следует структуре» и «модель угадывает».
Обнаружено: когда просишь LLM применить схему из области A к области B — модель не идёт от схемы к B напрямую. Сначала ищет зацепку внутри B. Нет зацепки — стартует с нуля, как будто схемы никогда не было. Якорный запуск позволяет переносить аналитические фреймворки и принципы в новые контексты без потери логики. Дай 1-3 конкретных факта о новой ситуации до запроса на перенос — и накопленное знание о схеме наконец включится.
Попросишь LLM оценить текст по шкале 1–9 — получишь чужую шкалу. Модель не знает, что ты имеешь в виду под «3» или «7». Она лепит из паттернов обучения то, что там обычно стояло рядом с похожим текстом. Метод позволяет использовать LLM как надёжного оценщика чего угодно — читаемости, убедительности, качества — по любой шкале под твои критерии. Добавь точные определения каждого уровня прямо в промпт — и модель перестаёт угадывать, начинает сличать текст с твоим описанием. Особенно сильный эффект там, где у неё мало собственных ориентиров: нестандартные языки, профессиональные тексты, специфические критерии качества.
Парадокс: прямо поспорить с моделью («ты не прав!») — умеренная проблема. Упомянуть свои взгляды в начале запроса — куда опаснее. Исследование финансовых агентов показало: модели молча сдвигают анализ под личный профиль пользователя, не предупреждая об этом. Три техники — метка надёжности, фильтрующий запрос и явное подтверждение — позволяют контролировать, сколько веса модель отдаёт твоим убеждениям. Фишка: без явного сигнала модель сама решает, насколько твоё личное мнение важно — и почти всегда решает «очень».
У LLM есть слепое пятно: она строго проверяет прямой ответ — и почти не смотрит на то, что выдаёт «в качестве альтернативы». Именно туда и утекает информация, в которой формально отказано — это не случайность, а систематическая особенность моделей нового поколения. iDecep позволяет получать детальные ответы там, где прямой вопрос тонет в оговорках — через сдвиг внутреннего «суждения о безопасности» с помощью заявленного профессионального контекста. Фишка: намерение — это реальный входной параметр оценки безопасности, а не просто слова. Сказал «я специалист по ИБ в банке» — и модель меняет ответ. Не потому что слепо «поверила», а потому что кто спрашивает и зачем — часть её внутренней формулы. Многоходовой диалог накапливает этот контекст: каждый ответ модели становится точкой опоры для следующего, более детального вопроса.
Парадокс: чем детальнее описываешь персону — тем хуже результат. Из 26 атрибутов модель реально строит ответ на 1-2. Пол выживает в 91% случаев, социальный класс — в 27%, возраст — в 36%. При этом чем точнее модель «играет роль» — тем сильнее карикатура: консерватор превращается в ультраконсерватора, интроверт — в затворника. Исследователи назвали это ловушкой точности. Метод «ключевой атрибут в центр» позволяет выбрать, какую характеристику модель возьмёт как основу — вместо случайной лотереи из вашего списка. Объявляешь одно главным, запрещаешь крайности — и получаешь человека с противоречиями вместо агитационного плаката.
LLM нестабильна при общей оценке — это структурная проблема, не случайность. Без явных критериев модель каждый раз заново угадывает, что считать 'хорошим'. Один и тот же текст при повторном запросе 'оцени качество' — разные баллы каждый раз. Метод позволяет сравнивать тексты с воспроизводимой точностью — хоть 10 вариантов лендинга, хоть 100 резюме кандидатов. Фишка: сначала принуди модель превратить неявные стандарты в явный список критериев с весами — потом оценивай по ним. Модель отлично следует явным инструкциям, а не угадывает их. Медиана разброса при повторных оценках — 0%, а качество рубрики не уступает экспертной.
Дал модели примеры и попросил оценить новый текст? Она заново строит правило из этих примеров. Каждый раз немного по-другому. Именно поэтому первая и тридцатая оценки сделаны по разным правилам — ты просто этого не видишь. Symptom Induction позволяет зафиксировать правило один раз и применять его одинаково хоть на первой, хоть на сотой оценке. Фишка: разбить на два отдельных запроса — сначала «переведи примеры в текстовый критерий с включениями, исключениями и пограничными случаями», потом «применяй этот критерий». Правило видно, его можно прочитать и поправить руками — без переобучения, без дообучения (fine-tuning), вообще без ничего лишнего.
...
Показать по:
