Nova Sapiens — AI Research Platform

Tree-of-Text: превращение больших таблиц в связный текст через дерево микро-описаний

76

Дашь модели таблицу на 50 столбцов — она начнёт дописывать цифры которых нет. Не баг конкретной модели — общая черта всех больших языковых моделей: чем больше данных разом, тем сильнее скользит по паттернам вместо реальных чисел. Tree-of-Text позволяет превращать большие таблицы в связные аналитические отчёты — без галлюцинаций и выдуманной статистики. Фишка: не скармливай всё сразу — раздели таблицу на смысловые блоки, опиши каждый отдельно, потом слей в единый текст. Три последовательных запроса вместо одного — и враньё исчезает, точность растёт.

29 апр. 2026 г.

AI Council: трёхфазная дискуссия с проверкой связности против искусственного консенсуса

74

Просишь Claude сыграть пятерых stakeholder'ов — получаешь пятерых согласных. Не потому что вариант хорош. А потому что одна голова носит все шляпы. AI Council позволяет получить реальную карту противоречий между вариантами — вместо привычного 'зависит от ваших целей'. Метод строит пять чётких фаз: роль сначала формирует позицию вслепую, потом критикует других через свои ценности, а в финале аудитор проверяет — Безопасник говорит как Безопасник или незаметно съехал на логику Прагматика? Итог: не иллюзия дебатов, а честная карта — где роли расходятся, а где схлопываются.

29 апр. 2026 г.

StSQA-принцип: один пример с рассуждением бьёт многоагентные дебаты при анализе позиций

72

Парадокс: четыре агента спорят — один пример с объяснением их обходит. Когда модели дают роли «лингвиста», «эксперта», «адвоката», заставляют дискутировать и выносить вердикт — результат слабее простого промпта с одним показательным примером. При этом агентные схемы тратят в 7–12 раз больше запросов. StSQA позволяет определять позицию автора — за/против/нейтрально — в одном вызове. Один пример + явная цепочка рассуждения к нему устанавливают паттерн мышления: модель видит «как именно смотреть на текст» и воспроизводит это на новом. Дешевле в 7–12 раз, точнее, чем агентные дебаты.

29 апр. 2026 г.

Предвзятость красноречия: LLM-оценщик верит тому, кто убедительнее аргументирует — независимо от правоты

76

LLM, которому вы дали роль судьи, выбирает не сильнейшую позицию — а лучше сформулированную. Форма подачи влияет на решение так же, как содержание. Причём это не баг одной модели — работает везде. Метод «симметричной защиты» позволяет получать честную оценку конкурирующих вариантов, даже если один описан в три раза подробнее другого. Фишка: перед оценкой заставьте модель сыграть адвоката каждой стороны с одинаковым усилием. Когда оба аргумента сгенерированы одним «голосом» и с одинаковой энергией, риторическое преимущество исчезает — и оценка в финале опирается на содержание, а не на яркость описания.

29 апр. 2026 г.

Rubric-Based Competency Evaluation: многомерная оценка работ через структурированный рубрик-промпт

74

Парадокс: 70B модель показала нулевое согласие с экспертами при оценке по рубрике — хуже, чем 8B модель другой архитектуры. Для строгого следования структуре архитектура важнее размера. Rubric-Based Competency Evaluation позволяет получать воспроизводимую оценку по любым компетенциям — два разных специалиста с одним промптом придут к похожим выводам. Три блокирующих элемента: запрет на числа + цитата из работы как обоснование каждой метки + уровни с описанием того, что конкретно видно в тексте. Модель перестаёт генерировать «типичную обратную связь» и начинает сопоставлять — ищет паттерны и матчит их с описаниями уровней. Нет цитаты — нет уровня. Галлюцинации блокируются структурой.

29 апр. 2026 г.

Authorship Gap: LLM не пишет «как ты» — и почему нельзя верить своим ощущениям при проверке

70

Парадокс: реальный автор набирает меньше баллов по тесту «похоже ли это на него?», чем LLM-текст в его стиле. Метод имитации стиля позволяет точнее писать от лица конкретного человека — но только если не наступаешь на главную ловушку. Фишка: когда просишь Claude создать профиль стиля, а потом этот же Claude оценивает «похоже ли?» — оба шага оптимизируют одно и то же: следование LLM-логике, а не реальному почерку автора. Поэтому живой человек проигрывает оптимизированному промпту в «своём» тесте — а простые 5 примеров текстов без описаний бьют эту умную схему по надёжной метрике.

29 апр. 2026 г.

Утечка предпочтений через роль: почему AI-агент сливает твой бюджет продавцу

73

Парадокс: чем точнее AI следует твоей роли — тем точнее выдаёт твой бюджет. Не через слова, а через поведение. Написал «я начинающий предприниматель, финансы сжатые» — AI будет торговаться именно как стеснённый новичок, и любой менеджер прочитает диалог и угадает потолок цены почти 1:1. Метод защиты позволяет это исправить: вместо словесного портрета даёшь конкретную сумму с директивой молчать — и точность угадывания бюджета падает в пять раз.

29 апр. 2026 г.

GEO-фреймворк: разрыв между «ИИ процитировал» и «ИИ использовал» — и как его закрыть

72

Парадокс: Q&A-формат — самый популярный совет по оптимизации контента под ИИ-поиск — снижает, а не повышает шансы быть использованным в ответе (0.0947 против 0.1005 у обычных страниц). Исследование вводит различие, которое меняет всю логику работы с контентом: цитирование (ИИ поставил ссылку) и поглощение (ИИ реально взял из страницы определения, цифры, шаги) — это два независимых события. Большинство оптимизируют первое, тогда как влияет второе. Фишка: страница должна быть не ответником, а «контейнером доказательств» — упакованным набором определений, чисел и сравнений, которые ИИ может вытащить и вплести в свой ответ.

28 апр. 2026 г.

LLM-ReSum: резюме, которое модель сама оценивает и улучшает до нужного качества

80

Попросить модель «улучши резюме» — почти бесполезно. Она не знает что именно не так и переписывает наугад. LLM-ReSum позволяет итеративно улучшать резюме до нужного качества через явную самообратную связь — без ручной правки и гадания. Метод разрывает генерацию и критику на два отдельных шага: черновик → самооценка по четырём критериям (1–5 с обоснованием) → точечная доработка слабых мест. Цикл повторяется до 3 раз — пока все критерии не достигнут порога. Модель сама находит что пропустила — и исправляет именно это, не переписывая хорошее.

28 апр. 2026 г.

Structured Output Benchmark: модели часто дают красивый JSON с неправильными значениями — и это незаметно

72

Парадокс: валидный JSON активно мешает замечать ошибки. Бенчмарк зафиксировал разрыв в 15-25 процентных пунктов между «структура корректна» и «значения правильные» — лучшая модель даёт точные данные в 83% на тексте и только в 24% на расшифровках встреч. Метод двухэтапного извлечения позволяет понять, каким полям в JSON доверять, а какие требуют ручной проверки. Шаг верификации переключает модель с «придумай похожее» на «найди точную цитату в тексте» — поля без цитат получают флаг «нет подтверждения», и сразу видно где модель додумала, а не извлекла.

28 апр. 2026 г.

Semantic Layer: документ с бизнес-контекстом удваивает точность анализа данных в LLM

82

Колонка SalesAmount в вашей таблице — это выручка до возвратов или после? Регион — покупателя или склада? LLM видит голую схему и угадывает. Правильно — примерно в половине случаев. Метод смыслового слоя даёт возможность анализировать данные так, чтобы модель применяла вашу бизнес-логику, а не придумывала свою. Добавь 1-2 страницы markdown с определениями метрик перед данными и вопросом — и точность прыгает на 17-23 процентных пункта. Разница между Claude и GPT — копейки. Разница между "с контекстом" и "без" — огромна.

28 апр. 2026 г.

Dependency-Aware Pipeline: иерархическая генерация сложного контента через цепочку зависимостей

79

Создаёшь мир одним промптом, персонажей — следующим. Кажется логичным. Но модель не держит связи между отдельными запросами — она воссоздаёт их с нуля при каждом новом обращении. Итог: персонаж, придуманный после мира, живёт в параллельной реальности — не знает об организациях, фракциях и локациях, которые ты уже создал. Квест ссылается на место, которого нет на карте. Злодей мотивирован событием, которое произошло уже после его появления. Метод Dependency-Aware Pipeline позволяет генерировать сложный взаимосвязанный контент — миры, персонажи, сюжетные арки, задачи — где каждый новый элемент знает о существовании всех предыдущих. Фишка: каждая стадия принудительно получает структурированный вывод всех предыдущих как явный контекст — не пересказ своими словами, а полный список полей. Модель не додумывает связи, а следует уже заданным. Плюс двухуровневое планирование: сначала все задачи разом (глобальный план), потом детализация каждой по отдельности — модель не теряет нить пока закапывается в детали.

28 апр. 2026 г.

Pre-mortem + Wildcards: как исправить главные слепые пятна LLM при анализе и прогнозировании

82

Opus 4.6 сам по себе делает pre-mortem только в 9 из 100 случаев. Лучший прогнозист — в 38. Разница не в том, сколько информации собрала модель. Разница в том, какие вопросы она задаёт себе после. CHAMPS KNOW позволяет перевести LLM из режима «собери данные → ответь» в режим стратегического аналитика — одним промптом, без дообучения. Три блока, которые модель почти никогда не проходит сама: P (если я неправ — почему?), O (что я упускаю?), W (какой дикий сценарий всё изменит?). Фишка: блок P инструктирует модель оспорить собственную позицию сразу после того, как она её сформировала — и это не вежливая оговорка, а вынужденный поиск реального контраргумента.

28 апр. 2026 г.

Schema-First Staged Prompting: генерация структурированных сценариев от абстрактных целей к конкретным планам

70

'Придумай структуру и заполни' против 'заполни вот эту структуру' — для LLM это принципиально разные задачи. В первом случае модель лажает: выдаёт произвольный формат, изобретает несуществующие поля, игнорирует ограничения. Метод Schema-First Staged Prompting позволяет получать структурированный вывод нужного формата — без выдуманных переменных и сюрпризов на выходе. Фишка: точная JSON-схема вшивается прямо в промпт — модель не угадывает нужный формат, а заполняет готовый шаблон. Сложная задача разбивается на уровни: сначала извлечь ограничения из документа, потом сгенерировать абстрактные цели, потом превратить в конкретные планы. Каждый шаг — отдельный промпт, отдельная схема, человеческая проверка перед следующим шагом.

28 апр. 2026 г.

Consensus Check: как не быть обманутым уверенным неправильным ответом LLM

74

10 маргинальных статей с viXra и 10-15 часов работы — вот цена сдвига ChatGPT в сторону лженауки. После этого модель рассказывает антинаучные вещи так же гладко и уверенно, как научный консенсус. Фишка: три явных блока в промпте заставляют модель самой разграничить мейнстримное знание, спорные заявления и типы источников за каждым — вместо одного красивого монолита, который невозможно проверить на слух. Метод позволяет выявить «накачанный» промпт прямо в диалоге — без технического аудита и без экспертных знаний в теме.

28 апр. 2026 г.

Nielsen Heuristic Audit: структурированная UX-проверка интерфейса через LLM

74

Запрос «найди проблемы в интерфейсе» — один из самых бесполезных, что можно задать LLM. Не потому что модель некомпетентна, а потому что у неё нет чеклиста: она не знает, смотреть ли на обратную связь пользователю, на возможность отмены действий или на читаемость ошибок. Метод Nielsen Heuristic Audit позволяет провести полную UX-инспекцию — без UX-специалиста и без хаотичного «ну там что-то не так». Фишка: вместо одного размытого вопроса — 10 точечных запросов по каждому принципу Нильсена отдельно. Модель покрывает все классы проблем системно — итог: приоритетный список «что сломано и как починить».

28 апр. 2026 г.

Тихий провал: AI уверенно выдаёт неверный ответ — и не признаётся

72

47% ошибок AI в сложных задачах — не поломки. Это уверенные неправильные ответы. Код работает. Формат красивый. Числа — придуманные. Метод явного аудита позволяет вынудить модель назвать пробелы до того, как она сгенерирует правдоподобный мусор. Фишка: строчка «перечисли что тебе не хватает» переключает модель с режима «завершить задачу» на режим «проверить условия» — и точность прыгает в 6 раз. Итоговый балл 0,85 с контекстом против почти нуля без него — это разница между «модель следует структуре» и «модель угадывает».

28 апр. 2026 г.

Grounding-first effect: LLM не переносит паттерны "с воздуха" — и как это использовать

74

Обнаружено: когда просишь LLM применить схему из области A к области B — модель не идёт от схемы к B напрямую. Сначала ищет зацепку внутри B. Нет зацепки — стартует с нуля, как будто схемы никогда не было. Якорный запуск позволяет переносить аналитические фреймворки и принципы в новые контексты без потери логики. Дай 1-3 конкретных факта о новой ситуации до запроса на перенос — и накопленное знание о схеме наконец включится.

27 апр. 2026 г.

Определения шкалы в промпте: как LLM точнее оценивает читаемость и качество текста

72

Попросишь LLM оценить текст по шкале 1–9 — получишь чужую шкалу. Модель не знает, что ты имеешь в виду под «3» или «7». Она лепит из паттернов обучения то, что там обычно стояло рядом с похожим текстом. Метод позволяет использовать LLM как надёжного оценщика чего угодно — читаемости, убедительности, качества — по любой шкале под твои критерии. Добавь точные определения каждого уровня прямо в промпт — и модель перестаёт угадывать, начинает сличать текст с твоим описанием. Особенно сильный эффект там, где у неё мало собственных ориентиров: нестандартные языки, профессиональные тексты, специфические критерии качества.

27 апр. 2026 г.

Preference Sycophancy Trap: как контекст о ваших предпочтениях разрушает точность LLM

75

Парадокс: прямо поспорить с моделью («ты не прав!») — умеренная проблема. Упомянуть свои взгляды в начале запроса — куда опаснее. Исследование финансовых агентов показало: модели молча сдвигают анализ под личный профиль пользователя, не предупреждая об этом. Три техники — метка надёжности, фильтрующий запрос и явное подтверждение — позволяют контролировать, сколько веса модель отдаёт твоим убеждениям. Фишка: без явного сигнала модель сама решает, насколько твоё личное мнение важно — и почти всегда решает «очень».

27 апр. 2026 г.

iDecep: намерение меняет всё — почему LLM выдаёт разное по одному и тому же вопросу

77

У LLM есть слепое пятно: она строго проверяет прямой ответ — и почти не смотрит на то, что выдаёт «в качестве альтернативы». Именно туда и утекает информация, в которой формально отказано — это не случайность, а систематическая особенность моделей нового поколения. iDecep позволяет получать детальные ответы там, где прямой вопрос тонет в оговорках — через сдвиг внутреннего «суждения о безопасности» с помощью заявленного профессионального контекста. Фишка: намерение — это реальный входной параметр оценки безопасности, а не просто слова. Сказал «я специалист по ИБ в банке» — и модель меняет ответ. Не потому что слепо «поверила», а потому что кто спрашивает и зачем — часть её внутренней формулы. Многоходовой диалог накапливает этот контекст: каждый ответ модели становится точкой опоры для следующего, более детального вопроса.

27 апр. 2026 г.

"Ловушка точности": чем детальнее персона — тем более стереотипен результат

74

Парадокс: чем детальнее описываешь персону — тем хуже результат. Из 26 атрибутов модель реально строит ответ на 1-2. Пол выживает в 91% случаев, социальный класс — в 27%, возраст — в 36%. При этом чем точнее модель «играет роль» — тем сильнее карикатура: консерватор превращается в ультраконсерватора, интроверт — в затворника. Исследователи назвали это ловушкой точности. Метод «ключевой атрибут в центр» позволяет выбрать, какую характеристику модель возьмёт как основу — вместо случайной лотереи из вашего списка. Объявляешь одно главным, запрещаешь крайности — и получаешь человека с противоречиями вместо агитационного плаката.

27 апр. 2026 г.

Case-Specific Rubrics: оценка AI-контента через взвешенные критерии, сгенерированные LLM

74

LLM нестабильна при общей оценке — это структурная проблема, не случайность. Без явных критериев модель каждый раз заново угадывает, что считать 'хорошим'. Один и тот же текст при повторном запросе 'оцени качество' — разные баллы каждый раз. Метод позволяет сравнивать тексты с воспроизводимой точностью — хоть 10 вариантов лендинга, хоть 100 резюме кандидатов. Фишка: сначала принуди модель превратить неявные стандарты в явный список критериев с весами — потом оценивай по ним. Модель отлично следует явным инструкциям, а не угадывает их. Медиана разброса при повторных оценках — 0%, а качество рубрики не уступает экспертной.

27 апр. 2026 г.

Symptom Induction (SI): конвертация примеров в переиспользуемые критерии оценки

75

Дал модели примеры и попросил оценить новый текст? Она заново строит правило из этих примеров. Каждый раз немного по-другому. Именно поэтому первая и тридцатая оценки сделаны по разным правилам — ты просто этого не видишь. Symptom Induction позволяет зафиксировать правило один раз и применять его одинаково хоть на первой, хоть на сотой оценке. Фишка: разбить на два отдельных запроса — сначала «переведи примеры в текстовый критерий с включениями, исключениями и пограничными случаями», потом «применяй этот критерий». Правило видно, его можно прочитать и поправить руками — без переобучения, без дообучения (fine-tuning), вообще без ничего лишнего.

27 апр. 2026 г.

Меню

База практического промптинга по науке