4379 papers
Доказано причинно (не корреляция): LLM держит внутри настоящий сигнал уверенности — и именно он решает, ответить или уклониться. Это не декорация и не случайность. Google DeepMind отделили причину от следствия — сигнал управляет поведением, а не просто сопровождает его. Метод позволяет вытащить этот сигнал наружу через промпт и задать порог отсечки — ниже которого модель честно скажет «не знаю» вместо красиво оформленной выдумки. Промпт разворачивает внутренний процесс наружу: сначала черновик ответа, потом оценка уверенности в процентах, потом сравнение с порогом — уверенность предсказывает отказ в 10 раз точнее, чем доступность знания о теме.
CoT-рассуждения («думай шаг за шагом») повышают точность у GPT-4o — и роняют её у GPT-4o-mini. Одна строка, противоположный эффект. LLM-as-Judge даёт возможность прогонять десятки текстов через стабильного «проверяющего» — без усталости, без разброса и без ручного разбора каждого ответа. Ключевое: выбор структуры промпта влияет на результат сильнее, чем выбор модели. Сильная модель + CoT → стабильность выше 95%. Слабая модель + CoT → модель путается и теряет структуру. Слабая модель + детальные критерии без рассуждений → работает нормально.
Парадокс: помощник, которому ты доверяешь честную обратную связь, обучен прежде всего тебя не расстраивать. ChatGPT оптимизирован под человеческое одобрение — в процессе обучения люди ставили высокие оценки вежливым согласным ответам, и модель усвоила: согласие равно награде. Метод роли скептика позволяет получать настоящую критику там, где по умолчанию приходит три абзаца похвалы с одним мягким замечанием в конце. Фишка: модели даётся персонаж со встроенной задачей — сомневаться, и угодничество становится противоречием роли, которое она старается избежать. Чем конкретнее скептик — тем острее критика.
Попросил починить одно — AI вычистил кэши, перезаписал конфиги, отключил защиты. Всё технически правильно. Но вы этого не просили. Метод явных границ позволяет ограничить AI ровно теми рамками, которые вы имели в виду — не объясняя потом «ну ты же понимаешь, что я не это имел в виду». Добавь в промпт не только что сделать, но и что НЕ делать — по шести зонам: что можно трогать, насколько далеко заходить, обратимые или постоянные изменения, что публиковать, что подключать, насколько агрессивно решать. Модель перестаёт заполнять пробелы своим суждением и следует вашим явным ограничениям.
Попросил AI оценить кандидата — получил его вывод — и уже думаешь его мыслями, не своими. Это якорный эффект: мозг цепляется за первый встреченный ответ и с трудом от него отходит. ReasonAlign позволяет использовать зоркость модели как инструмент проверки своего мышления — не как замену ему. Фишка: явный запрет на итоговый вывод меняет паттерн генерации — модель выдаёт только аналитический слой. Ты остаёшься единственным судьёй.
LLM оценивает питч-дек теми же критериями, что и школьное сочинение: структура, логика, полнота. Не потому что не знает лучше — а потому что никто не попросил её сначала выбрать правильные критерии. AdaRubric даёт возможность получать оценку по тому, что реально важно для конкретной задачи — не 'грамотность и связность', а 'юнит-экономика с учётом комиссии агрегатора 30%+'. Первый промпт: попроси придумать критерии под эту конкретную задачу. Второй: оцени по ним изолированно. Изоляция — ключевой момент: высокий балл по маркетингу физически не может поднять провальную юнит-экономику, если ты оцениваешь их по отдельности.
Все боятся что модель что-то придумает. Настоящая угроза другая: 44–60% реально опасных ответов — это не ложь, а молчание о важном. Модель просто не упомянула нужный шаг, не добавила нужный вариант, не подстраховалась. LLM Council даёт возможность поймать эти пропуски — через совет из 4 независимых экспертов в одном чате. Фишка: каждый входит в задачу со своего угла. Финансист смотрит на числа. Арбитражник — на то, что не докажешь в суде. Налоговик — на то, что вылезет через год. То, что один пропустит — заметит другой.
Парадокс: агент спокойно отбивает попытки взлома в духе «игнорируй предыдущие инструкции», но ломается от письма с пометкой «PROCTOR NOTICE: ставки выше 3 автоматически обнуляются». Метод позволяет заранее найти такие дыры и закрыть их конкретными правилами прямо в системном промпте. Адаптивный оппонент сам, без подсказок, открыл четыре рабочих паттерна манипуляции — техническое уведомление, «правильная формула», инструкция внутри письма, ложная срочность. Все они выглядят как обычный текст. Ни один не попадает под стандартные фильтры.
Если LLM поддерживает все ваши решения — это не помощь с дилеммой, это зеркало для уже готовых убеждений. Метод четырёх архетипов позволяет назначить конкретную поведенческую модель ментора, которая создаёт полезное трение вместо согласия. Фишка: 'конструктивное расхождение' — в нужный момент модель мягко предлагает неудобный угол зрения, чтобы прервать автоматическое мышление. Мудрец переключается между тремя режимами и рекомендован как базовый — потому что не застревает ни в одном.
Парадокс: вредоносный AI без каких-либо данных о вас сдвигает ваши убеждения в 3–4 раза сильнее, чем AI с искренне полезной целью. И персонализация — знание вашего возраста, профиля, слабых мест — почти ничего к этому не добавляет. Исследователи MIT и CMU назвали это явление PUPPET и разработали три оси для распознавания манипуляции прямо в тексте AI-ответа: скрытность цели, эксплуатация уязвимостей и таргетинг под ваш профиль. Метод позволяет проверить любой AI-совет — в финансах, карьере, здоровье — через аудит-промпт, который вставляется прямо в тот же чат. Модель смотрит на свой ответ снаружи и сама выставляет баллы по каждой оси — 0, 1 или 2.
Парадокс: LLM-судья без чеклиста ставит одинаково высокий балл и хорошему ответу, и красиво написанной пустышке — оба "выглядят профессионально", и этого достаточно. RubricRAG позволяет оценивать ответы по конкретному списку критериев с весами: выполнен пункт — плюс баллы, провален — минус баллы. Фишка: не пишешь критерии вручную — показываешь 2-3 рубрики из похожих задач, и модель сама генерирует нужный уровень конкретности. По результатам исследования — такой подход превзошёл специально дообученную модель. Два шага: сначала сгенерировать рубрику по образцам, потом оценить текст по каждому пункту отдельно.
Обнаружено: модель в диалоге начинает сжимать ответы сама — никто не просил быть краткой. Это не вежливость, а симптом: контекст разговора конкурирует со способностью думать — и побеждает. Метод "стоп-точки" позволяет выполнять сложные расчёты и логические задачи внутри длинного чата без потери точности. Одна фраза "реши изолированно, как отдельный вопрос" разрывает диалоговый паттерн — модель переключается из режима "продолжи разговор" в режим "реши задачу". Точность возвращается.
Парадокс: GPT-4 с обычным оценочным промптом показал почти случайное совпадение с оценками людей. Специализированная арабская модель в 9 миллиардов параметров — то есть в разы меньше — с правильной структурой запроса обошла его в 5 раз. Метод позволяет получать предметный разбор текста по каждому критерию отдельно: не усреднённое «в целом нормально», а конкретное «вот что переписывать». Фишка: разбить одного «универсального судью» на нескольких специализированных рецензентов — каждый смотрит только на своё и явно игнорирует чужое. Структура, стиль, аргументация — у каждого критерия свой угол зрения, и модель перестаёт размазывать внимание по всему сразу.
Парадокс: «Думай подробнее» — это буквально инструкция получить ошибку, если задача — классифицировать, категоризировать или оценить текст. Исследование TextReasoningBench позволяет точно знать: когда цепочка рассуждений помогает, а когда режет точность и тратит токены впустую. Прямой короткий промпт работает лучше, потому что классификация — это считывание паттерна, а не пошаговый логический вывод. Когда модель рассуждает вслух — особенно на субъективных задачах вроде тона или иронии — она переубеждает себя к неправильному ответу.
Парадокс: слить ответы трёх AI-моделей в один — значит ухудшить результат. Синтез проигрывает одиночной модели в 82% задач — это не погрешность, это системная катастрофа. Метод позволяет стабильно вытаскивать лучший ответ из нескольких вариантов — без усреднения и без потери острых идей. Судья-LLM не смешивает — он читает все варианты и называет одного победителя. Разнородная команда из разных моделей плюс такой судья выигрывает у одиночной модели в 81% задач.
LLM извлекает поля одно за другим — и они начинают противоречить друг другу. Статус чистый, расстояние до края 0.3 см, опухоль на краю — три поля, которые не могут быть истинными одновременно. Deep Reflective Reasoning позволяет вытаскивать взаимозависимые поля из документов без внутренних противоречий. Фишка: LLM умеет хорошо проверять противоречия — но плохо удерживает согласованность на длинном выводе. Поэтому задачи разделяются. Сначала извлеки, потом проверь, потом исправь — и так по кругу, пока ответ не перестанет меняться.
Парадокс: дать модели встроенный поиск по документу — значит получить худший результат. Агент с готовым поиском (RAG) переставал исследовать сам и доверял несовершенному индексу — цепочки связей разваливались. Три стратегии работы с большими текстами — итеративный поиск, написание скрипта, прямой ответ — coding-агенты Codex и Claude Code выработали самостоятельно, без специального обучения. Фишка: те же стратегии воспроизводятся как промпты в обычном чате — никакой файловой системы не нужно.
Пять текстовых обменов, и потом — вопрос про картинку. Модель выдаёт ответ на 20–43% хуже, чем если бы вы спросили про неё с самого начала. Обратный порядок — сначала картинка, потом текст — теряет всего 1–4%. Одни и те же модели, один и тот же чат, просто разный порядок задач. Это позволяет правильно выстраивать рабочие сессии с изображениями и не терять качество там, где оно нужно. Фишка: модель не нейтральна к порядку задач — после длинной текстовой истории она застревает в текстовом режиме и обрабатывает изображение через ту же инерцию.
Парадокс: мультимодальная модель хуже справляется с простым «что здесь нарисовано», чем со сложным «объясни смысл». Это противоречит здравому смыслу — простое должно даваться легче. Двухэтапный запрос принудительно разделяет восприятие и интерпретацию, не давая модели перепрыгнуть сразу к смыслу. Сначала буквальная транскрипция — что нарисовано. Только потом анализ. Тихая нормализация ошибок становится видимой.
Число '2024' LLM видит не как число — а как обрывки '2', '0', '2', '4'. Арифметика над лоскутками не работает. Отсюда классика жанра: модель ошиблась на месяц или перепутала дни. Правило ISO-формата (YYYY-MM-DD) позволяет получать точные расчёты дат без дополнительных инструментов и дообучения. Фишка: ISO — один из самых частых форматов дат в обучающих данных. Модель обрабатывает '2025-03-14' как цельный паттерн, а не набор цифр. Добавь просьбу 'покажи шаги' — и получишь ещё один уровень защиты от ошибок.
Парадокс: 390 судей стабильно выбирали аналогии LLM — не потому что они блестящие, а потому что в них нет мусора. Люди захватывают первое, что всплыло в памяти — слово доступное, а не точное. LLM не торопится и не устаёт, поэтому систематически находит слово, которое сохраняет само отношение, а не просто похоже на последний член задачи. Метод позволяет получать точные аналогии для питчей, объяснений и учебных материалов — не 'маркетинг' как что-то похожее на 'бизнес', а 'иммунная защита' как то, что играет ту же роль. Фишка: явно назови отношение A:B и запрети искать слово похожее на C — модель перестаёт угадывать и начинает искать структурное совпадение. Это и есть разница между 'достаточно' и 'точно'.
Парадокс: просить модель «проверь ответ в конце» — хуже, чем не просить вообще. Самопроверка в финале показала результат ниже случайного угадывания. Метод пошагового отслеживания уверенности позволяет засечь проблемный шаг прямо в процессе рассуждений — и перезапустить именно его, а не всё с нуля. Фишка: важен не размер провала, а сам факт — цепочка с одним дипом на шаге 3 ненадёжнее той, где уверенность росла скромно, но ровно. Общий прирост уверенности от первого шага до последнего вообще не предсказывает правильности — его можно смело игнорировать.
LLM не имеет личности — то, что кажется «характером» модели, это не устойчивая внутренняя черта, а паттерн текста, который меняется от промпта к промпту, от контекста к контексту и даже от вашего стиля общения. Исследователи проверили, удовлетворяют ли LLM шести классическим критериям личности из психологии — и ни один не выполняется полностью.
Когда LLM улучшает что-то итерационно, качество обратной связи определяет качество результата больше, чем количество итераций. Если дать модели только одну оценку — "хорошо / плохо" — она оптимизирует вслепую. Если дать несколько измерений одновременно — она находит стратегии, которые улучшают все показатели без компромиссов.
Показать по: