3,583 papers
arXiv:2507.04189 85 13 июля 2025 г. FREE

LLM может в одном ответе написать «А — начальник Б» и «Б — начальник А».

КЛЮЧЕВАЯ СУТЬ
LLM может в одном ответе написать «А — начальник Б» и «Б — начальник А». Оба вывода — уверенно, без оговорок. Это не редкость, это норма для любой аналитической задачи с несколькими сущностями. Метод SymbolicThought позволяет систематически находить такие логические дыры и закрывать каждую точечным вопросом — вместо того чтобы переписывать всё с нуля. Фишка: превращаешь задачу «рассуждай» в задачу «выбери из трёх» — и вероятность ошибки резко падает. Модель перестаёт генерировать новые версии реальности и начинает сопоставлять конкретные варианты с конкретными доказательствами. Это принципиально другой режим работы — и он почти не ошибается.
Адаптировать под запрос

Исследование показывает, что большие языковые модели (LLM) часто допускают логические ошибки и генерируют противоречивые сведения при анализе сложных текстов, например, при определении взаимоотношений между персонажами. Авторы предлагают гибридную систему "SymbolicThought", которая сначала использует LLM для извлечения фактов, а затем применяет набор логических правил для автоматического выявления нестыковок и пропущенных связей.

Ключевой результат: Подход, сочетающий генерацию LLM с последующей логической верификацией, значительно повышает точность и полноту анализа, делая выводы модели более надежными и интерпретируемыми.

Суть метода SymbolicThought для практического применения заключается в двухэтапном подходе к решению сложных аналитических задач, который можно воспроизвести вручную.

Этап 1: Извлечение информации (грубая работа). Сначала вы даете LLM общую, широкую задачу: проанализировать текст и извлечь все возможные факты, отношения, аргументы по заданной теме. Вы осознанно принимаете, что на этом этапе ответ модели будет неполным и, вероятно, будет содержать логические ошибки и противоречия.

Этап 2: Логическая верификация и уточнение (тонкая работа). Вы внимательно изучаете полученный ответ и ищете в нем "логические дыры": * Противоречия: Утверждение А противоречит утверждению Б (например, "Иван — начальник Петра" и "Петр — начальник Ивана"). * Нарушение симметрии: Если А — коллега Б, то и Б должен быть коллегой А. Модель часто упускает обратную связь. * Нарушение эксклюзивности: У человека не может быть двух биологических отцов. Модель может заявить обратное. * Пропущенные следствия (транзитивность): Если А — отец Б, а Б — отец В, то А — дедушка В. Модель может не сделать этот вывод.

Обнаружив такую ошибку, вы не просите модель "исправить всё". Вместо этого вы формулируете новый, узконаправленный промпт. В нем вы предоставляете модели контекст (исходный текст), указываете на конкретное противоречие и просите сделать выбор из предложенных вариантов. Это превращает сложную задачу "рассуждай" в простую задачу "выбери", что значительно снижает вероятность ошибки.

  • Прямая применимость: Пользователь может напрямую применять двухэтапный процесс "извлечение -> верификация". Самая ценная техника — это создание уточняющего промпта с множественным выбором для разрешения найденных противоречий. Это прямой и мощный инструмент для повышения надежности ответов.

  • Концептуальная ценность: Исследование дает пользователю ключевое понимание: LLM — это не логическая машина, а вероятностная. Она не "понимает" правила мира (например, что у человека один отец), а лишь воспроизводит паттерны из текста. Поэтому ответы LLM на аналитические задачи требуют обязательной логической проверки, которую можно делегировать самой же модели, но в более строгих рамках.

  • Потенциал для адаптации: Метод легко адаптируется для любой задачи, где важна точность и логическая связность. Вместо анализа персонажей это может быть анализ юридических документов, сравнение технических характеристик товаров, составление сложного плана поездки. Механизм адаптации прост:

    1. Получить от LLM первоначальный развернутый ответ.
    2. Самостоятельно найти в нем логические нестыковки или противоречия.
    3. Сформулировать новый промпт, где вы цитируете проблемные места, предоставляете релевантный контекст из источника и просите модель выбрать единственно верный вариант.

Представим, что вы маркетолог и попросили LLM проанализировать отзывы на новый смартфон. Модель выдала вам сумбурный отчет, в котором есть два противоречащих друг другу вывода.

Ты — внимательный аналитик, специализирующийся на отзывах клиентов. Твоя задача — помочь мне разрешить противоречие, которое я нашел в предварительном анализе.

**# Контекст**

Я анализирую отзывы на новый смартфон "AuraPhone X". В твоем предыдущем отчете были сделаны следующие выводы:
1.  "Большинство пользователей жалуются на очень слабое время автономной работы, утверждая, что телефон едва доживает до вечера".
2.  "Ключевым преимуществом модели, по мнению покупателей, является выдающаяся автономность, позволяющая использовать телефон до двух дней без подзарядки".

Эти два вывода прямо противоречат друг другу.

**# Исходные данные (фрагменты отзывов)**

*   **Отзыв 1 (Олег):** "Камера супер, экран яркий, но батарея — это провал. В 6 вечера уже ищу розетку, хотя утром было 100%."
*   **Отзыв 2 (Анна):** "Не понимаю, кто пишет про слабую батарею. Я отключила функцию Always-On Display, и теперь мне хватает его на полтора, а то и два дня! Просто нужно настроить."
*   **Отзыв 3 (Виктор):** "Телефон хороший, но живет от батареи меньше моего старого. Если активно пользоваться, к ужину уже разряжен."
*   **Отзыв 4 (Мария):** "Главный плюс для меня — автономность. Да, я сразу отключила все ненужные фоновые процессы и 120 Гц экран, и результат превзошел ожидания."

**# Задание**

Проанализируй приведенные отзывы и выбери **единственно верный, наиболее точный и полный вывод** из предложенных ниже вариантов.

**# Варианты для выбора:**

1.  Время автономной работы является однозначно слабым местом модели.
2.  Время автономной работы является сильной стороной модели, но требует от пользователя ручной настройки и отключения некоторых функций.
3.  Время автономной работы является сильной стороной модели без каких-либо условий.

Ответ дай в формате:
**Выбранный вариант:** <номер варианта>
**Обоснование:** <краткое объяснение, почему ты выбрал именно этот вариант, на основе отзывов>

Этот промпт работает, потому что он трансформирует задачу для LLM из сложной и открытой ("проанализируй все отзывы и сделай выводы") в простую и закрытую ("прочитай 4 коротких текста и выбери один из трех вариантов").

  • Снижение когнитивной нагрузки: Модели не нужно держать в "памяти" весь массив информации и самостоятельно синтезировать сложный вывод. Ей нужно лишь сопоставить готовые выводы с предоставленными доказательствами.
  • Фокусировка внимания: Промпт четко указывает на проблему (противоречие) и предоставляет релевантные данные для ее решения. Это не позволяет модели "уйти в сторону" или сгенерировать новую порцию галлюцинаций.
  • Принуждение к логике: Формат multiple-choice заставляет модель провести прямое сравнение и выбрать наиболее логичный вариант, а не пытаться "примирить" непримиримое или выдать усредненный, бессмысленный ответ.

Представим, что вы планируете деловую поездку и LLM составил для вас расписание с накладкой.

Ты — высокоэффективный ассистент по планированию поездок. Помоги мне разрешить конфликт в расписании, которое ты составил для моей поездки в Санкт-Петербург.

**# Контекст**

В предложенном тобой плане на 15 мая есть два мероприятия:
1.  **14:00 - 16:00:** Встреча с партнерами в бизнес-центре "Невский Плаза" (Невский пр., 55).
2.  **15:00 - 17:00:** Участие в отраслевой конференции в "Экспофоруме" (Петербургское ш., 64/1).

Эти два события пересекаются по времени и находятся в разных частях города. Одновременно быть в двух местах невозможно.

**# Исходные данные (мои приоритеты и ограничения)**

*   **Приоритет 1 (самый важный):** Встреча с партнерами в "Невском Плаза". Ее нельзя отменить или перенести.
*   **Приоритет 2:** На конференции в "Экспофоруме" для меня важен только один доклад — выступление спикера Иванова, которое начнется в 16:30.
*   **Логистика:** По данным онлайн-карт, поездка на такси от "Невского Плаза" до "Экспофорума" занимает примерно 1 час.

**# Задание**

Проанализируй мои приоритеты и логистические ограничения. Выбери **единственный оптимальный вариант** корректировки расписания из предложенных ниже.

**# Варианты для выбора:**

1.  Полностью отменить посещение конференции в "Экспофоруме".
2.  Завершить встречу с партнерами в 15:00, чтобы успеть на начало конференции в "Экспофоруме".
3.  Провести встречу с партнерами полностью (до 16:00), а затем поехать в "Экспофорум", чтобы успеть на доклад спикера Иванова в 16:30.

Ответ дай в формате:
**Выбранный вариант:** <номер варианта>
**Обоснование:** <краткое объяснение, почему этот план является оптимальным с учетом моих приоритетов>

Этот пример работает по тому же принципу, что и предыдущий, но в контексте планирования.

  • Явное указание на конфликт: Промпт не просто говорит "план плохой, переделай", а четко идентифицирует проблему — временную и пространственную накладку.
  • Предоставление правил и ограничений: Вместо того чтобы заставлять модель догадываться о ваших предпочтениях, вы даете ей четкие "правила игры": приоритеты встреч и временные ограничения на дорогу.
  • Сужение пространства решений: Вместо бесконечного числа возможных планов, вы предлагаете модели три конкретных сценария. Это превращает творческую задачу "составь план" в логическую задачу "выбери лучший вариант по заданным критериям". Модель с гораздо большей вероятностью выберет вариант №3, так как он идеально соответствует всем указанным условиям, демонстрируя "понимание" приоритетов.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Высокая. Хотя исследование описывает целую систему, его ядро — это метод выявления и исправления логических ошибок LLM. Этот подход можно адаптировать в виде конкретных промпт-стратегий.
  • B. Улучшение качества диалоговых ответов: Высокое. Метод напрямую нацелен на повышение логической консистентности и полноты извлеченной информации, что критически важно для аналитических задач.
  • C. Прямая практическая применимость: Средняя. Пользователь не может воссоздать всю систему SymbolicThought в чате. Однако ключевой принцип — выявление конфликтов и их разрешение через новый, уточняющий промпт с вариантами выбора — абсолютно применим и не требует кода.
  • D. Концептуальная ценность: Очень высокая. Исследование блестяще подсвечивает фундаментальные слабости LLM: неумение работать с логикой (симметрия, транзитивность), склонность к противоречиям и неполноте выводов. Это формирует у пользователя правильную "ментальную модель" LLM как мощного, но небрежного ассистента, которого нужно проверять.
  • E. Новая полезная практика (кластеризация):
    • Кластер 5 (Извлечение и структурирование): Прямое попадание. Это основная задача исследования.
    • Кластер 7 (Надежность и стабильность): Прямое попадание. Весь метод направлен на снижение галлюцинаций и повышение консистентности.
    • Кластер 1 (Техники формулирования промптов): Косвенное, но важное попадание. Предлагается конкретный паттерн промпта для разрешения конфликтов (multiple-choice prompt).
  • Чек-лист практичности (+15 баллов): Да, исследование дает идеи для конструкций промптов, раскрывает неочевидные особенности поведения LLM и предлагает способы улучшить точность и консистентность.
📌

Цифровая оценка полезности

Аргументы в пользу оценки 85: Исследование имеет огромную концептуальную ценность для любого пользователя, который хочет получать от LLM не просто текст, а достоверную, структурированную информацию. Оно объясняет, почему LLM ошибается в логике, и предлагает элегантный способ это исправить. Ключевой метод — верификация через промпт с множественным выбором — это мощная и практичная техника, которую можно применять вручную для критически важных задач. Работа напрямую попадает в кластеры "Извлечение" и "Надежность", что делает ее крайне релевантной.

Контраргументы (почему оценка могла быть выше): Оценка могла бы быть 90+, если бы исследование фокусировалось исключительно на промпт-паттернах, а не на построении сложной human-in-the-loop системы. Принципы, заложенные в SymbolicThought, настолько фундаментальны, что их освоение может кардинально изменить подход пользователя к работе с LLM, переводя его с "наивного запрашивания" на "системную верификацию".

Контраргументы (почему оценка могла быть ниже): Оценка могла бы быть в районе 65-70, так как прямая реализация метода "как в статье" невозможна для обычного пользователя в окне чата. Требуется адаптация и ручное выполнение нескольких шагов (первичный запрос -> анализ ответа -> выявление конфликта -> формирующий промпт для верификации). Это требует от пользователя больше усилий, чем простое применение готовой фразы-усилителя.


📋 Дайджест исследования

Ключевая суть

LLM может в одном ответе написать «А — начальник Б» и «Б — начальник А». Оба вывода — уверенно, без оговорок. Это не редкость, это норма для любой аналитической задачи с несколькими сущностями. Метод SymbolicThought позволяет систематически находить такие логические дыры и закрывать каждую точечным вопросом — вместо того чтобы переписывать всё с нуля. Фишка: превращаешь задачу «рассуждай» в задачу «выбери из трёх» — и вероятность ошибки резко падает. Модель перестаёт генерировать новые версии реальности и начинает сопоставлять конкретные варианты с конкретными доказательствами. Это принципиально другой режим работы — и он почти не ошибается.

Принцип работы

Два шага — не один. Шаг первый: широкий захват. Просишь LLM извлечь все факты и отношения. Принимаешь, что в ответе будут дыры. Шаг второй: логический аудит. Ищешь четыре типа ошибок. Противоречия — А утверждает одно, Б утверждает обратное. Нарушение симметрии — «А коллега Б», но не сказано «Б коллега А». Нарушение эксклюзивности — два биологических отца у одного человека. Пропущенные следствия — «А отец Б, Б отец В», но вывод «А дедушка В» нигде не появился. Нашёл дыру — формируешь точечный промпт: цитата из источника, конкретное противоречие, три варианта на выбор. Не «разберись сам» — а «выбери один из трёх».

Почему работает

LLM не знает правил мира. Она воспроизводит паттерны из обучающих данных. Поэтому ей неизвестно, что у человека один биологический отец. Или что «начальник» — отношение несимметричное. Она просто склеивает фразы, которые встречала рядом. Когда ты сужаешь задачу до выбора из трёх готовых вариантов — модель переключается из режима генерации в режим сопоставления. Генерация рождает ошибки. Сопоставление с конкретными вариантами и доказательствами — почти нет. Разделяешь этапы — разделяешь режимы. Вот и весь секрет.

Когда применять

Подходит для любой задачи, где важна логическая связность. Анализ текстов со множеством персонажей — романы, судебные материалы, интервью. Разбор отзывов, где модель может вытащить взаимоисключающие выводы про один и тот же продукт. Сравнение характеристик товаров или условий договоров — один вывод не должен опровергать другой. Планирование с ограничениями — расписания, маршруты, приоритеты. НЕ подходит для творческих задач без чёткой логики — там внутренние противоречия иногда и есть цель.

Мини-рецепт

1. Вытащи всё разом: Попроси LLM извлечь все факты, отношения или аргументы по теме одним широким запросом. Не пытайся сделать промпт идеальным — нужен сырой материал, а не красивый ответ.
2. Найди дыры вручную: Пройдись по ответу и ищи четыре типа проблем: прямые противоречия, нарушения симметрии, нарушения эксклюзивности, пропущенные следствия. Каждую нестыковку выпиши отдельно.
3. Сформулируй точечный промпт на каждую дыру: Шаблон простой — цитата из источника + конкретное противоречие из предыдущего ответа + три варианта на выбор. Попроси выбрать один и коротко обосновать.
4. Собери финальный ответ: Когда все дыры закрыты — попроси модель собрать итоговый вывод, используя уточнённые ответы как готовую основу.

Примеры

[ПЛОХО] : Проанализируй все отношения между персонажами в тексте и сделай выводы
[ХОРОШО] : В твоём предыдущем анализе есть противоречие. Вывод 1: «Иван подчиняется Сергею». Вывод 2: «Сергей отчитывается перед Иваном». Вот фрагмент текста: [цитата]. Выбери единственно верный вариант: 1) Иван — подчинённый Сергея 2) Сергей — подчинённый Ивана 3) Они коллеги одного уровня. Формат ответа — Выбранный вариант: [номер]. Обоснование: [одно предложение на основе цитаты]
Источник: SymbolicThought: Integrating Language Models and Symbolic Reasoning for Consistent and Interpretable Human Relationship Understanding
ArXiv ID: 2507.04189 | Сгенерировано: 2026-03-02 17:19

Проблемы LLM

ПроблемаСутьКак обойти
Модель нарушает базовые логические правила в анализеПри разборе сложных текстов модель не применяет автоматически три типа логики. Симметрия: если А — коллега Б, то и Б — коллега А. Модель часто упускает обратную связь. Транзитивность: если А Б В, то А связан с В. Модель не делает этот вывод. Исключительность: у человека один биологический отец — модель может заявить двух. Эти ошибки появляются в любом аналитическом тексте: юридические документы, продуктовые сравнения, сложные планыПосле первого широкого ответа проверь его вручную на эти три типа ошибок. Нашёл нестыковку — сформулируй отдельный узкий запрос с выбором из 2–3 вариантов (см. метод ниже)

Методы

МетодСуть
Два этапа: широко извлечь узко уточнитьЭтап 1. Дай модели широкую задачу: извлечь все факты, связи, аргументы. Осознанно принимай, что ответ будет неполным и с ошибками. Этап 2. Найди в ответе логическую нестыковку. Сформулируй новый запрос: укажи противоречие, дай релевантный кусок исходного текста, предложи 2–3 готовых варианта ответа. Пример структуры: # Контекст — вот два противоречащих вывода из предыдущего анализа # Исходные данные — вот фрагменты источника # Задание — выбери единственно верный вариант из трёх. Почему работает: задача "рассуждай и синтезируй" ломается на сложных данных. Задача "прочитай фрагмент и выбери из трёх" — нет. Модель сопоставляет готовые варианты с конкретными доказательствами. Это не позволяет ей уйти в сторону или усреднить несовместимое. Работает: анализ документов, отзывов, планов, технических сравнений — любая задача где важна логическая связность. Не работает: задачи без правильного ответа, субъективные оценки без критериев
📖 Простыми словами

SymbolicThought: интеграция языковых моделей и символьных рассуждений для последовательного и интерпретируемого понимания человеческих отношений

arXiv: 2507.04189

Суть проблемы в том, что нейронки — это по своей природе статистические болтуны, а не логики. Когда ты просишь LLM проанализировать отношения между людьми или сложные отзывы, она не «думает», а просто подбирает наиболее вероятные слова. В итоге получается каша: в начале отчета модель пишет, что клиенты в восторге, а через абзац — что продукт провальный. Это происходит из-за отсутствия жесткого каркаса, нейронка просто плывет по течению контекста и часто сама себе противоречит, потому что у нее нет внутреннего «контролера» логики.

Это как если бы ты нанял на работу очень начитанного, но абсолютно рассеянного гуманитария. Он может процитировать Шекспира, но путается в трех соснах, когда нужно составить четкий график дежурств. Метод SymbolicThought — это попытка дать такому гуманитарию в руки математический калькулятор и таблицу, чтобы он перестал гадать на кофейной гуще и начал опираться на жесткие правила. Вместо того чтобы просто «чувствовать» текст, модель начинает раскладывать его на логические формулы.

В основе подхода лежит интеграция символьных вычислений. Модель больше не пытается решить задачу целиком «в уме», она переводит человеческий язык в формальные символы и правила. Работает это так: сначала LLM вычленяет факты, затем прогоняет их через фильтр логических проверок и только потом выдает вердикт. Если в данных есть противоречие, система его подсветит, а не попытается замаскировать красивыми словами. Это превращает процесс из гадания в прозрачный алгоритм, где каждый вывод можно проверить по шагам.

Хотя исследование фокусировалось на человеческих отношениях, принцип универсален. Эту механику можно и нужно внедрять везде, где цена ошибки высока: от юридического анализа контрактов до технической поддержки. Если твоя задача — не написать стишок, а получить непротиворечивый результат, нужно заставлять модель работать в режиме «закрытых вопросов». Вместо того чтобы просить «проанализировать всё», ты даешь ей структуру, где она должна выбрать из четких вариантов, опираясь на символьную логику.

Короче, эпоха «просто чатов» уходит, наступает время гибридных систем. Хватит ждать от нейронки чудес логики — нужно навязывать ей эту логику через специальные промпты и внешние инструменты. Метод SymbolicThought доказывает: если прикрутить к языковой модели «костыль» в виде математических правил, она перестает бредить и начинает выдавать стабильный результат. Либо ты структурируешь задачу, либо получаешь красивый, но абсолютно бесполезный набор слов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с