Целенаправленная коррекция ошибок в дистилляции знаний: малые языковые модели превосходят GPT
КЛЮЧЕВАЯ СУТЬ
Проблема: Попытка написать один «идеальный» промпт, который сразу даст безупречный результат, проваливается чаще, чем кажется — LLM систематически добавляет выдуманные факты, лишние эмоции и вежливую воду. Метод ARF позволяет получать стабильно качественные ответы через итеративную коррекцию: сначала генерация черновика, затем анализ типичных ошибок, потом целевое исправление вторым промптом. Вместо редактирования текста вручную вы «скармливаете» его обратно модели со специальным коротким промптом-фильтром типа «Удали все выдуманные эмоции» или «Убери упоминания несуществующих исследований». Исследование показало: маленькая модель, дообученная на данных с целевым исправлением ошибок, превосходит GPT-3.5 — это доказывает силу подхода.