Большие языковые модели (LLM) не «лгут» — они не умеют отличать истину от домысла. Их сила — в генерации правдоподобных текстов. Их слабость — в отсутствии понимания контекста.
Именно поэтому при работе с нейросетями важно помнить одну простую вещь: модель не даст точный ответ, если не задать точную рамку. GPT не обманывает — он предполагает. И если вы не задали чёткий запрос, он «придумает» не потому, что хочет ввести вас в заблуждение, а потому что работает по вероятностной логике.
Почему это происходит?
Большие языковые модели, включая GPT, обучаются на огромных массивах текстов. Они не знают «фактов» в привычном для нас понимании. Их задача — предсказать наиболее вероятное продолжение текста на основе заданного контекста.
Например, если модель раньше видела тысячи текстов, где рядом встречаются слова “Москва — столица”, но контекст был разный, она может выдать абсурдную комбинацию вроде “Москва — столица Франции”, если не понять, что вы спрашиваете именно о географии, а не об ироничной цитате из твиттера.
Например, если модель раньше видела тысячи текстов, где рядом встречаются слова “Москва — столица”, но контекст был разный, она может выдать абсурдную комбинацию вроде “Москва — столица Франции”, если не понять, что вы спрашиваете именно о географии, а не об ироничной цитате из твиттера.
Что с этим делать?
Самое простое и эффективное решение — прямо встроить в промпт инструкции о том, как действовать в случае нехватки информации. Пример формулировки, которую мы используем в промптах TATSY PRODUCTION:
“Если данных нет или данных недостаточно — напиши: ‘Данных недостаточно’”
“Если данные вызывают сомнения — напиши: ‘Данные вызывают сомнения по причине [укажи причину]’”
Эта простая добавка резко снижает риск генерации фейков. Модель, получив инструкцию на случай неопределённости, уже не будет импровизировать в духе «ну хоть что-то напишу». Она сообщит о проблеме, и это даст нам возможность решить её на уровне данных.
Цифры на конец 2024 года:
Исследование Tow Center for Digital Journalism наглядно показывает масштаб проблемы с точностью ИИ-поисковиков:
• В 60% случаев ответы содержали ошибки или вводящие в заблуждение данные.
• Только в 3% случаев были приведены корректные ссылки на источники.
• Часто нейросети выдумывали URL-адреса или не указывали первоисточники вовсе.
Антирейтинг ошибок по моделям:
• Grok 3 (от X) — 94% ложных данных, фальшивые ссылки по умолчанию.
• Perplexity и Microsoft Copilot — 37% неточностей.
• ChatGPT — 27% ошибок, но иногда хотя бы предупреждает об ограничениях.
• Google Gemini — теряет оригинальные источники, часто дублирует и искажает.
Причины таких ошибок типичны: генерация правдоподобных, но несуществующих ссылок (чтобы «не ударить в грязь лицом»), парсинг сайтов без разрешения, и уверенность в любых своих словах — даже если они выдуманы.
• В 60% случаев ответы содержали ошибки или вводящие в заблуждение данные.
• Только в 3% случаев были приведены корректные ссылки на источники.
• Часто нейросети выдумывали URL-адреса или не указывали первоисточники вовсе.
Антирейтинг ошибок по моделям:
• Grok 3 (от X) — 94% ложных данных, фальшивые ссылки по умолчанию.
• Perplexity и Microsoft Copilot — 37% неточностей.
• ChatGPT — 27% ошибок, но иногда хотя бы предупреждает об ограничениях.
• Google Gemini — теряет оригинальные источники, часто дублирует и искажает.
Причины таких ошибок типичны: генерация правдоподобных, но несуществующих ссылок (чтобы «не ударить в грязь лицом»), парсинг сайтов без разрешения, и уверенность в любых своих словах — даже если они выдуманы.
Поэтому:
• Всегда формулируйте в промпте, что делать при нехватке или сомнительности данных.
• Проверяйте ссылки и критические факты вручную.
• Воспринимайте модель не как библиотекаря, а как стажёра с хорошим слогом, которому нужно указать, где брать материалы.
• Проверяйте ссылки и критические факты вручную.
• Воспринимайте модель не как библиотекаря, а как стажёра с хорошим слогом, которому нужно указать, где брать материалы.