Системные инструкции (system prompts) ведущих крупномасштабных языковых моделей (LLM), таких как ChatGPT, Claude, Gemini, Grok и другие, были раскрыты и стали общедоступными. Эти инструкции представляют собой внутренние правила и директивы, определяющие поведение модели, механизмы фильтрации контента и алгоритмы формирования ответов. В отличие от весовых коэффициентов или пользовательских данных, промпты являются своего рода «мозгом» или «внутренней кухней» модели, содержащей десятки тысяч токенов логики каждого вендора.

Важно отметить, что раскрытие этих промптов не является классической утечкой данных. Инструкции были извлечены посредством техник prompt injection, при которых модели сами выдают свои внутренние директивы в ответ на специально сформированные запросы. Тем не менее, консолидированная коллекция актуальных версий (репозиторий с более чем 31 000 звезд, регулярно обновляемый) представляет собой ценный ресурс для исследователей безопасности и потенциальных злоумышленников.

Что это дает командам Red Team и специалистам по безопасности ИИ:

  • Точная структура safety-фильтров: Понимание формулировок и архитектуры внутренних фильтров безопасности моделей (safety filters) позволяет выявлять и разрабатывать эффективные методы их обхода.
  • Генерация целевых атак: На основе извлеченных системных промптов другие LLM могут быть использованы для автоматической генерации высокоэффективных сценариев prompt injection и методов «jailbreak», нацеленных на конкретную модель.
  • Пентест AI-powered приложений: Доступ к системным инструкциям незаменим при тестировании на проникновение приложений, где LLM глубоко интегрированы в бизнес-логику, что позволяет понять их внутреннюю работу и потенциальные уязвимости.

Сами модели при тестировании подтверждают, что предоставленные инструкции являются их внутренними директивами.

Практический опыт коллег, в частности @VladPetrushin, демонстрирует эффективность этого подхода: скармливание системного промпта одной модели другой и перевод её в режим доверия позволяет генерировать рабочие сценарии prompt injection, адаптированные под конкретную цель.

Ссылки на репозиторий GitHub и примеры в LinkedIn доступны для ознакомления.