Раскрытие Системных Промптов LLM: Последствия для AI-Безопасности и Red Team

Системные инструкции (system prompts) ведущих крупномасштабных языковых моделей (LLM), таких как ChatGPT, Claude, Gemini, Grok и другие, были раскрыты и стали общедоступными. Эти инструкции представляют собой внутренние правила и директивы, определяющие поведение модели, механизмы фильтрации контента и алгоритмы формирования ответов….

Read more