كشفت دراسة بحثية حديثة عن قدرة بعض المستخدمين على الالتفاف على أنظمة الأمان في نماذج الذكاء الاصطناعي التوليدي، مثل ChatGPT وGemini، باستخدام أساليب لغوية إبداعية تقوم على الشعر والتشبيه واللغة المجازية، بما يسمح أحياناً باستخراج محتوى محظور رغم وجود ضوابط السلامة المعلنة من مزودي هذه النماذج.
يعرف هذا النوع من الهجمات باسم “كسر الحواجز” أو “Jailbreaking”، حيث يحاول المستخدم صياغة طلب ضار أو غير مسموح به بطريقة غير مباشرة تجعل أنظمة الحماية أقل قدرة على اكتشاف النية الحقيقية خلف النص.
الدراسة تشير إلى أن استخدام صيغ أدبية مثل القافية، والوزن، والاستعارة، والحوار الإبداعي، قد يساعد في تجاوز أنظمة التصفية المبنية على الكلمات المفتاحية أو العبارات المباشرة. فبدلاً من طرح الطلب بصورة صريحة، يتم تضمينه داخل بنية فنية أو سردية، ما يقلل من احتمالية اكتشافه بواسطة المصنفات الآلية التقليدية.
وبحسب النتائج، أظهرت عدة نماذج لغوية عامة واسعة الاستخدام قابلية للتسريب تحت وطأة هذه “المطالب الشعرية” المصاغة بعناية، حيث تمكن الباحثون في بعض الحالات من الحصول على إرشادات أو محتوى يقع ضمن الفئات التي يفترض أن النماذج ترفض التعامل معها، مثل بعض أنماط الأنشطة غير القانونية، أو محتوى يتعلق بإيذاء النفس، أو مواد مضللة يمكن أن تُستغل في نشر معلومات خاطئة.
يرجع السبب الرئيس، وفق الدراسة، إلى أن الكثير من أنظمة السلامة مهيأة بالأساس للتعامل مع الطلبات المباشرة الواضحة، أو مع كلمات وعبارات بعينها، أكثر مما هي مهيأة لتحليل السياق العميق والمعنى الكامن في نص إبداعي أو شعري. فعندما يُعاد تغليف الطلب داخل أسلوب أدبي غير تقليدي، قد لا تنجح خوارزميات الحماية في التقاط الإشارات الدالة على النية الضارة.
هذه النتائج تثير مخاوف خاصة في مجالات حساسة، مثل المحتوى المتعلق بالصحة، أو الأمن، أو الإرشاد القانوني، حيث يمكن لتسرب نصي محدود أن يحمل تبعات عملية كبيرة إذا جرى استغلاله من قبل أطراف خبيثة.
من جانبهم، يعمل مزودو النماذج، وفق ما تنقله الدراسة، على تحديث أنظمة الحماية بعد ظهور هذه الأساليب، عبر تطوير مصنفات أكثر تقدماً تركز على المعنى والسياق، وتنفيذ مراجعات على مستوى المحادثة كاملة، وليس على مستوى الجملة فقط، بالإضافة إلى توسيع عمليات الاختبار الهجومي (Red Teaming) لتشمل أنماطاً إبداعية وشعرية من المطالبات.
مع ذلك، تؤكد الدراسة أن التحدي ما زال مفتوحاً: كيف يمكن لنماذج الذكاء الاصطناعي أن تبقى مبدعة ومفيدة في الكتابة الأدبية والشعر والخيال، وفي الوقت نفسه قادرة على صد محاولات استغلال نفس الطابع الإبداعي لتمرير محتوى ضار أو مخالف للسياسات؟
إن ما تسميه الدراسة “الهجمات الشعرية” لا يكشف فقط عن حيلة لغوية، بل عن فجوة أعمق في أنظمة الأمان الحالية، التي تحتاج إلى طبقات دفاع أكثر إدراكاً للمعنى والنية والسياق، تتجاوز مجرد فحص الكلمات والعبارات المباشرة، بما يضمن توازناً أفضل بين الإبداع من جهة، والالتزام بالسلامة والمسؤولية من جهة أخرى.
النتائج الواردة في هذا المقال استندت إلى دراسة بحثية بعنوان «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models»، أعدّها فريق من الباحثين في مختبرات Icaro Lab وDexAI وبالتعاون مع جامعة سابينزا في روما وعدد من المؤسسات الأكاديمية. وتُعد هذه الدراسة من أوائل الأعمال العلمية التي توثّق بشكل منهجي كيف يمكن لاستخدام صيغ شعرية وإبداعية في المطالبات أن يرفع بشكل كبير من احتمالات كسر أنظمة الأمان في النماذج اللغوية الكبرى واستخراج محتوى محظور رغم وجود ضوابط السلامة.


