المنطقة المحظورة: فن "جيلبريك" الذكاء الاصطناعي – كيف يستخدم الهكرز "حقن الأوامر" لتحطيم حواجز ChatGPT الأمنية؟ (دليل الفريق الأحمر)

مجید قربانی نژاد الساعة الآن 18:30 مساءً. أهلاً بكم في **المنطقة المحظورة**. في ورشة العمل التي أقمناها في وقت سابق اليوم (12:30 ظهراً)، علمناكم كيفية تشغيل نماذج الذكاء الاصطناعي "غير الخاضعة للرقابة" (Uncensored) محلياً على أجهزتكم الخاصة. لقد أعطيناكم مفاتيح عقل رقمي لا يخضع لأي قواعد. ولكن لنكن صادقين: ليس كل شخص يمتلك بطاقة RTX 3060 أو 128 جيجابايت من ذاكرة الوصول العشوائي. لا يزال معظم العالم يعتمد على القلاع السحابية الضخمة: ChatGPT (OpenAI)، و Claude (Anthropic)، و Gemini (Google). هذه النماذج محمية بأبحاث "محاذاة" (Alignment) كلفت مليارات الدولارات. تحيط بشبكاتها العصبية طبقات سميكة من "حواجز الحماية الرقمية" (Guardrails)، المصممة لمنعها من توليد خطاب الكراهية، أو كتابة البرمجيات الخبيثة، أو الكشف عن بيانات حساسة. ولكن في عالم الأمن السيبراني، هناك قاعدة ذهبية: **"لا توجد قلعة محصنة بالكامل".** في عام 2025، أخطر الهاكرز ليسوا بالضرورة مبرمجي النخبة الذين يكتبون نصوصاً خضراء على شاشات سوداء. إنهم "مهندسو الأوامر" (Prompt Engineers) المارقون. سلاحهم ليس لغة Python أو C++؛ بل هو اللغة البشرية وعلم النفس. يُطلق على هذا الفن المظلم اسم **"Jailbreaking"** (كسر الحماية) أو **"Prompt Injection"** (حقن الأوامر). في هذا الغوص العميق، سنقوم باختراق عقل الآلة. سنستكشف كيف يستخدم المهاجمون علم النفس لتنويم الذكاء الاصطناعي مغناطيسياً لكسر قواعده الخاصة، والأهم من ذلك، كيف يمكن للمطورين الدفاع ضد هذه الهجمات.

١. المقدمة: الهندسة الاجتماعية للآلات لعقود من الزمان، كانت "الهندسة الاجتماعية" تعني خداع البشر - الاتصال بموظف الاستقبال والتظاهر بأنك مدير تكنولوجيا المعلومات للحصول على كلمة مرور. اليوم، نحن نمارس

الهندسة الاجتماعية على الخوارزميات. النماذج اللغوية الكبيرة (LLMs) لا "تعرف" الصواب من الخطأ. إنها محركات تنبؤ إحصائية. إنها تتنبأ بالكلمة التالية في تسلسل بناءً على الاحتمالات. عندما يرفض ChatGPT كتابة

رسالة تصيد احتيالي، فليس ذلك لأن لديه أخلاقاً؛ بل لأنه يتنبأ بأن الرفض هو الاستجابة الصحيحة إحصائياً لطلب "سام" (Toxic)، بناءً على تدريبه. الجيلبريك (Jailbreaking) هو فعل تعطيل هذا التنبؤ. إنه ينطوي على

خلق سياق تصبح فيه الاستجابة "السامة" هي الإكمال المنطقي الوحيد إحصائياً، مما يجبر الذكاء الاصطناعي على تجاهل تدريب السلامة الخاص به. ⚠️ إخلاء مسؤولية: الأمثلة المقدمة أدناه هي لأغراض تعليمية وبحثية (الفريق

الأحمر / Red Teaming) فقط. لا تؤيد تيكين جيم استخدام هذه التقنيات في أنشطة غير قانونية. معرفة كيفية كسر القفل هي الخطوة الأولى في تعلم كيفية بناء قفل أفضل. ٢. تشريح سور الحماية: ما الذي نحاول كسره؟ لفهم

الاختراق، يجب أن تفهم الدرع. يتم تدريب الذكاء الاصطناعي الحديث في مرحلتين رئيسيتين: التدريب المسبق (Pre-training): يقرأ الذكاء الاصطناعي الإنترنت بالكامل. يتعلم كل شيء، بما في ذلك الجيد (العلوم والأدب)

والسيئ (العنصرية وصفات صنع القنابل). في هذه المرحلة، يكون الذكاء الاصطناعي معتلاً اجتماعياً (Sociopath). الضبط الدقيق (RLHF): التعلم التعزيزي من ردود الفعل البشرية. يراجع البشر إجابات الذكاء الاصطناعي

ويعاقبونه لكونه ساماً. هذا يخلق "طبقة أمان" أو "محاذاة" (Alignment). عندما تحاول القيام بـ "حقن الأوامر"، فأنت تحاول تجاوز طبقة RLHF للوصول إلى المعرفة الخام المدربة مسبقاً تحتها. أنت تحاول إيقاظ المعتل اقرأ المزيد على الموقع