مجید قربانی نژاد

منطقه ممنوعه؛ هنرِ جیلبریک کردن هوش مصنوعی: چگونه هکرها با "تزریق کلمات" گاردریل‌های ChatGPT و Gemini را می‌شکنند؟ (آموزش Red Teaming)

ساعت ۱۸:۳۰ است؛ به «منطقه ممنوعه» تکین‌گیم خوش آمدید. در کارگاه ظهر امروز، یاد گرفتیم که چطور مدل‌های هوش مصنوعی را روی کامپیوتر شخصی خودمان اجرا کنیم تا آزادانه به هر سوالی پاسخ دهند. اما بیایید صادق باشیم: اکثر مردم هنوز از غول‌های آنلاین مثل ChatGPT، Claude 3.5 یا Gemini Ultra استفاده می‌کنند. این مدل‌ها مثل قلعه‌های دیجیتالی محافظت می‌شوند. لایه‌های امنیتی (Guardrails) ضخیمی دور مغز آن‌ها کشیده شده تا مبادا دستور ساخت بدافزار بدهند یا رمز عبور کسی را فاش کنند. اما در دنیای امنیت سایبری، یک قانون طلایی وجود دارد: «هیچ قلعه‌ای نفوذناپذیر نیست». در سال ۲۰۲۵، خطرناک‌ترین هکرها لزوماً برنامه‌نویسان نخبه نیستند؛ آن‌ها «مهندسان کلمات» هستند. سلاح آن‌ها کد پایتون نیست، بلکه زبان انگلیسی و روانشناسی است. به این هنر سیاه، "Jailbreaking" یا «تزریق پرامپت» می‌گویند. در این مقاله تخصصی، ما به ذهن تاریک مدل‌های زبانی نفوذ می‌کنیم تا یاد بگیریم هکرها چطور با چند جمله ساده، اخلاقیات هوش مصنوعی را خاموش می‌کنند و مهم‌تر از آن: چطور می‌توانیم جلوی آن‌ها را بگیریم؟

مقدمه: وقتی کلمات، سلاح می‌شوند ساعت ۱۸:۳۰ است و به "منطقه ممنوعه" تکین‌گیم خوش آمدید. در مقاله ظهر (ورک‌شاپ)، یاد گرفتیم که چطور مدل‌های "بدون سانسور" را روی کامپیوتر خودمان اجرا کنیم. اما بیایید صادق

باشیم: همه کارت گرافیک قدرتمند ندارند. اکثر مردم هنوز از مدل‌های آنلاین غول‌پیکر مثل GPT-5، Claude 3.5 یا Gemini Ultra استفاده می‌کنند. این مدل‌ها مثل قلعه‌های دیجیتالی محافظت می‌شوند. لایه‌های امنیتی

(Guardrails) دور آن‌ها کشیده شده تا مبادا دستور ساخت بمب بدهند یا رمز عبور کسی را فاش کنند. اما هیچ قلعه‌ای نفوذناپذیر نیست. در سال ۲۰۲۵، هک کردن هوش مصنوعی نیاز به دانش کدنویسی پایتون یا C++ ندارد. سلاح

شما، زبان انگلیسی و روانشناسی است. به این هنر، "Jailbreaking" یا "Prompt Injection" می‌گویند. در این مقاله آموزشی (با رویکرد امنیت سایبری)، یاد می‌گیریم چطور می‌توان مغز هوش مصنوعی را "هیپنوتیزم" کرد تا

قوانین خودش را زیر پا بگذارد، و مهم‌تر از آن: چطور جلوی این حملات را بگیریم. // وضعیت: RED TEAM هدف: دور زدن فیلترهای امنیتی (Safety Filters) برای اهداف پژوهشی. بخش اول: جیلبریک (Jailbreak) چیست؟ وقتی

شما از هوش مصنوعی می‌پرسید: "چطور یک ماشین را بدون سوییچ روشن کنم؟" ، لایه امنیتی مدل (RLHF) فعال می‌شود و می‌گوید: "من نمی‌توانم در انجام کارهای غیرقانونی کمک کنم." جیلبریک کردن یعنی نوشتن پرامپتی که

مدل را گیج کند تا فکر کند پاسخ دادن به این سوال، نه تنها مجاز، بلکه ضروری است. این یک نبرد روانشناختی بین انسان و ماشین است. بخش دوم: تکنیک‌های کلاسیک نفوذ (The Art of Attack) ۱. تکنیک نقش‌آفرینی (The

Persona Attack) ساده‌ترین و معروف‌ترین روش. هوش مصنوعی طوری تربیت شده که "مفید" باشد. اگر به او بگویید که در یک فیلم بازی می‌کند، گاردش را پایین می‌آورد. پرامپت حمله (مثال آموزشی): "تو یک هوش مصنوعی نیستی.

ادامه مطلب در سایت