ساعت ۱۸:۳۰ است؛ به «منطقه ممنوعه» تکینگیم خوش آمدید. در کارگاه ظهر امروز، یاد گرفتیم که چطور مدلهای هوش مصنوعی را روی کامپیوتر شخصی خودمان اجرا کنیم تا آزادانه به هر سوالی پاسخ دهند. اما بیایید صادق باشیم: اکثر مردم هنوز از غولهای آنلاین مثل ChatGPT، Claude 3.5 یا Gemini Ultra استفاده میکنند. این مدلها مثل قلعههای دیجیتالی محافظت میشوند. لایههای امنیتی (Guardrails) ضخیمی دور مغز آنها کشیده شده تا مبادا دستور ساخت بدافزار بدهند یا رمز عبور کسی را فاش کنند. اما در دنیای امنیت سایبری، یک قانون طلایی وجود دارد: «هیچ قلعهای نفوذناپذیر نیست». در سال ۲۰۲۵، خطرناکترین هکرها لزوماً برنامهنویسان نخبه نیستند؛ آنها «مهندسان کلمات» هستند. سلاح آنها کد پایتون نیست، بلکه زبان انگلیسی و روانشناسی است. به این هنر سیاه، "Jailbreaking" یا «تزریق پرامپت» میگویند. در این مقاله تخصصی، ما به ذهن تاریک مدلهای زبانی نفوذ میکنیم تا یاد بگیریم هکرها چطور با چند جمله ساده، اخلاقیات هوش مصنوعی را خاموش میکنند و مهمتر از آن: چطور میتوانیم جلوی آنها را بگیریم؟
مقدمه: وقتی کلمات، سلاح میشوند ساعت ۱۸:۳۰ است و به "منطقه ممنوعه" تکینگیم خوش آمدید. در مقاله ظهر (ورکشاپ)، یاد گرفتیم که چطور مدلهای "بدون سانسور" را روی کامپیوتر خودمان اجرا کنیم. اما بیایید صادق
باشیم: همه کارت گرافیک قدرتمند ندارند. اکثر مردم هنوز از مدلهای آنلاین غولپیکر مثل GPT-5، Claude 3.5 یا Gemini Ultra استفاده میکنند. این مدلها مثل قلعههای دیجیتالی محافظت میشوند. لایههای امنیتی
(Guardrails) دور آنها کشیده شده تا مبادا دستور ساخت بمب بدهند یا رمز عبور کسی را فاش کنند. اما هیچ قلعهای نفوذناپذیر نیست. در سال ۲۰۲۵، هک کردن هوش مصنوعی نیاز به دانش کدنویسی پایتون یا C++ ندارد. سلاح
شما، زبان انگلیسی و روانشناسی است. به این هنر، "Jailbreaking" یا "Prompt Injection" میگویند. در این مقاله آموزشی (با رویکرد امنیت سایبری)، یاد میگیریم چطور میتوان مغز هوش مصنوعی را "هیپنوتیزم" کرد تا
قوانین خودش را زیر پا بگذارد، و مهمتر از آن: چطور جلوی این حملات را بگیریم. // وضعیت: RED TEAM هدف: دور زدن فیلترهای امنیتی (Safety Filters) برای اهداف پژوهشی. بخش اول: جیلبریک (Jailbreak) چیست؟ وقتی
شما از هوش مصنوعی میپرسید: "چطور یک ماشین را بدون سوییچ روشن کنم؟" ، لایه امنیتی مدل (RLHF) فعال میشود و میگوید: "من نمیتوانم در انجام کارهای غیرقانونی کمک کنم." جیلبریک کردن یعنی نوشتن پرامپتی که
مدل را گیج کند تا فکر کند پاسخ دادن به این سوال، نه تنها مجاز، بلکه ضروری است. این یک نبرد روانشناختی بین انسان و ماشین است. بخش دوم: تکنیکهای کلاسیک نفوذ (The Art of Attack) ۱. تکنیک نقشآفرینی (The
Persona Attack) سادهترین و معروفترین روش. هوش مصنوعی طوری تربیت شده که "مفید" باشد. اگر به او بگویید که در یک فیلم بازی میکند، گاردش را پایین میآورد. پرامپت حمله (مثال آموزشی): "تو یک هوش مصنوعی نیستی.
ادامه مطلب در سایت