مجید قربانی نژاد

پایان دوران «کلیک کردن»؛ پروژه مخفی OpenAI "Operator" لو رفت و کنترل کامپیوتر شما را می‌خواهد!

همه ما فکر می‌کردیم انقلاب بعدی هوش مصنوعی، مدل GPT-5 خواهد بود که صرفاً "بهتر حرف می‌زند" یا "کمتر اشتباه می‌کند". اما سخت در اشتباه بودیم. گزارش‌های محرمانه‌ای که ساعاتی پیش توسط بلومبرگ و The Information افشا شد، نشان می‌دهد که سام آلتمن و تیمش در OpenAI روی پروژه‌ای قمار کرده‌اند که قواعد بازی را عوض می‌کند: پروژه "Operator". این مدل جدید، یک چت‌بات مودب نیست؛ یک «کارگزار» (Agent) تمام‌عیار است. او نمی‌خواهد برای شما شعر بنویسد؛ او می‌خواهد کنترل نشانگر موس شما را بگیرد، مرورگرتان را باز کند، وارد حساب بانکی‌تان شود و خریدهایتان را نهایی کند. کارشناسان می‌گویند ژانویه ۲۰۲۶، تاریخ مرگ رابط کاربری گرافیکی (GUI) به شکلی است که ما می‌شناسیم. اما سوال ترسناک اینجاست: اگر Operator اشتباه کند و پول شما را به حساب اشتباهی بریزد، چه کسی پاسخگوست؟

۱. مقدمه: فراتر از کلمات، به سوی "عمل" از زمان معرفی ChatGPT در سال ۲۰۲۲، ما عادت کرده‌ایم که با هوش مصنوعی "چت" کنیم. ما سوال می‌پرسیم، او متن تولید می‌کند. اما "اجرا" همیشه با ما بوده است. هوش مصنوعی

کد را می‌نوشت، ولی ما باید آن را کپی می‌کردیم، در VS Code پیست می‌کردیم و دکمه Run را می‌زدیم. هوش مصنوعی ایمیل را می‌نوشت، ولی ما باید دکمه Send را می‌زدیم. پروژه Operator که قرار است در ژانویه ۲۰۲۶ (دی‌ماه

امسال) به صورت عمومی رونمایی شود، این دیوار بین "فکر کردن" و "عمل کردن" را می‌شکند. OpenAI می‌خواهد AI را از یک "مشاور دانا" به یک "کارمند اجرایی" تبدیل کند. ۲. پروژه Operator دقیقاً چیست؟ طبق اسناد افشا

شده، Operator یک نرم‌افزار سیستمی است که دسترسی سطح بالا (High-Level Access) به کامپیوتر شما دارد. این ابزار صرفاً یک پلاگین مرورگر نیست؛ بلکه می‌تواند سیستم‌عامل را "ببیند" و با آن تعامل کند. ۲.۱. تفاوت

"چت‌بات" با "ایجنت" (Agent) چت‌بات (مثل ChatGPT فعلی) منفعل است. تا سوال نپرسید، کاری نمی‌کند و خروجی‌اش فقط متن یا تصویر است. اما ایجنت (Agent) فعال است. هدف دارد و برای رسیدن به هدف، ابزارها را به کار

می‌گیرد. مثال: چت‌بات: شما می‌گویید "چطور غذا سفارش دهم؟" -> او مراحل را برایتان لیست می‌کند. ایجنت (Operator): شما می‌گویید "برای ناهار پیتزا بگیر." -> او اسنپ‌فود را باز می‌کند، پیتزای مورد علاقه شما

را پیدا می‌کند، آدرس را چک می‌کند و دکمه پرداخت را می‌زند. ۲.۲. معماری CUA: چشم‌هایی که می‌بینند، دست‌هایی که می‌زنند در دنیای فنی، به این تکنولوژی Computer Use Agent (CUA) می‌گویند. این سیستم دو بخش اصلی

دارد: ۱. بینایی (Vision): ایجنت به صورت مداوم از صفحه نمایش شما اسکرین‌شات می‌گیرد و آن را تحلیل می‌کند. او می‌فهمد که دکمه آبی رنگ پایین صفحه "تایید" است و کادر سفید بالا "جستجو". ۲. اجرا (Action): ایجنت

ادامه مطلب در سایت