همه ما فکر میکردیم انقلاب بعدی هوش مصنوعی، مدل GPT-5 خواهد بود که صرفاً "بهتر حرف میزند" یا "کمتر اشتباه میکند". اما سخت در اشتباه بودیم. گزارشهای محرمانهای که ساعاتی پیش توسط بلومبرگ و The Information افشا شد، نشان میدهد که سام آلتمن و تیمش در OpenAI روی پروژهای قمار کردهاند که قواعد بازی را عوض میکند: پروژه "Operator". این مدل جدید، یک چتبات مودب نیست؛ یک «کارگزار» (Agent) تمامعیار است. او نمیخواهد برای شما شعر بنویسد؛ او میخواهد کنترل نشانگر موس شما را بگیرد، مرورگرتان را باز کند، وارد حساب بانکیتان شود و خریدهایتان را نهایی کند. کارشناسان میگویند ژانویه ۲۰۲۶، تاریخ مرگ رابط کاربری گرافیکی (GUI) به شکلی است که ما میشناسیم. اما سوال ترسناک اینجاست: اگر Operator اشتباه کند و پول شما را به حساب اشتباهی بریزد، چه کسی پاسخگوست؟
۱. مقدمه: فراتر از کلمات، به سوی "عمل" از زمان معرفی ChatGPT در سال ۲۰۲۲، ما عادت کردهایم که با هوش مصنوعی "چت" کنیم. ما سوال میپرسیم، او متن تولید میکند. اما "اجرا" همیشه با ما بوده است. هوش مصنوعی
کد را مینوشت، ولی ما باید آن را کپی میکردیم، در VS Code پیست میکردیم و دکمه Run را میزدیم. هوش مصنوعی ایمیل را مینوشت، ولی ما باید دکمه Send را میزدیم. پروژه Operator که قرار است در ژانویه ۲۰۲۶ (دیماه
امسال) به صورت عمومی رونمایی شود، این دیوار بین "فکر کردن" و "عمل کردن" را میشکند. OpenAI میخواهد AI را از یک "مشاور دانا" به یک "کارمند اجرایی" تبدیل کند. ۲. پروژه Operator دقیقاً چیست؟ طبق اسناد افشا
شده، Operator یک نرمافزار سیستمی است که دسترسی سطح بالا (High-Level Access) به کامپیوتر شما دارد. این ابزار صرفاً یک پلاگین مرورگر نیست؛ بلکه میتواند سیستمعامل را "ببیند" و با آن تعامل کند. ۲.۱. تفاوت
"چتبات" با "ایجنت" (Agent) چتبات (مثل ChatGPT فعلی) منفعل است. تا سوال نپرسید، کاری نمیکند و خروجیاش فقط متن یا تصویر است. اما ایجنت (Agent) فعال است. هدف دارد و برای رسیدن به هدف، ابزارها را به کار
میگیرد. مثال: چتبات: شما میگویید "چطور غذا سفارش دهم؟" -> او مراحل را برایتان لیست میکند. ایجنت (Operator): شما میگویید "برای ناهار پیتزا بگیر." -> او اسنپفود را باز میکند، پیتزای مورد علاقه شما
را پیدا میکند، آدرس را چک میکند و دکمه پرداخت را میزند. ۲.۲. معماری CUA: چشمهایی که میبینند، دستهایی که میزنند در دنیای فنی، به این تکنولوژی Computer Use Agent (CUA) میگویند. این سیستم دو بخش اصلی
دارد: ۱. بینایی (Vision): ایجنت به صورت مداوم از صفحه نمایش شما اسکرینشات میگیرد و آن را تحلیل میکند. او میفهمد که دکمه آبی رنگ پایین صفحه "تایید" است و کادر سفید بالا "جستجو". ۲. اجرا (Action): ایجنت
ادامه مطلب در سایت