مجید قربانی نژاد

بررسی OpenAI Operator؛ وقتی هوش مصنوعی کنترل موس و کیبورد شما را به دست می‌گیرد! (پایان دوران کلیک کردن?)

دوران "چت‌بات‌ها" به سر آمد و عصر "ایجنت‌ها" (Agents) آغاز شد. OpenAI با معرفی ابزار جدیدی به نام "Operator"، ادعا می‌کند که می‌تواند کامپیوتر شما را مثل یک انسان کنترل کند. این هوش مصنوعی می‌تواند برایتان بلیت هواپیما رزرو کند، در اکسل فرمول بنویسد و حتی کدهای ویژوال استودیو را دیباگ کند؛ آن هم بدون دخالت شما! اما آیا دادن کلید کامپیوتر به یک ربات امن است؟ در این تحلیل عمیق تکین پلاس، آینده تعامل انسان و کامپیوتر را بررسی می‌کنیم.

1. مقدمه: خداحافظی با چت کردن, سلام به "انجام دادن" 1.1. تفاوت Chatbot با Agent چیست? تا امروز, رابطه ما با هوش مصنوعی (مثل ChatGPT) یک رابطه "مشاوره‌ای" بود. ما سوال می‌پرسیدیم, او جواب می‌داد. اما کار

اصلی (تایپ کردن, کلیک کردن, باز کردن سایت‌ها) با خودمان بود. سال 2025, سال ظهور Agentic AI یا "هوش مصنوعی عاملی" است. ابزار جدید OpenAI با نام رمز Operator , یک مشاور نیست؛ یک "کارمند" است. او منتظر نمی‌ماند

شما کاری را انجام دهید؛ او خودش آن را انجام می‌دهد. این بزرگترین تغییر در نحوه تعامل ما با کامپیوترها از زمان اختراع "موس" در دهه 60 میلادی است. 1.2. رویای خلبان خودکار تصور کنید پشت کامپیوتر نشسته‌اید,

دستانتان را پشت سر قفل کرده‌اید و فقط می‌گویید: "تمام فاکتورهای ماه گذشته را از ایمیلم پیدا کن و در یک فایل اکسل بریز". سپس نشانگر موس شروع به حرکت می‌کند, مرورگر باز می‌شود, جیمیل اسکن می‌شود و اکسل پر

می‌شود. این دیگر علمی-تخیلی نیست؛ این قابلیت Operator است که همین امروز در دسترس قرار گرفته است. 2. اوپراتور (Operator) چیست و چگونه کار می‌کند? 2.1. بینایی کامپیوتری: چشمی که می‌بیند تکنولوژی پشت Operator

ترکیبی از مدل زبانی GPT-4o و یک سیستم پیشرفته "بینایی کامپیوتری" (Computer Vision) است. این هوش مصنوعی اسکرین‌شات‌های پیاپی از صفحه مانیتور شما می‌گیرد و آن‌ها را تحلیل می‌کند. او می‌فهمد که "دکمه آبی

رنگ" یعنی "ارسال" و "کادر سفید" یعنی "جستجو". 2.2. کنترل موس و کیبورد برخلاف API های قدیمی که نیاز به کدنویسی داشتند, Operator مستقیماً سیستم‌عامل (ویندوز یا مک) را کنترل می‌کند. او مختصات X و Y دکمه‌ها

را پیدا می‌کند, موس را روی آن‌ها می‌برد و کلیک می‌کند. او حتی می‌تواند "اسکرول" کند و اگر صفحه‌ای دیر لود شود, مثل یک انسان صبر می‌کند. این سطح از شبیه‌سازی رفتار انسانی, کلید موفقیت این ابزار است. 3.

ادامه مطلب در سایت