مجید قربانی نژاد

پروژه Jarvis گوگل: پایان دوران "جستجو" و آغاز عصر "اقدام"؛ وقتی هوش مصنوعی کنترل مرورگر، کارت بانکی و زندگی دیجیتال شما را به دست می‌گیرد (تحلیل جامع)

سلام به ارتش تکین و بازماندگان دنیای قدیم اینترنت! 🫡 امروز پنج‌شنبه ۸ ژانویه ۲۰۲۶ است. تاریخ را یادداشت کنید، چون احتمالا امروز روزی است که روش تعامل ما با کامپیوترها برای همیشه عوض شد. بیایید روراست باشیم؛ اینترنت فعلی "شکسته" است. اینترنت پر شده از پاپ‌آپ‌های کوکی، تبلیغات مزاحم، فرم‌های ثبت‌نام طولانی و کپچاهایی که از ما می‌خواهند ثابت کنیم ربات نیستیم. ما تبدیل به کارگران بی‌جیره و مواجب وب‌سایت‌ها شده‌ایم. اما گوگل بالاخره پروژه فوق محرمانه **"Jarvis"** را از سایه‌ها بیرون کشید. ادعای گوگل ترسناک و جذاب است: "مرورگر را به من بده، خودم کلیک می‌کنم." این تکنولوژی که با نام فنی **CUA (Computer-Using Agent)** شناخته می‌شود، دیگر یک چت‌بات نیست که فقط حرف بزند؛ او دست و چشم دارد. او می‌بیند، اسکرول می‌کند، کلیک می‌کند و کارت می‌کشد. در این مقاله تحلیلی و بسیار جامع از تکین‌گیم، می‌خواهیم به عمق "مغز سیلیکونی" جارویس نفوذ کنیم. از معماری فنی Gemini 2.0 که پشت این سیستم است گرفته تا کابوس‌هایی که برای متخصصان امنیت سایبری ایجاد کرده و البته، سوالی که خواب را از چشم وب‌مسترها ربوده: "اگر جارویس خریدها را انجام دهد، چه بلایی سر تبلیغات و سئو می‌آید؟" قهوه‌تان را دم کنید، این طولانی‌ترین و دقیق‌ترین تحلیلی است که خواهید خواند.

1. انقلاب CUA: تفاوت بنیادین "ایجنت" با "چت‌بات" تا پیش از سال ۲۰۲۶، تعامل ما با هوش مصنوعی محدود به یک جعبه متنی بود. ما پرامپت می‌نوشتیم و AI متن تولید می‌کرد. این مدل را Generative AI می‌نامند. اما

جارویس متعلق به نسل جدیدی است که به آن Agentic AI می‌گویند. تفاوت در کلمه "Agency" یا "عاملیت" است. ChatGPT (نسخه‌های قدیمی) مثل یک کتابخانه دانا بود که دست و پا نداشت. اما جارویس مثل یک کارمند است که

پشت سیستم شما می‌نشیند. او دارای سه ویژگی کلیدی است که چت‌بات‌ها ندارند: درک محیط (Perception): می‌فهمد که الان در صفحه پرداخت دیجیکالا است یا صفحه لاگین جیمیل. برنامه‌ریزی (Planning): می‌داند برای خرید

یک کفش، اول باید سایز را انتخاب کند، بعد رنگ را، و سپس دکمه "افزودن به سبد" را بزند. اجرا (Action): می‌تواند کنترل نشانگر ماوس و کیبورد را در دست بگیرد. این تغییر پارادایم، بزرگترین جهش از زمان اختراع

"رابط کاربری گرافیکی" (GUI) در دهه ۸۰ میلادی است. 2. کالبدشکافی فنی: جارویس چگونه وب را می‌بیند؟ (Vision vs DOM) این بخش برای گیک‌های ارتش تکین است. گوگل برای ساخت جارویس با یک دوراهی بزرگ روبرو بود: آیا

هوش مصنوعی باید کدهای سایت (HTML/DOM) را بخواند یا باید مثل انسان "تصویر" سایت را ببیند؟ چرا روش "بینایی" (Vision-Based) انتخاب شد؟ جارویس عمدتاً متکی بر مدل‌های چندوجهی (Multimodal) مثل Gemini 2.0 Flash

است که اسکرین‌شات‌های پیاپی از صفحه می‌گیرند. دلایل این انتخاب فنی عبارتند از: سایت‌های مدرن و پیچیده: بسیاری از سایت‌های امروزی (مثل React و Vue) کدهای HTML درهم‌ریخته‌ای دارند که خواندنشان برای ربات

سخت است، اما ظاهرشان برای چشم (و جارویس) واضح است. پاپ‌آپ‌ها و تبلیغات: جارویس با دیدن دکمه "X" روی یک تبلیغ مزاحم، می‌فهمد که باید آن را ببندد، دقیقاً مثل یک انسان. اگر قرار بود کد را بخواند، ممکن بود

ادامه مطلب در سایت