سلام به ارتش تکین و بازماندگان دنیای قدیم اینترنت! 🫡 امروز پنجشنبه ۸ ژانویه ۲۰۲۶ است. تاریخ را یادداشت کنید، چون احتمالا امروز روزی است که روش تعامل ما با کامپیوترها برای همیشه عوض شد. بیایید روراست باشیم؛ اینترنت فعلی "شکسته" است. اینترنت پر شده از پاپآپهای کوکی، تبلیغات مزاحم، فرمهای ثبتنام طولانی و کپچاهایی که از ما میخواهند ثابت کنیم ربات نیستیم. ما تبدیل به کارگران بیجیره و مواجب وبسایتها شدهایم. اما گوگل بالاخره پروژه فوق محرمانه **"Jarvis"** را از سایهها بیرون کشید. ادعای گوگل ترسناک و جذاب است: "مرورگر را به من بده، خودم کلیک میکنم." این تکنولوژی که با نام فنی **CUA (Computer-Using Agent)** شناخته میشود، دیگر یک چتبات نیست که فقط حرف بزند؛ او دست و چشم دارد. او میبیند، اسکرول میکند، کلیک میکند و کارت میکشد. در این مقاله تحلیلی و بسیار جامع از تکینگیم، میخواهیم به عمق "مغز سیلیکونی" جارویس نفوذ کنیم. از معماری فنی Gemini 2.0 که پشت این سیستم است گرفته تا کابوسهایی که برای متخصصان امنیت سایبری ایجاد کرده و البته، سوالی که خواب را از چشم وبمسترها ربوده: "اگر جارویس خریدها را انجام دهد، چه بلایی سر تبلیغات و سئو میآید؟" قهوهتان را دم کنید، این طولانیترین و دقیقترین تحلیلی است که خواهید خواند.
1. انقلاب CUA: تفاوت بنیادین "ایجنت" با "چتبات" تا پیش از سال ۲۰۲۶، تعامل ما با هوش مصنوعی محدود به یک جعبه متنی بود. ما پرامپت مینوشتیم و AI متن تولید میکرد. این مدل را Generative AI مینامند. اما
جارویس متعلق به نسل جدیدی است که به آن Agentic AI میگویند. تفاوت در کلمه "Agency" یا "عاملیت" است. ChatGPT (نسخههای قدیمی) مثل یک کتابخانه دانا بود که دست و پا نداشت. اما جارویس مثل یک کارمند است که
پشت سیستم شما مینشیند. او دارای سه ویژگی کلیدی است که چتباتها ندارند: درک محیط (Perception): میفهمد که الان در صفحه پرداخت دیجیکالا است یا صفحه لاگین جیمیل. برنامهریزی (Planning): میداند برای خرید
یک کفش، اول باید سایز را انتخاب کند، بعد رنگ را، و سپس دکمه "افزودن به سبد" را بزند. اجرا (Action): میتواند کنترل نشانگر ماوس و کیبورد را در دست بگیرد. این تغییر پارادایم، بزرگترین جهش از زمان اختراع
"رابط کاربری گرافیکی" (GUI) در دهه ۸۰ میلادی است. 2. کالبدشکافی فنی: جارویس چگونه وب را میبیند؟ (Vision vs DOM) این بخش برای گیکهای ارتش تکین است. گوگل برای ساخت جارویس با یک دوراهی بزرگ روبرو بود: آیا
هوش مصنوعی باید کدهای سایت (HTML/DOM) را بخواند یا باید مثل انسان "تصویر" سایت را ببیند؟ چرا روش "بینایی" (Vision-Based) انتخاب شد؟ جارویس عمدتاً متکی بر مدلهای چندوجهی (Multimodal) مثل Gemini 2.0 Flash
است که اسکرینشاتهای پیاپی از صفحه میگیرند. دلایل این انتخاب فنی عبارتند از: سایتهای مدرن و پیچیده: بسیاری از سایتهای امروزی (مثل React و Vue) کدهای HTML درهمریختهای دارند که خواندنشان برای ربات
سخت است، اما ظاهرشان برای چشم (و جارویس) واضح است. پاپآپها و تبلیغات: جارویس با دیدن دکمه "X" روی یک تبلیغ مزاحم، میفهمد که باید آن را ببندد، دقیقاً مثل یک انسان. اگر قرار بود کد را بخواند، ممکن بود
ادامه مطلب در سایت