مرحباً بجيش تيكين والناجين من "الويب القديم"! 🫡 سجلوا هذا التاريخ: الخميس، 8 يناير 2026. قد يكون هذا هو اليوم الذي تغيرت فيه طريقة تفاعلنا مع أجهزة الكمبيوتر للأبد. دعونا نكون صادقين؛ الإنترنت بوضعه الحالي "مكسور". إنه مليء بنوافذ الموافقة على ملفات تعريف الارتباط (Cookies)، وإعلانات الفيديو المزعجة، واختبارات "أثبت أنك لست روبوتًا" التي لا تنتهي، ونماذج التسجيل التي تشبه التحقيقات الأمنية. لقد تحولنا إلى موظفي إدخال بيانات مجانيين للمواقع الإلكترونية. لكن جوجل قررت أخيراً إخراج مشروعها السري للغاية، **"Jarvis"**، من الظلال. الوعد مغرٍ بقدر ما هو مرعب: "أعطني المتصفح، وسأقوم أنا بالنقر." هذه التقنية، المعروفة تقنياً باسم **CUA (Computer-Using Agent)**، لم تعد مجرد نموذج لغوي (LLM) يتحدث فقط؛ بل أصبح لديه عيون وأيدٍ. إنه يرى، يمرر، ينقر، ويدفع. في هذا التحليل الضخم من "تيكين جيم"، سنقوم بتفكيك "الدماغ السيليكوني" لجارفيز جراحياً. من معمارية Gemini 2.0 التي تشغله، إلى الكوابيس التي يسببها لخبراء الأمن السيبراني—بالإشارة إلى <a href="/blog/nightly-news-wrap-up-dec-13-2025-xbox-handheld-oled-leak-clair-obscur-backlash-ai-security-crisis-ar">أزمة أمن DevOps التي غطيناها الشهر الماضي</a>—والسؤال الوجودي الذي يؤرق أصحاب المواقع: "إذا قام جارفيز بشراء الحذاء، فمن سينقر على الإعلانات؟" جهزوا قهوتكم؛ هذا أعمق تقرير ستقرؤونه اليوم.
1. ثورة الوكلاء (Agents): لماذا ماتت الـ "Chatbots"؟ حتى عام 2025، كان تفاعلنا مع الذكاء الاصطناعي مقتصراً على مربع نصي. كنا نكتب طلباً، ويقوم الذكاء الاصطناعي بتوليد نص. هذا النموذج يسمى الذكاء الاصطناعي
التوليدي (Generative AI) . لكن "جارفيز" ينتمي إلى سلالة تطورية جديدة تسمى الذكاء الاصطناعي الوكيل (Agentic AI) . الفرق يكمن في كلمة "الوكالة" أو القدرة على الفعل. ChatGPT (في نسخه القديمة) كان مثل أمين
مكتبة واسع المعرفة لكنه بلا أيدٍ. أما "جارفيز" فهو مثل موظف يجلس على مكتبك. إنه يمتلك ثلاث سمات رئيسية تفتقدها الروبوتات الدردشة: الإدراك (Perception): يفهم السياق. يعرف أنه حالياً في صفحة الدفع على موقع
Amazon.ae أو بوابة تسجيل الدخول للهوية الرقمية. التخطيط (Planning): يقسم الهدف ("احجز رحلة إلى لندن") إلى خطوات: التحقق من التواريخ، مقارنة الأسعار، اختيار المقعد، إدخال بيانات الجواز، والدفع. التنفيذ
(Action): يمكنه السيطرة على مؤشر الفأرة ومدخلات لوحة المفاتيح لتنفيذ تلك الخطوات فعلياً. هذا التحول هو أكبر قفزة منذ اختراع "واجهة المستخدم الرسومية" (GUI) في الثمانينيات. 2. التشريح التقني: الرؤية مقابل
الكود (كيف يرى جارفيز؟) هذا القسم مخصص للتقنيين في جيش تيكين. واجهت جوجل مفترق طرق ضخم عند بناء جارفيز: هل يجب أن يقرأ الذكاء الاصطناعي كود الموقع (HTML/DOM) أم يجب أن "يرى" الموقع كما يراه البشر؟ نهج
"الرؤية الحاسوبية" (Vision-Based) يعتمد جارفيز بشكل كبير على النماذج متعددة الوسائط مثل Gemini 2.0 Flash ، التي تلتقط لقطات شاشة (Screenshots) مستمرة للمتصفح. الأسباب التقنية لهذا الخيار مذهلة: فوضى الويب
الحديث: غالباً ما تنتج أطر العمل الحديثة مثل React و Vue كود HTML معقداً ومشوشاً يصعب على الروبوتات تحليله، لكن العرض البصري يظل واضحاً للعين البشرية (ولجارفيز). تجنب الإعلانات: من خلال "رؤية" زر "X" البصري
اقرأ المزيد على الموقع