حرب الوكلاء المستقلين تتصاعد: كيف انتقل Gemini 3 و Claude 4.6 من مجرد "روبوتات دردشة" إلى "منفذي أوامر"؟

مجید قربانی نژاد حتى أشهر قليلة مضت، كانت ذروة تفاعلنا مع الذكاء الاصطناعي تتلخص في صياغة أمر نصي (Prompt) معقد وتلقي نص مكتوب ببراعة، أو صورة مولدة، أو مقتطف من كود برمجي في المقابل. كان الذكاء الاصطناعي محاصراً فعلياً داخل "مساحة الرموز" (Token Space) - وهو واقع مقيد حيث المخرجات الوحيدة الممكنة هي وحدات البكسل والكلمات. ومع ذلك، فإن الزلازل التقنية التي يتردد صداها حالياً عبر أروقة سيليكون فالي تشير إلى تحطم هذا القفص. النماذج من الجيل التالي، وتحديداً Gemini 3 من جوجل و Claude 4.6 من أنثروبيك، تهاجر بقوة وشراسة نحو "مساحة التنفيذ" (Action Space). لم تعد هذه الأنظمة الذكية تنتظر تعليماتك الدقيقة والمفصلة خطوة بخطوة. أنت تمنحهم الآن "هدفاً استراتيجياً كلياً" (Macro-Objective)، وهم يقومون بشكل مستقل باختيار الأدوات اللازمة، وفتح متصفحات الويب، والمصادقة وتسجيل الدخول إلى برمجيات المؤسسة، وإرسال رسائل البريد الإلكتروني، وحتى تنفيذ المعاملات المالية المعقدة. هذا ليس مجرد تحديث برمجي تكراري؛ إنه ولادة أول "أنظمة تشغيل أصلية للذكاء الاصطناعي" (AI-Native OS). في هذه الحرب الباردة عالية المخاطر، تستفيد جوجل من نظامها البيئي الذي لا يضاهى (أندرويد و Workspace)، بينما تهدف أنثروبيك إلى غزو سطح المكتب المؤسسي بمنطقها الاستقرائي المرعب وبنية السرب (Swarm Architecture). هذا التقرير هو إحاطتك الاستراتيجية الشاملة والمفصلة لخطوط المعركة الجديدة المرسومة عبر المشهد التكنولوجي العالمي.

1. تجاوز روبوتات الدردشة: ولادة نماذج الإجراءات الكبيرة (LAMs) لكي ندرك تماماً حجم الزلزال في البنية التحتية الذي أحدثه إطلاق Gemini 3 و Claude 4.6 ، يجب علينا أولاً رسم تمييز هندسي جوهري بين "الذكاء الاصطناعي

التوليدي" (Generative AI) و"الذكاء الاصطناعي التنفيذي أو الوكيل" (Agentic AI). على مدى السنوات الثلاث الماضية، كان العالم مبهوراً بالنماذج اللغوية الكبيرة (LLMs) مثل GPT-4. في جوهرها، كانت هذه النماذج

مجرد محركات تنبؤ متقدمة للغاية. كنت ترسل طلباً (Prompt)، فيقوم النموذج بمسح احتمالاته المصفوفية، وإخراج "الرمز التالي" (Next Token) الأكثر احتمالاً. وبمجرد كتابة الكلمة الأخيرة على الشاشة، يدخل النموذج

في حالة سبات. لقد كانت أنظمة سلبية تماماً، وتعتمد كلياً على التحفيز البشري. ومع ذلك، فإن البنيات المعمارية الجديدة التي تم الكشف عنها في عام 2026 مبنية على أساس نماذج الإجراءات الكبيرة (LAMs - Large Action

Models) . بدلاً من التركيز حصرياً على التنبؤ بالنصوص، يتم تدريب هذه الأنظمة على "التنبؤ بسلسلة زمنية من الإجراءات وتنفيذها". وهي تعمل على إطار معرفي معقد يُعرف باسم ReAct (التفكير والتصرف - Reasoning and

Acting) . في هذه البنية، عندما تصدر هدفاً كلياً (Macro-Objective) مثل: "خطط ونفذ الحملة التسويقية المستهدفة للشهر المقبل"، يقوم الوكيل بشكل مستقل بتقسيم هذا الطلب إلى مئات المهام المصغرة (Micro-Tasks).

باستخدام "مساحة عمل معرفية" (Scratchpad) ، يحاكي النموذج سيناريوهات مختلفة. فهو يفكر داخلياً (Thought)، ويستدعي أداة محددة (Action—مثل تنفيذ برنامج نصي بلغة بايثون لاستخراج أسعار المنافسين)، ويراقب النتيجة

(Observation)، ويصحح مساره ديناميكياً بناءً على النتيجة. إذا واجه خطأ 404 أثناء استخراج البيانات من موقع ويب، فإنه لا يتوقف ويصدر رسالة خطأ مثل روبوتات الدردشة القديمة. بل يقوم بشكل مستقل بتغيير استراتيجيته، اقرأ المزيد على الموقع