مجید قربانی نژاد

جنگ مدل‌ها بالا می‌گیرد: چگونه Gemini 3 و Claude 4.6 از «چت‌بات» به «عامل‌های خودمختار» تبدیل شدند؟

تا همین چند ماه پیش، بزرگترین دستاورد ما از هوش مصنوعی این بود که یک پرامپت طولانی بنویسیم و در ازای آن، یک متن زیبا، یک عکس یا یک قطعه کد دریافت کنیم. هوش مصنوعی در «فضای توکن‌ها» (Token Space) محبوس بود؛ دنیایی که در آن خروجی فقط کلمه و پیکسل است. اما زمزمه‌هایی که از سیلیکون‌ولی به گوش می‌رسد، خبر از شکسته شدن این قفس می‌دهد. مدل‌های نسل جدید، به ویژه Gemini 3 از گوگل و Claude 4.6 از آنتروپیک، در حال مهاجرت به «فضای اقدام» (Action Space) هستند. این مدل‌ها دیگر منتظر دستورات مرحله به مرحله شما نمی‌مانند. شما به آن‌ها یک «هدف» (Objective) می‌دهید و آن‌ها خودشان ابزارها را انتخاب می‌کنند، مرورگر را باز می‌کنند، در نرم‌افزارها لاگین می‌کنند، ایمیل می‌فرستند و تراکنش‌های مالی را انجام می‌دهند. این دیگر یک آپدیت نرم‌افزاری نیست؛ این تولد اولین سیستم‌عامل‌های بومی هوش مصنوعی (AI-Native OS) است. در این رقابت مرگبار، گوگل با تکیه بر اکوسیستم بی‌نظیر اندروید و Workspace به میدان آمده و آنتروپیک با معماری سازمانی و منطق استقرایی وحشتناک کلود قصد دارد میز کار برنامه‌نویسان و تحلیلگران را تسخیر کند. این گزارش، تحلیل دقیقی از جنگ سرد جدید در دنیای تکنولوژی است.

۱. عبور از پارادایم چت‌بات: تولد «مدل‌های اقدام‌گر بزرگ» (LAM) برای درک عظمت زلزله‌ای که Gemini 3 و Claude 4.6 در زیرساخت‌های فناوری ایجاد کرده‌اند، باید ابتدا یک خط تمایز مهندسی و بنیادین بین «هوش مصنوعی

مولد» (Generative AI) و «هوش مصنوعی عامل» (Agentic AI) بکشیم. در سه سال گذشته، جهان مسحور مدل‌های زبانی بزرگ (LLMs) بود. این مدل‌ها، از جمله GPT-4 یا نسخه‌های اولیه کلود، در هسته خود صرفاً موتورهای پیش‌بینی

پیشرفته‌ای بودند. شما یک پرامپت (درخواست) وارد می‌کردید، مدل در فضای احتمالات ماتریسی خود می‌گشت و محتملترین «توکن بعدی» را تولید می‌کرد. به محض چاپ شدن آخرین کلمه روی صفحه، مدل به خواب می‌رفت. آن‌ها سیستم‌هایی

کاملاً منفعل (Passive) و نیازمند محرک انسانی بودند. اما معماری جدیدی که گوگل و آنتروپیک در سال ۲۰۲۶ رونمایی کرده‌اند، بر پایه مدل‌های اقدام‌گر بزرگ (LAM - Large Action Models) بنا شده است. این سیستم‌ها

به جای تمرکز انحصاری بر پیش‌بینی متن، برای «پیش‌بینی و اجرای زنجیره‌ای از اقدامات» آموزش دیده‌اند. آن‌ها از یک فریم‌ورک شناختی پیچیده به نام ReAct (Reasoning and Acting) استفاده می‌کنند. در این معماری،

وقتی شما یک هدف کلان (Macro-Objective) مانند «کمپین تبلیغاتی ماه آینده را برنامه‌ریزی و اجرا کن» به مدل می‌دهید، ایجنت این درخواست را به صدها ریز-وظیفه (Micro-Task) تجزیه می‌کند. مدل با استفاده از یک «حافظه

کارتابل» (Scratchpad) ، سناریوهای مختلف را شبیه‌سازی می‌کند. او با خود استدلال می‌کند (Thought)، یک ابزار را فرا می‌خواند (Action - مثلاً اجرای یک اسکریپت پایتون برای جمع‌آوری دیتای رقبا)، نتیجه را می‌بیند

(Observation)، و بر اساس آن خطای خود را اصلاح می‌کند. اگر در حین استخراج داده از یک وب‌سایت با ارور 404 مواجه شود، مانند یک چت‌بات متوقف نمی‌شود تا به شما پیام ارور بدهد؛ بلکه به طور خودکار استراتژی خود

ادامه مطلب در سایت