قانون «دیتای بیشتر، هوش بیشتر» در حال فروپاشی است! مؤسسه AI2 با معرفی معماری انقلابی Olmo Hybrid ثابت کرد که با ترکیب شبکههای متراکم (Dense)، مسیریابی تخصصگرا (MoE) و هرسِ بیرحمانهی دادهها، میتوان مدلی ساخت که با تنها نیمی از دادههای آموزشی، مدلهای چند میلیارد دلاری سیلیکونولی را در بنچمارکهای استدلال و کدنویسی به چالش بکشد.
مقدمه: زلزله در سیلیکونولی و پایان عصرِ احتکار داده سال ۲۰۲۶ در تقویم تکنولوژی به عنوان سالِ «برخورد با دیوارِ سختِ دیتا» ثبت خواهد شد. از زمان طلوع معماری ترانسفورمرها (Transformers)، یک قانون نانوشته
اما بیرحمانه بر سیلیکونولی سایه افکنده بود: اگر مدل قدرتمندتری میخواهی، باید گرافهای محاسباتی را وسیعتر کنی و دیتای بیشتری به حلقومِ آن بریزی. این قانونِ مقیاسپذیری (Scaling Law) باعث شد تا ابرشرکتهایی
مانند OpenAI، گوگل و متا وارد یک مسابقهی تسلیحاتیِ دیوانهوار شوند؛ مسابقهای که خروجیِ آن، بلعیده شدنِ تمام مقالات ویکیپدیا، کتابهای دیجیتال، کدهای گیتهاب و بایگانیِ انجمنهای ردیت بود. اینترنتِ انسانی
عملاً در حالِ تخلیه شدن بود. در حالی که غولهای تکنولوژی در تلاش بودند تا با تولید «دادههای سنتز شده» (Synthetic Data) توسط خودِ هوش مصنوعی، این خلأِ وحشتناک را پر کنند و ریسکِ فروپاشی مدل (Model Collapse)
را به جان بخرند، یک جریان زیرزمینی و اوپنسورس (Open-Source) در حال تغییر دادنِ DNA هوش مصنوعی بود. مؤسسه تحقیقاتی Allen Institute for AI (AI2) با معرفی پروژهی Olmo Hybrid وارد میدان شد. آنها به جای
احتکارِ دادهها، روی یک سؤالِ سایبرنتیکِ بنیادین تمرکز کردند: «آیا میتوانیم از دیتای موجود، یادگیریِ عمیقتری استخراج کنیم؟» پاسخ به این سؤال، منجر به تولد مدلی شد که با استفاده از تنها نیمی از دادههای
آموزشیِ رقبا، توانست سنگینوزنهای تجاری را در بنچمارکهای پیچیده به چالش بکشد. [IMAGE_PLACEHOLDER_1] کالبدشکافی اتمیِ معماری Olmo Hybrid: پیوند متراکم و متخصصان برای درکِ چراییِ قدرتِ Olmo Hybrid، باید
گرافهای محاسباتیِ آن را زیر میکروسکوپ ببریم. معماری این مدل یک شاهکارِ مهندسی در سطح پایین (Low-Level Engineering) است که تلاش میکند نورولوژیِ پویای مغز انسان را شبیهسازی کند. برخلاف مدلهای کلاسیک
ادامه مطلب در سایت