سلام به ارتش تکین! 🌙 امشب درباره موضوعی صحبت میکنیم که در هفته گذشته خواب را از چشمان مدیران سیلیکونولی و سهامداران انویدیا ربود. تا پیش از ۲۰ ژانویه ۲۰۲۶، فرمول موفقیت در هوش مصنوعی ساده بود: "چیپهای انویدیا بیشتر + دیتاسنترهای بزرگتر = هوش مصنوعی قویتر". شرکتهایی مثل OpenAI و Google میلیاردها دلار خرج میکردند تا مدلهای غولپیکر بسازند. اما ناگهان، یک استارتاپ چینی به نام **DeepSeek** وارد میدان شد و تمام معادلات را بهم ریخت. آنها مدلی به نام **DeepSeek-V4** (و نسخه ۶۷ میلیارد پارامتری آن) را منتشر کردند که در تستهای کدنویسی و ریاضی، عملکردی برابر یا بهتر از GPT-4 دارد، اما نکته ترسناک ماجرا این نیست. نکته ترسناک اینجاست که آنها این مدل را با **۱/۲۰ هزینه** رقبای آمریکایی آموزش دادهاند! این مقاله ۲۰۰۰ کلمهای، داستان چگونگی این پیروزی فنی است. ما "معماری مخلوط متخصصان" (MoE) را کالبدشکافی میکنیم و به شما میگوییم چرا این مدل برای برنامهنویسان ایرانی یک موهبت الهی است.
1. زلزله در بازار بورس: چرا سهام Nvidia با انتشار DeepSeek سقوط کرد؟ شاید بپرسید انتشار یک مدل زبانی چه ربطی به قیمت سهام سختافزار دارد؟ پاسخ در "بهینگی" است. تا امروز، تصور میشد برای داشتن هوشمندیِ
سطح GPT-4، شما نیاز به کلاسترهای عظیم با ده هزار کارت گرافیک H100 دارید. اما DeepSeek ثابت کرد که با سختافزار بسیار کمتر و تکنیکهای نرمافزاری هوشمندتر، میتوان به همان نتیجه رسید. این خبر برای انویدیا
(که سودش از فروش چیپهای گرانقیمت است) بد بود، چون نشان داد حباب تقاضا برای چیپ ممکن است زودتر از انتظار بترکد. دیپسیک نشان داد که "هوش مصنوعی" لزوماً نباید "گران" باشد. 2. راز فنی: کالبدشکافی معماری
Mixture-of-Experts (MoE) بیایید فنی صحبت کنیم. مدلهای سنتی مثل نسخههای اولیه GPT، مدلهای "Dense" (متراکم) بودند. یعنی وقتی شما میپرسیدید "۲+۲ چند میشود؟"، کل شبکه عصبی (تمام میلیاردها پارامتر) فعال
میشد تا جواب دهد. معماری MoE چیست؟ DeepSeek-V4 از معماری Mixture-of-Experts استفاده میکند. تصور کنید مغز این هوش مصنوعی به صدها "متخصص کوچک" تقسیم شده است: یک متخصص کدنویسی پایتون 🐍 یک متخصص شعر گفتن
📝 یک متخصص ریاضیات ➕ وقتی شما سوال کدنویسی میپرسید، یک "روتر" (Router) هوشمند، سوال شما را فقط به "متخصص پایتون" میفرستد و بقیه متخصصان خاموش میمانند. نتیجه؟ مدل ۶۷ میلیارد پارامتر دارد، اما برای هر
توکن (کلمه) فقط حدود ۵ میلیارد پارامتر فعال میشود. این یعنی سرعتی وحشتناک بالا و هزینه پردازشی بسیار پایین. 3. بنچمارکها دروغ نمیگویند: پیروزی در کدنویسی برای مخاطبان برنامهنویس تکینگیم، این بخش حیاتی
است. دیپسیک در تست معروف HumanEval (که توانایی نوشتن تابعهای پایتون را میسنجد) غوغا کرده است. 📊 جدول مقایسه (Pass@1): GPT-4 Turbo: 87.2% Claude 3 Opus: 84.9% DeepSeek-V4: 88.1% 🏆 این مدل نه تنها کد
ادامه مطلب در سایت