مجید قربانی نژاد

بررسی عمیق DeepSeek-V4: چگونه اژدهای چینی با بودجه‌ای ناچیز، تاج پادشاهی را از ChatGPT پس گرفت؟ (تحلیل معماری MoE و بنچمارک‌ها)

سلام به ارتش تکین! 🌙 امشب درباره موضوعی صحبت می‌کنیم که در هفته گذشته خواب را از چشمان مدیران سیلیکون‌ولی و سهام‌داران انویدیا ربود. تا پیش از ۲۰ ژانویه ۲۰۲۶، فرمول موفقیت در هوش مصنوعی ساده بود: "چیپ‌های انویدیا بیشتر + دیتاسنترهای بزرگتر = هوش مصنوعی قوی‌تر". شرکت‌هایی مثل OpenAI و Google میلیاردها دلار خرج می‌کردند تا مدل‌های غول‌پیکر بسازند. اما ناگهان، یک استارتاپ چینی به نام **DeepSeek** وارد میدان شد و تمام معادلات را بهم ریخت. آن‌ها مدلی به نام **DeepSeek-V4** (و نسخه ۶۷ میلیارد پارامتری آن) را منتشر کردند که در تست‌های کدنویسی و ریاضی، عملکردی برابر یا بهتر از GPT-4 دارد، اما نکته ترسناک ماجرا این نیست. نکته ترسناک اینجاست که آن‌ها این مدل را با **۱/۲۰ هزینه** رقبای آمریکایی آموزش داده‌اند! این مقاله ۲۰۰۰ کلمه‌ای، داستان چگونگی این پیروزی فنی است. ما "معماری مخلوط متخصصان" (MoE) را کالبدشکافی می‌کنیم و به شما می‌گوییم چرا این مدل برای برنامه‌نویسان ایرانی یک موهبت الهی است.

1. زلزله در بازار بورس: چرا سهام Nvidia با انتشار DeepSeek سقوط کرد؟ شاید بپرسید انتشار یک مدل زبانی چه ربطی به قیمت سهام سخت‌افزار دارد؟ پاسخ در "بهینگی" است. تا امروز، تصور می‌شد برای داشتن هوشمندیِ

سطح GPT-4، شما نیاز به کلاستر‌های عظیم با ده هزار کارت گرافیک H100 دارید. اما DeepSeek ثابت کرد که با سخت‌افزار بسیار کمتر و تکنیک‌های نرم‌افزاری هوشمندتر، می‌توان به همان نتیجه رسید. این خبر برای انویدیا

(که سودش از فروش چیپ‌های گران‌قیمت است) بد بود، چون نشان داد حباب تقاضا برای چیپ ممکن است زودتر از انتظار بترکد. دیپ‌سیک نشان داد که "هوش مصنوعی" لزوماً نباید "گران" باشد. 2. راز فنی: کالبدشکافی معماری

Mixture-of-Experts (MoE) بیایید فنی صحبت کنیم. مدل‌های سنتی مثل نسخه‌های اولیه GPT، مدل‌های "Dense" (متراکم) بودند. یعنی وقتی شما می‌پرسیدید "۲+۲ چند می‌شود؟"، کل شبکه عصبی (تمام میلیاردها پارامتر) فعال

می‌شد تا جواب دهد. معماری MoE چیست؟ DeepSeek-V4 از معماری Mixture-of-Experts استفاده می‌کند. تصور کنید مغز این هوش مصنوعی به صدها "متخصص کوچک" تقسیم شده است: یک متخصص کدنویسی پایتون 🐍 یک متخصص شعر گفتن

📝 یک متخصص ریاضیات ➕ وقتی شما سوال کدنویسی می‌پرسید، یک "روتر" (Router) هوشمند، سوال شما را فقط به "متخصص پایتون" می‌فرستد و بقیه متخصصان خاموش می‌مانند. نتیجه؟ مدل ۶۷ میلیارد پارامتر دارد، اما برای هر

توکن (کلمه) فقط حدود ۵ میلیارد پارامتر فعال می‌شود. این یعنی سرعتی وحشتناک بالا و هزینه پردازشی بسیار پایین. 3. بنچمارک‌ها دروغ نمی‌گویند: پیروزی در کدنویسی برای مخاطبان برنامه‌نویس تکین‌گیم، این بخش حیاتی

است. دیپ‌سیک در تست معروف HumanEval (که توانایی نوشتن تابع‌های پایتون را می‌سنجد) غوغا کرده است. 📊 جدول مقایسه (Pass@1): GPT-4 Turbo: 87.2% Claude 3 Opus: 84.9% DeepSeek-V4: 88.1% 🏆 این مدل نه تنها کد

ادامه مطلب در سایت