زلزله OpenAI در ۱۱ دسامبر؛ رونمایی ناگهانی از «Sora 2» با قابلیت تولید صدا و موسیقی! (پایان دوران ویدیوهای صامت)

مجید قربانی نژاد امروز پنج‌شنبه ۱۱ دسامبر ۲۰۲۵، در حالی که همه نگاه‌ها به صنعت گیمینگ بود، OpenAI در یک حرکت غافلگیرکننده (Drop) قبل از تعطیلات، نسل دوم مدل ویدیوساز خود یعنی Sora 2 را معرفی کرد. تفاوت بزرگ؟ این مدل دیگر صامت نیست. Sora 2 می‌تواند همزمان با تولید ویدیو، صدای محیط (Foley)، دیالوگ‌های هماهنگ با لب (Lip-sync) و موسیقی پس‌زمینه را خلق کند. این گزارش تکین پلاس، ویژگی‌های فنی، دموهای حیرت‌انگیز و تأثیر این جهش را بر هالیوود و یوتیوبرها بررسی می‌کند.

۱. مقدمه: هدیه کریسمس سم آلتمن امروز پنج‌شنبه ۱۱ دسامبر ۲۰۲۵، در حالی که دنیای تکنولوژی مشغول بحث درباره حفره‌های امنیتی و بازی‌های جدید بود، شرکت OpenAI بمب خبری پایان سال خود را منفجر کرد. بدون هیچ رویداد

زنده یا کنفرانس پر زرق و برقی، یک پست وبلاگی ساده با عنوان "Sora 2: دیدن، شنیدن و خلق کردن" منتشر شد. اگر Sora 1 (که دو سال پیش معرفی شد) معادل "اختراع دوربین فیلمبرداری" برای هوش مصنوعی بود، Sora 2 حکم

فیلم "خواننده جاز" (اولین فیلم ناطق تاریخ) را دارد. ما رسماً از دوران "ویدیوهای صامت AI" عبور کردیم. حالا وقتی از هوش مصنوعی می‌خواهید ویدیوی شکستن امواج در ساحل را بسازد، صدای غرش آب و فریاد مرغان دریایی

را هم می‌شنوید. ۲. بررسی فنی Sora 2: وقتی پیکسل‌ها صدا دارند ۲.۱. تکنولوژی Sonic-Sync مهم‌ترین ویژگی Sora 2، موتوری است که OpenAI آن را Sonic-Sync نامیده است. برخلاف روش‌های قدیمی که صدا جداگانه تولید

و روی ویدیو "چسبانده" می‌شد، Sora 2 صدا و تصویر را به صورت همزمان (Simultaneously) پردازش می‌کند. این مدل می‌فهمد که: اگر یک لیوان شیشه‌ای روی کف چوبی بیفتد، صدایش با افتادن روی فرش متفاوت است (فیزیک صوت).

اگر دوربین دور شود، صدا باید حالت "محیطی" (Spatial) بگیرد و ضعیف‌تر شود. این سطح از درک فیزیک، مرز بین رندر CGI و واقعیت را باریک‌تر کرده است. ۲.۲. معجزه لیپ‌سینک (Lip-Sync) یکی از بزرگترین ضعف‌های مدل‌های

قبلی (مثل Runway Gen-3 یا Pika)، ناهماهنگی حرکت لب کاراکترها با دیالوگ بود. در Sora 2، شما می‌توانید دیالوگ را تایپ کنید (یا فایل صوتی خودتان را آپلود کنید) و مدل، حرکت ماهیچه‌های صورت و لب کاراکتر را

دقیقاً با کلمات هماهنگ می‌کند. در یکی از دموها، یک کاراکتر انیمیشنی با لهجه غلیظ اسکاتلندی صحبت می‌کند و حرکت لب‌ها کاملاً طبیعی است. ۲.۳. موسیقی متن هوشمند (Adaptive Score) علاوه بر افکت‌های صوتی (Foley)، ادامه مطلب در سایت