امروز پنجشنبه ۱۱ دسامبر ۲۰۲۵، در حالی که همه نگاهها به صنعت گیمینگ بود، OpenAI در یک حرکت غافلگیرکننده (Drop) قبل از تعطیلات، نسل دوم مدل ویدیوساز خود یعنی Sora 2 را معرفی کرد. تفاوت بزرگ؟ این مدل دیگر صامت نیست. Sora 2 میتواند همزمان با تولید ویدیو، صدای محیط (Foley)، دیالوگهای هماهنگ با لب (Lip-sync) و موسیقی پسزمینه را خلق کند. این گزارش تکین پلاس، ویژگیهای فنی، دموهای حیرتانگیز و تأثیر این جهش را بر هالیوود و یوتیوبرها بررسی میکند.
۱. مقدمه: هدیه کریسمس سم آلتمن امروز پنجشنبه ۱۱ دسامبر ۲۰۲۵، در حالی که دنیای تکنولوژی مشغول بحث درباره حفرههای امنیتی و بازیهای جدید بود، شرکت OpenAI بمب خبری پایان سال خود را منفجر کرد. بدون هیچ رویداد
زنده یا کنفرانس پر زرق و برقی، یک پست وبلاگی ساده با عنوان "Sora 2: دیدن، شنیدن و خلق کردن" منتشر شد. اگر Sora 1 (که دو سال پیش معرفی شد) معادل "اختراع دوربین فیلمبرداری" برای هوش مصنوعی بود، Sora 2 حکم
فیلم "خواننده جاز" (اولین فیلم ناطق تاریخ) را دارد. ما رسماً از دوران "ویدیوهای صامت AI" عبور کردیم. حالا وقتی از هوش مصنوعی میخواهید ویدیوی شکستن امواج در ساحل را بسازد، صدای غرش آب و فریاد مرغان دریایی
را هم میشنوید. ۲. بررسی فنی Sora 2: وقتی پیکسلها صدا دارند ۲.۱. تکنولوژی Sonic-Sync مهمترین ویژگی Sora 2، موتوری است که OpenAI آن را Sonic-Sync نامیده است. برخلاف روشهای قدیمی که صدا جداگانه تولید
و روی ویدیو "چسبانده" میشد، Sora 2 صدا و تصویر را به صورت همزمان (Simultaneously) پردازش میکند. این مدل میفهمد که: اگر یک لیوان شیشهای روی کف چوبی بیفتد، صدایش با افتادن روی فرش متفاوت است (فیزیک صوت).
اگر دوربین دور شود، صدا باید حالت "محیطی" (Spatial) بگیرد و ضعیفتر شود. این سطح از درک فیزیک، مرز بین رندر CGI و واقعیت را باریکتر کرده است. ۲.۲. معجزه لیپسینک (Lip-Sync) یکی از بزرگترین ضعفهای مدلهای
قبلی (مثل Runway Gen-3 یا Pika)، ناهماهنگی حرکت لب کاراکترها با دیالوگ بود. در Sora 2، شما میتوانید دیالوگ را تایپ کنید (یا فایل صوتی خودتان را آپلود کنید) و مدل، حرکت ماهیچههای صورت و لب کاراکتر را
دقیقاً با کلمات هماهنگ میکند. در یکی از دموها، یک کاراکتر انیمیشنی با لهجه غلیظ اسکاتلندی صحبت میکند و حرکت لبها کاملاً طبیعی است. ۲.۳. موسیقی متن هوشمند (Adaptive Score) علاوه بر افکتهای صوتی (Foley)،
ادامه مطلب در سایت