تا همین دیروز، "جزوه نوشتن" یک کابوس بود و "جزوه خواندن" کابوسی بزرگتر. همه ما تجربه خیره شدن به دستخطهای کجوکوله، فرمولهای ریاضی که شبیه نقاشیهای انتزاعی شدهاند و خوابآلودگی هنگام روخوانی متنهای طولانی را داریم. اما امروز، دوشنبه ۲۲ دسامبر ۲۰۲۵، قواعد بازی عوض شده است. تصور کنید از جزوه همکلاسیتان عکس میگیرید و ۵ دقیقه بعد، در حالی که دارید قهوه میخورید، دو گوینده خوشصدا در حال بحث و شوخی درباره همان جزوه هستند! انگار که درس سخت "استاتیک" یا "تاریخ تحلیلی" تبدیل به یک اپیزود جذاب از پادکستهای رادیویی شده است. این جادو نیست؛ این قدرت ترکیب دو غول هوش مصنوعی است: "چشمهای" Mistral و "صدای" گوگل. در این مقاله ۲۰۰۰ کلمهای، به شما یاد میدهیم چطور بدون تایپ کردن حتی یک کلمه، محتوای متنی و تصویری را به پادکستهای شنیدنی تبدیل کنید.
۱. چرا OCRهای قدیمی را باید دور بریزیم؟ (انقلاب Mistral) احتمالاً اولین سوالتان این است: «چرا از Google Lens یا رباتهای تلگرامی معمولی استفاده نکنیم؟» پاسخ در یک کلمه است: درک ساختار (Structure Awareness)
. ابزارهای قدیمی OCR (Optical Character Recognition) فقط سعی میکردند حروف را تشخیص دهند. آنها: ❌ جدولها را به هم میریختند. ❌ فرمولهای ریاضی را به کاراکترهای بیمعنی تبدیل میکردند. ❌ تفاوت بین "تیتر"،
"زیرنویس عکس" و "متن اصلی" را نمیفهمیدند. ظهور Mistral OCR 3 مدل جدید شرکت فرانسوی Mistral که همین هفته سر و صدا کرده، یک مدل "چندوجهی" (Multimodal) است. یعنی مثل یک انسان به عکس نگاه میکند. وقتی یک
فاکتور خرید یا یک برگه امتحانی را میبیند، فقط کلمات را نمیخواند؛ بلکه ارتباط فضایی آنها را درک میکند. در بنچمارکها، این مدل توانسته در اسناد پیچیده (مثل مقالات علمی دو ستونه یا نسخههای پزشکی) ۷۴
درصد بهتر از رقبا عمل کند. و بهترین خبر؟ استفاده از آن در پلتفرم آزمایشی این شرکت فعلاً رایگان است. ۲. مرحله اول: استخراج متن با Mistral OCR (چشم عقاب) بیایید دست به کار شویم. فرض کنید یک عکس از "تخته
وایتبرد کلاس فیزیک" یا "یک صفحه جزوه دستنویس فارسی/انگلیسی" دارید. گام ۱: ورود به Le Chat وارد پلتفرم رسمی چت میسترال به آدرس chat.mistral.ai شوید. ثبتنام کنید (با گوگل اکانت خیلی سریع است). گام ۲:
انتخاب مدل در منوی مدلها، مطمئن شوید که روی مدلهای Large یا مدلهایی که قابلیت Vision دارند هستید. (معمولاً به صورت پیشفرض فعال است). گام ۳: آپلود و پرامپت (مهمترین بخش) عکس خود را آپلود کنید. حالا
باید به هوش مصنوعی بگویید چه کار کند. از آنجایی که میخواهیم متن را به گوگل بدهیم، بهتر است خروجی تمیز باشد. پرامپت پیشنهادی (برای جزوههای فارسی/انگلیسی): Analyze this image using OCR. Extract all the
ادامه مطلب در سایت