حالا همه از معجزه‌های هوش مصنوعی خبر دارند و با چشمانی حیرت‌زده منتظر شعبده‌بازی‌های بیشتر انواع هوش‌های مصنوعی هستند. یکی از این معجزه‌ها میدجورنی است. میدجورنی دنیای تولید تصویر را متحول کرده است و اینجا هم ما قرار است به شما بگوییم میدجورنی چیست؟ از کجا آمده است؟ هزینه استفاده از Midjourney چقدر است؟ و چگونه کار می‌کند؟ پس در ادامه مطلب با ما باشید تا با هم این نرم افزار فوق‌العاده جذاب را بررسی کنیم.

تاریخچه میدجورنی

میدجورنی در سانفرانسیسکوی کالیفرنیا توسط دیوید هولز، که قبلا یکی از بنیانگذاران Leap Motion بود، تأسیس شد. میدجورنی برای اولین بار در 12 ژوئیه 2022 نسخه آزمایشی خود را ارائه داد و از آن زمان تا به الان چندین نسخه را از آن ارائه شده است.

این شرکت روی بهبود الگوریتم‌های خود کار می‌کند و هر چند ماه یک‌بار نسخه‌های جدیدی را منتشر می‌کند. نسخه 2 الگوریتم آنها در آوریل 2022 و نسخه 3 در 25 جولای راه‌اندازی شد. در 5 نوامبر 2022، نسخه 4 برای کاربران منتشر و در 15 مارس 2023، نسخه 5 منتشر شد. مدل 5.1 نسبت به نسخه 5 «مطمئن‌تر» است و کار بیشتری را روی تصاویر اعمال می‌کند. این نرم‌افزار، آینده هوش مصنوعی در زمینه تولید تصویر را دگرگون کرده و کاربرد هوش مصنوعی را در زمینه هنرهای بصری تغییر داده است.

Midjourney چیست؟

میدجورنی

Midjourney نمونه‌ای از یک هوش مصنوعی مولد (generative AI) است که می‌تواند پرامپت یا اعلان‌های (prompt) زبان طبیعی را به تصویر تبدیل کند. هوش مصنوعی Midjourney یکی از بسیاری از تولیدکنندگان تصویر مبتنی بر یادگیری ماشینی است که اخیراً ظهور کرده است. میدجورنی، در کنار DALL-E و Stable Diffusion به یکی از بزرگ‌ترین نام‌های هوش مصنوعی تبدیل شده است.

با هوش مصنوعی میدجورنی، می‌توانید تصاویر با کیفیت بالا را از اعلان‌های ساده مبتنی بر متن ایجاد کنید. برای استفاده از آن به هیچ سخت افزار یا نرم افزار خاصی نیاز ندارید زیرا کاملاً از طریق برنامه چت دیسکورد کار می‌کند. البته قبل از اینکه بتوانید شروع به تولید تصاویر کنید، باید اشتراک یکی از طرح‌های میدجورنی را تهیه کنید. این رویه برخلاف رویه بسیاری از رقباست که معمولاً حداقل چند نوع تصویر را به صورت رایگان ارائه می‌دهند.

با این حال، موانع ورود با میدجورنی بسیار کم است و هر کسی می‌تواند از آن برای تولید تصاویر واقعی در عرض چند دقیقه استفاده کند. بسته به درخواست، نتایج می‌تواند از عادی یا تا خیره‌کننده خروجی داشته باشد.

در برخی موارد، تصاویر هوش مصنوعی Midjourney حتی کارشناسان عکاسی و سایر حوزه‌ها را فریب داده است. به همین ترتیب، ممکن است تصاویر بسیار جالب‌توجه را که توسط هوش مصنوعی تولید شده در رسانه‌های اجتماعی دیده باشید. نمونه‌هایی از پاپ فرانسیس پوشیده در ژاکت پف‌دار گرفته تا ترامپ که ظاهراً چند روز قبل از رویداد واقعی بازداشتش، دستگیر شده است. اما برخی از تصاویر خلاقانه مانند صحنه جنگ ستارگان به سبک تصویرپردازی وس اندرسون را نیز دیده‌ایم.

برخلاف DALL-E که توسط OpenAI خالق چت جی پی تی پشتیبانی می‌شود، Midjourney خود را به عنوان یک پروژه مستقل و با سرمایه خود معرفی می‌کند. علاوه بر این، تا به امروز هیچ بودجه خارجی دریافت نکرده است. از سوی دیگر، OpenAI بالغ بر 10 میلیارد دلار از مایکروسافت و تعدادی سرمایه‌گذار دیگر جمع‌آوری کرده است. بنابراین با توجه به ریشه‌های فروتنانه جذب سرمایه میدجورنی، نتایج آن کاملاً چشمگیر است.

هزینه استفاده از Midjourney چقدر است؟

هوش مصنوعی Midjourney

درحالی‌که شاهد بودیم چت‌ربات‌هایی مانند ChatGPT و Bing Chat امکانات بسیاری را به صورت رایگان ارائه می‌دهند، این موضوع را نمی‌توان در مورد تولیدکنندگان تصویر دید. تقریباً همه آنها محدودیت‌هایی دارند و میدجورنی حتی یک بار آزمایش رایگان تولید تصویر را هم ارائه نمی‌دهد. چرا؟ به این دلیل که هر بار تولید تصویر به قدرت محاسباتی زیادی که بر اساس واحدهای پردازش گرافیکی (GPU) ایجاد می‌شود، نیاز دارد. علاوه‌براین، هر پردازنده گرافیکی دارای حافظه ویدئویی محدودی است که مقادیر زیادی از آن برای فرآیند حذف نویز استفاده می‌شود.

بنابراین با در نظر گرفتن این موضوع، جای تعجب نیست که یک تولیدکننده تصویر هوش مصنوعی پیشرفته مقداری هزینه برای شما بتراشد. برای استفاده از میدجورنی شما باید حداقل 10 دلار در ماه بپردازید.

برنامه‌های پیشرفته Midjourney تصاویر نامحدودی را به شما ارائه می‌دهند، اما باید تا 10 دقیقه برای دریافت آن تصاویر صبر کنید. اگر به بهترین کیفیت نیاز ندارید، توصیه می‌کنیم تولیدکننده‌های تصویر هوش مصنوعی دیگری را هم امتحان و بررسی کنید.

Midjourney چگونه کار می‌کند؟

میدجورنی چگونه کار می‌کند

ما همه چیز را در مورد عملکرد داخلی میدجورنی نمی‌دانیم زیرا منبع آن بسته است و با کد اختصاصی اجرا می‌شود. با این حال، ما به اندازه کافی در مورد فناوری زیربنایی این هوش مصنوعی می‌دانیم تا یک توضیح کلی ارائه دهیم.

هوش مصنوعی Midjourney بر دو فناوری نسبتاً جدید یادگیری ماشینی، یعنی مدل‌های زبانی بزرگ (large language models) متکی است. یک مدل زبانی بزرگ ابتدا به Midjourney کمک می‌کند تا معنای هر آنچه را که در قسمت دستورات تایپ می‌کنید، درک کند. سپس این دستور به چیزی تبدیل می‌شود که به عنوان یک بردار (vector) می‌شناسیمش، که می‌توانید آن را به عنوان یک نسخه عددی از دستورتان بفهمیدش. در نهایت، بردار یا همان وکتور فرآیند پیچیده دیگری به نام انتشار (diffusion) را هدایت می‌کند.  

Diffusion تنها در حدود یک دهه گذشته رایج شده است. در یک مدل انتشار یا همان Diffusion Model، شما یک کامپیوتر دارید که به تدریج نویز تصادفی را به مجموعه داده‌های آموزشی خود اضافه می‌کند. با گذشت زمان، یاد می‌گیرد که چگونه با معکوس‌کردن نویز، تصویر اصلی را بازیابی کند. با آموزش کافی، مدل می‌تواند از طریق حذف نویز یک تصویر تصادفی، تصاویر کاملاً جدیدی تولید کند.

وقتی یک پیام متنی مانند «گربه‌های سفید در میدانِ تایمزِ پسا آخرالزمان» را در کادر وارد می‌کنید، تولید تصویر با میدانی از نویز بصری شروع می‌شود. تصویر در این مرحله به هیچ چیز شبیه نیست و اساسا معنادار به نظر نمی‌رسد. با این حال، یک مدل هوش مصنوعی آموزش‌دیده می‌تواند با توجه به دیتاهایش از کم‌کردن نویز در مراحل گوناگون استفاده کند و در نهایت، تصویری شبیه به اشیا و ایده‌های موجود در دنیای واقعی ارائه دهد. به همین دلیل است که معمولاً باید یک یا دو دقیقه منتظر بمانید تا تصویر تولید شده توسط هوش مصنوعی به طور کامل توسعه یابد. اگر این فرآیند را زودتر متوقف کنید، یک تصویر پر نویز دریافت خواهید کرد که مراحل حذف نویز کافی را طی نکرده است.

در حالت کلی در بین نرم افزارهای هوش مصنوعی، کار با این هوش اصلا سخت نیست و مثلا اگر شما نحوه کار با چت جی پی تی را بدانید، حتما می‌توانید از میدجورنی استفاده کنید.

میدجورنی چه تاثیری روی کسب‌و‌کارهای حوزه تصویرسازی و گرافیک دارد؟

ظهور هوش مصنوعی در تولید تصویر اساساً صنایع گرافیک و تصویربرداری را متحول کرده است. مسلما میدجورنی به‌عنوان یکی از قوی‌ترین هوش‌ها تاثیر زیادی روی صنعت تصویرسازی و گرافیک خواهد داشت و بهتر است به جای آن که از آن بترسید، به این فکر کنید که چگونه می‌شود از این هوش به بهترین شکل ممکن استفاده کرد. در ادامه چند نکته درباره این هوش و سایر AIهای مشابه با آن را به شما گفته‌ایم تا بهتر بشناسیدشان:

  1. طراحی خودکار (Automated Design): با هوش مصنوعی، بسیاری از کارهای تکراری و دستی طراحی گرافیکی مانند تغییر اندازه تصاویر، ایجاد الگوها و سایر کارهای بنیادین را می‌توان خودکار کرد. این مورد به طراحان اجازه می‌دهد تا بیشتر بر جنبه‌های خلاقانه تمرکز کنند و بهره‌وری و کارایی را بهبود بخشند.
  2. تقویت تصویر (Image Enhancement): الگوریتم‌های هوش مصنوعی می‌توانند کیفیت تصویر را افزایش، تصحیح رنگ را انجام و نویز را کاهش دهند و موارد دیگر. این مورد می‌تواند به ویژه در صنایعی مانند عکاسی یا تبلیغات که در آن تولید تصاویر با کیفیت بالا بسیار مهم است، مفید باشد.
  3. تولید محتوای تصویری: هوش مصنوعی می تواند تصاویر منحصر‌به‌فرد و واقعی ایجاد کند یا تصاویر موجود را تغییر دهد. این ویژگی می‌تواند برای ایجاد محتوای دیجیتال متنوع یا برای برنامه‌های کاربردی در واقعیت مجازی و بازی مفید باشد.
  4. شخصی‌سازی (Personalization): هوش مصنوعی می‌تواند به ایجاد طرح‌ها و تصاویر شخصی برای کاربران مختلف بر اساس ترجیحات، رفتارها یا مانیفست آنها کمک کند. این امر می تواند باعث افزایش تعامل و رضایت مشتری به خصوص در بازاریابی و تبلیغات شود.
  5. کاهش هزینه: با خودکارسازی وظایف و بهبود کارایی، هوش مصنوعی می‌تواند به کاهش هزینه‌های مربوط به طراحی گرافیکی و تولید تصویر کمک کند.

با این حال، توجه به این نکته مهم است که در حالی که هوش مصنوعی مزایای بی شماری را ارائه می‌دهد، چالش‌هایی را نیز به همراه دارد. در نهایت باید گفت همان‌طور که فناوری هوش مصنوعی به تکامل خود ادامه می‌دهد، این احتمال وجود دارد که تأثیر آن بر مشاغل گرافیکی و تصویرسازانه بیشتر شود و فرصت‌ها و چالش‌های جدیدی ایجاد کند.

حرف آخر؛ برنامه‌های آینده میدجورنی

آینده میدجورنی

میدجورنی چند برنامه هیجان‌انگیز آتی خود را فاش کرده است:

  • این تیم هنوز سخت در حال کار بر روی انتشار V6 است و امیدوار است تا چند ماه دیگر آن را عرضه کند.
  • با V6، سطح بالاتری از واقع‌گرایی و کیفیت را خواهیم دید.
  • این تیم در حال کار بر روی یکی از ویژگی‌های درخواستی است: توانایی به‌دست‌آوردن کاراکترهای ثابت از میدجورنی.
  • آنها همچنین آماده انتشار یک API برای MidJourney هستند.

این فقط بخشی از ماجراست، مطمئن باشید، نسخه V6 حرف‌های بیشتری برای گفتن دارد.

منبع۱/ منبع۲