پیشرفت در حوزه هوش مصنوعی مرزهای خلاقیت را دگرگون کرده و در این بین، OpenAI دومین نسل از ابزار ایجاد هنر با هوش مصنوعی خود، یعنی DALL-E2 را عرضه کرده است. دال ای کاربران را قادر می‌سازد تا پیام‌های متنی خود را به تصاویری جذاب تبدیل کنند.

دال ای فراتر از یک الگوریتم پیشرفته است. این هوش یک ابزار پیشرفته است که افراد را قادر می‌سازد تا بتوانند ایده‌ها و مفاهیم خود را از طریق تصاویر ساخته‌‍شده بیان کنند. DALL-E2 در حال حاضر برای خلق آثار هنری متفاوت به صورت گسترده توسط هنرمندان، استفاده می‌شود. این ابزار در نظر دارد با نرم‌افزار مایکروسافت ادغام شود و به این وسیله مخاطبین بیشتری را به خود جذب کند. DALL-E2 خلاقیت در هنر را با دقت و سهولت بی‌نظیری افزایش می‌دهد. در ادامه درباره این هوش مصنوعی کم‌نظیر و قدرت‌مند بیشتر خواهیم خواند.

بیشتر بخوانید: کاربرد هوش مصنوعی

دال ای چیست؟

دال ای چیست

هوش مصنوعی در طی سال‌های اخیر پیشرفت بسیاری کرده و با معرفی DALL-E2 توانایی خلاقیت بصری بالایی را به دست آورده است. این پلتفرم متعلق به شرکت دال ای، با استفاده از مدل زبانی پیشگامانه GPT-3، توانسته است تصاویری با جزئیات دقیق را با استفاده از دریافت نشانه‌های متنی ایجاد کند و امکان تبدیل کلمات به تصاویر بصری را به کاربران بدهد.

در این پلتفرم، تکنیک‌های یادگیری عمیق به خوبی به کار گرفته شده و مدل رمزگذار-رمزگشا از آن استفاده می‌کند تا ابتدا متن داده‌شده را رمزگذاری و آن را تجزیه و تحلیل کند و سپس آن را به یک تصویر بصری تبدیل کند.

دال ای 2 با استفاده از فناوری‌هایی مانند مدل‌های زبانی بزرگ (LLM)، پردازش زبان طبیعی (NLP) و پردازش انتشار، بهبود یافته و با افزودن لایه CLIP، توانسته است در تطبیق متن با تصاویر مهارت پیدا کند. این پلتفرم با بیش از 1.5 میلیون کاربر، از جمله هنرمندان، نویسندگان و توسعه‌دهندگان، بیش از 2 میلیون تصویر در روز تولید می‌کند.

راهنمای گام به گام استفاده از DALL-E2

راهنمای گام به گام استفاده از DALL-E2

DALL-E2 با توانایی خلاقیت بصری بالا، قدرت دگرگون‌کننده‌ای در زمینه هوش مصنوعی دارد و قادر است پیام‌های متنی را به تصاویر بصری خیره‌کننده تبدیل کند. در ادامه یک فرایند گام‌به‌گام برای استفاده بهینه از این پلتفرم خلاقانه هوش مصنوعی ارائه خواهد شد.

مرحله 1: ثبت نام

برای شروع کار با دال ای 2، ابتدا به وب سایت این هوش مراجعه کنید و گزینه "Try DALL·E" را انتخاب کنید. برای ورود به سیستم هم می‌توانید از حساب مایکروسافت یا گوگل خود استفاده کنید و به راحتی و با دسترسی از طریق تلفن همراه یا مرورگر وب، وارد شوید.

مرحله 2: دسترسی به داشبورد

پس از ورود به سیستم، می‌توانید به ابزارهای مختلفی برای ویرایش تصویر دسترسی داشته باشید. نوار جستجو در بالای صفحه قرار دارد و شما می‌توانید در زیر آن، آثار هنری ساخته‌شده توسط DALL-E2 را ببینید. با رفتن روی هر اثر هنری، عبارت خاصی که برای ایجاد آن استفاده شده است، نشان داده می‌شود.

مرحله 3: درخواست خود را وارد کنید

در نوار جستجو، عبارت یا توضیح خاصی را وارد کنید؛ شما هم می‌توانید انتخاب کنید که بر اساس درخواست خود یک تصویر ایجاد کنید و هم می‌توانید یک تصویر را برای ویرایش توسط دال ای، آپلود کنید. همچنین می‌توانید گزینه "Surprise Me" را انتخاب کنید تا هوش مصنوعی یک طرح کلی برای شما ایجاد کند. در هر صورت، به محدودیت اعتبار توجه و توضیحات خود را به‌صورت توصیفی و کاملا دقیق وارد کنید.

مرحله 4: تصویر خود را ایجاد کنید

پس از وارد‌کردن درخواست خود، روی دکمه "generate" کلیک کنید. دال ای 2 انواع مختلفی از تصاویر را بر اساس درخواست شما ایجاد می‌کند. می‌توانید انواع مختلفی از هنرهای تجسمی، از جمله نقاشی، ویترای یا هنر دیجیتال را تجربه کنید.

مرحله 5: تصویر خود را انتخاب کنید

تصاویر تولید شده را بررسی کنید. هنگامی که تصویری را پیدا کردید که با نظر شما مطابقت دارد، می‌توانید آن را برای بعد  بوکمارک کنید یا بلافاصله با استفاده از دکمه‌ گوشه سمت راست بالا آن را دانلود کنید.

مرحله 6: ویرایش تصویر

همچنین، با استفاده از ابزارهای داخلی DALL-E2، می‌توانید تغییراتی روی تصاویر ایجاد کنید. برای این کار، می‌توانید از ابزارهای زیر استفاده کنید:

  • اندازه: با کلیک کردن بر روی دکمه "size" در پایین صفحه، می‌توانید اندازه تصویر را تغییر دهید.
  • object: با کلیک کردن بر روی دکمه "object" در پایین صفحه، می‌توانید شیءهای مختلفی را به تصویر اضافه کنید.
  • بک‌گراند: با کلیک‌کردن بر روی دکمه "background" در پایین صفحه، می‌توانید پس زمینه تصویر را تغییر دهید.

بعد از اعمال تغییرات، می‌توانید تصویر را به صورت دستی یا خودکار ذخیره کنید. به طور خودکار، تصویر با فرمت PNG ذخیره می‌شود، اما شما می‌توانید فرمت تصویر را به JPG یا دیگر فرمت‌ها تغییر دهید.

بیشتر بخوانید: آینده هوش مصنوعی

مزایا و معایب دال ای 2

Dall-E 2 یک پلتفرم هنری نوآورانه است که در آوریل 2022 معرفی شد. این پلتفرم با استفاده از تصاویر و ارجاعات شبکه عصبی خود، تصاویر جذابی را با دقت بالا تولید می‌کند که با درخواست کاربر مطابقت دارند. ویژگی‌های رابط کاربری گرافیکی و API بصری آن، تولید تصاویر را بدون نیاز به استفاده از ابزارهای پیچیدۀ ویرایش تصویر برای کاربران آسان‌تر می‌کند اما به دلیل اینکه Dall-E هنوز در مراحل اولیه خود است، تمامی تصاویر تولید شده توسط آن، کمال لازم را ندارند.

به عنوان مثال، اگر به Dall-E دستوری بدهید که در شبکه عصبی آن سابقه‌ای برای آن وجود نداشته باشد، نزدیک‌ترین تصویر ممکن را به درخواست شما ایجاد می‌کند که ممکن است با دستورالعمل‌های شما مطابقت لازم را نداشته باشد. هنگام ایجاد تصاویر فوتورئالیستی، مشکلاتی مانند ناهماهنگی در تصویر چهره، دست‌ها و پاها وجود دارد و گاهی اوقات این هوش مصنوعی عناصری را ایجاد می‌کند که از نظر دقت بصری، واقع‌گرایی کاملی ندارند. اما این مشکلات نه تنها برای Dall-E، بلکه برای بسیاری از نرم افزارهای هوش مصنوعی مانند میدجورنی و چت جی پی تی نیز وجود دارد. در واقع آن قدر این مسئله رایج است که در انواع آموزش میدجورنی نیز به آن اشاره می‌شود.

آیا Dall-E قابلیت تولید تصاویر با وضوح بالا را دارد؟

Dall-E توانایی تولید تصاویر با وضوح بسیار بالا تا ۱۲۸۰x۱۲۸۰ پیکسل را دارد. این وضوح بسیار بالا از طریق استفاده از شبکه‌های یادگیری عمیق در طراحی Dall-E به دست می‌آید. به علاوه، با توجه به توانایی Dall-E در تفسیر دستورالعمل‌های متنی پیچیده، تصاویر تولید شده توسط آن به طور کلی با دقت بالایی تولید می‌شوند. با این حال، باید توجه داشت که وضوح تصویر نهایی ممکن است به دلیل شرایط مختلف، مانند کیفیت تصویر اولیه که به عنوان ورودی به سیستم وارد شده است، کمی کاهش پیدا کند.

آیا Dall-E توانایی تولید تصاویر با چندین شی و یا فرد را دارد؟

هوش مصنوعی دال ای، توانایی تولید تصاویر با چندین شی و یا فرد را دارد. با استفاده از دستورالعمل‌های متنی، کاربران می‌توانند تصاویری با چندین شی و یا فرد را درخواست کنند. به عنوان مثال، کاربر می‌تواند درخواست تولید تصویری با شخصیت‌های مختلف، اشیاء و پس‌زمینه‌های مختلف را داشته باشد. با استفاده از دستورالعمل‌های مناسب، Dall-E می‌تواند تصاویری با چندین شی و یا فرد را با دقت و کیفیت بالا تولید کند. اما باید توجه داشت که تعداد شی و یا فرد در تصویر، می‌تواند تاثیری بر کیفیت نهایی تصویر داشته باشد و در برخی موارد ممکن است باعث کاهش کیفیت تصویر شود.

دال ای چگونه کار می‌کند؟

Dall-E یک سیستم هوش مصنوعی است که برای تولید تصاویر، از شبکه‌های یادگیری عمیق (deep learning) استفاده می‌کند. دال ای از دو بخش اساسی تشکیل شده است: بخش اول یا Encoder، که از داده‌های تصویری و متنی به عنوان ورودی استفاده می‌کند و بخش دوم یا Decoder، که تصاویر نهایی را تولید می‌کند

در بخش Encoder، داده‌های تصویری و متنی ورودی با استفاده از شبکه‌های یادگیری عمیق پردازش می‌شوند و به بردارهایی با ابعاد کوچک تبدیل می‌شوند. سپس این بردارها به بخش Decoder فرستاده می‌شوند.

در بخش Decoder، بردارهای ورودی به کمک شبکه‌های یادگیری عمیق پردازش می‌شوند و تصاویر نهایی تولید می‌شوند. شبکه‌های یادگیری عمیق در این بخش به عنوان یک مدل تولیدکننده (generative model) عمل می‌کنند و با استفاده از داده‌های ورودی، تصاویر جدیدی با دقت بالا تولید می‌کنند.

حرف آخر؛ چه هزینه‌ای برای استفاده از دال ای 2 باید بپردازیم؟

حرف آخر؛ چه هزینه‌ای برای استفاده از دال ای 2 باید بپردازیم؟

هزینه ساخت هر تصویر توسط دال ای 2، تقریباً 0.13 دلار است. برای محاسبه هزینه تصاویر،OpenAI  از یک سیستم اعتباری استفاده می‌کند. شما می توانید 115 اعتبار (credit) را در یک زمان با قیمت 15 دلار خریداری کنید که به ازای هر اعتبار 13 سنت می‌شود. حداقل مبلغی که می‌توانید برای خرید اعتبارات DALL-E خرج کنید 15 دلار است.

پس از خرید اعتبار، می‌توانید آن‌ها را برای اقداماتی مانند ایجاد مجموعه جدیدی از تصاویر (چهار تا)، درخواست تغییرات یک تصویر و انجام عملکردهای پیشرفته مانند دریافت یک نقاشی استفاده کنید. DALL-E خیلی گران نیست، اما به اندازه سیستم‌های مبتنی بر متن مانند GPT-3 ارزان نیست.

منبع۱ / منبع۲