اتفاقی که با تولید تصویر Gemini افتاد

سه هفته پیش، ما یک ویژگی جدید تولید تصویر را برای برنامه مکالمه جمینی (که قبلاً بارد نامیده می شد) راه اندازی کردیم که شامل امکان ایجاد تصاویر از افراد بود.

واضح است که این ویژگی علامت را از دست داده است. برخی از تصاویر تولید شده نادرست یا حتی توهین آمیز هستند. ما از بازخورد کاربران سپاسگزاریم و متأسفیم که این ویژگی به خوبی کار نمی کند.

ما داریم اشتباه را پذیرفت و زمانی که ما روی نسخه بهبودیافته کار می کنیم، تولید تصویر افراد در Gemini را موقتاً متوقف کرد.

چی شد

برنامه مکالمه جمینی یک محصول خاص است که جدا از جستجو، مدل‌های هوش مصنوعی زیربنایی ما و سایر محصولات ما است. ویژگی تولید تصویر آن بر روی یک مدل هوش مصنوعی به نام Imagen 2 ساخته شده است.

وقتی این ویژگی را در Gemini ایجاد کردیم، آن را تنظیم کردیم تا مطمئن شویم که در برخی از تله‌هایی که در گذشته با فناوری تولید تصویر دیده‌ایم – مانند ایجاد تصاویر یا تصاویر خشونت‌آمیز یا جنسی صریح، نیفتد. از افراد واقعی و از آنجایی که کاربران ما از سراسر جهان آمده اند، ما می خواهیم که برای همه خوب کار کند. اگر عکسی از بازیکنان فوتبال یا شخصی که سگ را راه می‌اندازد بخواهید، ممکن است بخواهید طیف وسیعی از افراد را دریافت کنید. شما احتمالاً نمی خواهید فقط تصاویری از افراد از یک نوع قومیت (یا هر ویژگی دیگر) دریافت کنید.

با این حال، اگر از جمینی تصاویری از نوع خاصی از افراد را بخواهید – مانند “یک معلم سیاهپوست در کلاس درس” یا “یک دامپزشک سفیدپوست با یک سگ” یا افرادی به ویژه فرهنگی یا تاریخی در زمینه، شما باید کاملاً پاسخی دریافت کنید که دقیقاً منعکس کننده خواسته شما باشد.

پس چه مشکلی پیش آمد؟ خلاصه دو چیز اول، تنظیم ما برای اطمینان از اینکه جمینی نشان می‌دهد طیفی از افراد نتوانستند مواردی را که باید به وضوح توضیح دهند نه یک محدوده را نشان می دهد و ثانیاً، با گذشت زمان، مدل بسیار محتاط‌تر از آنچه در نظر داشتیم شد و از پاسخ دادن به برخی از درخواست‌ها به‌طور کامل امتناع کرد – به اشتباه برخی از درخواست‌های بسیار آنودین را حساس تفسیر می‌کرد.

این دو مورد باعث شد که مدل در برخی موارد بیش از حد جبران کند و در موارد دیگر بیش از حد محافظه کار باشد و به تصاویری خجالت آور و اشتباه منجر شود.

مراحل بعدی و درس های آموخته شده

این چیزی نبود که ما در نظر داشتیم. ما نمی خواستیم جمینی از ایجاد تصاویر گروه خاصی امتناع کند. و ما نمی‌خواستیم که آن تصاویر تاریخی نادرست یا هر تصویر دیگری ایجاد کند. بنابراین، ما تولید تصویر از افراد را خاموش کردیم و قبل از روشن کردن مجدد، برای بهبود قابل توجه آن تلاش خواهیم کرد. این فرآیند شامل آزمایش گسترده خواهد بود.

یک نکته را باید در نظر داشت: Gemini به عنوان یک ابزار خلاقیت و بهره وری ساخته شده است و ممکن است همیشه قابل اعتماد نباشد، به خصوص زمانی که صحبت از تولید تصاویر یا متن در مورد رویدادهای جاری، اخبار در حال تحول یا موضوعات داغ باشد. دچار اشتباه خواهد شد. همانطور که از ابتدا گفتیم، توهمات یک چالش شناخته شده برای همه LLM ها هستند – مواردی وجود دارد که هوش مصنوعی به اشتباه اشتباه می کند. این چیزی است که ما دائماً روی بهبود آن کار می کنیم.

Gemini سعی می‌کند به درخواست‌ها پاسخ‌های واقعی بدهد – و ویژگی بررسی دوبار ما به ارزیابی اینکه آیا محتوایی در سرتاسر وب برای اثبات پاسخ‌های Gemini وجود دارد یا خیر کمک می‌کند – اما توصیه می‌کنیم به جستجوی Google تکیه کنید، جایی که سیستم‌های جداگانه ظاهر می‌شوند. اطلاعات تازه و با کیفیت در مورد این نوع موضوعات از منابع سراسر وب.

من نمی توانم قول بدهم که Gemini گهگاه نتایج شرم آور، نادرست یا توهین آمیزی ایجاد نخواهد کرد – اما می توانم قول بدهم که هر زمان که مشکلی را شناسایی کنیم به اقدام خود ادامه خواهیم داد. هوش مصنوعی یک فناوری نوظهور است که از بسیاری جهات با پتانسیل بسیار مفید است و ما تمام تلاش خود را می کنیم تا آن را با خیال راحت و مسئولانه عرضه کنیم.

سئو PBN | خبر های جدید سئو و هک و سرور