سه هفته پیش، ما یک ویژگی جدید تولید تصویر را برای برنامه مکالمه جمینی (که قبلاً بارد نامیده می شد) راه اندازی کردیم که شامل امکان ایجاد تصاویر از افراد بود.
واضح است که این ویژگی علامت را از دست داده است. برخی از تصاویر تولید شده نادرست یا حتی توهین آمیز هستند. ما از بازخورد کاربران سپاسگزاریم و متأسفیم که این ویژگی به خوبی کار نمی کند.
ما داریم اشتباه را پذیرفت و زمانی که ما روی نسخه بهبودیافته کار می کنیم، تولید تصویر افراد در Gemini را موقتاً متوقف کرد.
چی شد
برنامه مکالمه جمینی یک محصول خاص است که جدا از جستجو، مدلهای هوش مصنوعی زیربنایی ما و سایر محصولات ما است. ویژگی تولید تصویر آن بر روی یک مدل هوش مصنوعی به نام Imagen 2 ساخته شده است.
وقتی این ویژگی را در Gemini ایجاد کردیم، آن را تنظیم کردیم تا مطمئن شویم که در برخی از تلههایی که در گذشته با فناوری تولید تصویر دیدهایم – مانند ایجاد تصاویر یا تصاویر خشونتآمیز یا جنسی صریح، نیفتد. از افراد واقعی و از آنجایی که کاربران ما از سراسر جهان آمده اند، ما می خواهیم که برای همه خوب کار کند. اگر عکسی از بازیکنان فوتبال یا شخصی که سگ را راه میاندازد بخواهید، ممکن است بخواهید طیف وسیعی از افراد را دریافت کنید. شما احتمالاً نمی خواهید فقط تصاویری از افراد از یک نوع قومیت (یا هر ویژگی دیگر) دریافت کنید.
با این حال، اگر از جمینی تصاویری از نوع خاصی از افراد را بخواهید – مانند “یک معلم سیاهپوست در کلاس درس” یا “یک دامپزشک سفیدپوست با یک سگ” یا افرادی به ویژه فرهنگی یا تاریخی در زمینه، شما باید کاملاً پاسخی دریافت کنید که دقیقاً منعکس کننده خواسته شما باشد.
پس چه مشکلی پیش آمد؟ خلاصه دو چیز اول، تنظیم ما برای اطمینان از اینکه جمینی نشان میدهد طیفی از افراد نتوانستند مواردی را که باید به وضوح توضیح دهند نه یک محدوده را نشان می دهد و ثانیاً، با گذشت زمان، مدل بسیار محتاطتر از آنچه در نظر داشتیم شد و از پاسخ دادن به برخی از درخواستها بهطور کامل امتناع کرد – به اشتباه برخی از درخواستهای بسیار آنودین را حساس تفسیر میکرد.
این دو مورد باعث شد که مدل در برخی موارد بیش از حد جبران کند و در موارد دیگر بیش از حد محافظه کار باشد و به تصاویری خجالت آور و اشتباه منجر شود.
مراحل بعدی و درس های آموخته شده
این چیزی نبود که ما در نظر داشتیم. ما نمی خواستیم جمینی از ایجاد تصاویر گروه خاصی امتناع کند. و ما نمیخواستیم که آن تصاویر تاریخی نادرست یا هر تصویر دیگری ایجاد کند. بنابراین، ما تولید تصویر از افراد را خاموش کردیم و قبل از روشن کردن مجدد، برای بهبود قابل توجه آن تلاش خواهیم کرد. این فرآیند شامل آزمایش گسترده خواهد بود.
یک نکته را باید در نظر داشت: Gemini به عنوان یک ابزار خلاقیت و بهره وری ساخته شده است و ممکن است همیشه قابل اعتماد نباشد، به خصوص زمانی که صحبت از تولید تصاویر یا متن در مورد رویدادهای جاری، اخبار در حال تحول یا موضوعات داغ باشد. دچار اشتباه خواهد شد. همانطور که از ابتدا گفتیم، توهمات یک چالش شناخته شده برای همه LLM ها هستند – مواردی وجود دارد که هوش مصنوعی به اشتباه اشتباه می کند. این چیزی است که ما دائماً روی بهبود آن کار می کنیم.
Gemini سعی میکند به درخواستها پاسخهای واقعی بدهد – و ویژگی بررسی دوبار ما به ارزیابی اینکه آیا محتوایی در سرتاسر وب برای اثبات پاسخهای Gemini وجود دارد یا خیر کمک میکند – اما توصیه میکنیم به جستجوی Google تکیه کنید، جایی که سیستمهای جداگانه ظاهر میشوند. اطلاعات تازه و با کیفیت در مورد این نوع موضوعات از منابع سراسر وب.
من نمی توانم قول بدهم که Gemini گهگاه نتایج شرم آور، نادرست یا توهین آمیزی ایجاد نخواهد کرد – اما می توانم قول بدهم که هر زمان که مشکلی را شناسایی کنیم به اقدام خود ادامه خواهیم داد. هوش مصنوعی یک فناوری نوظهور است که از بسیاری جهات با پتانسیل بسیار مفید است و ما تمام تلاش خود را می کنیم تا آن را با خیال راحت و مسئولانه عرضه کنیم.