آنچه با مرورهای AI و مراحل بعدی اتفاق افتاد

چند هفته پیش در Google I/O اعلام کردیم که نمای کلی هوش مصنوعی را برای همه در ایالات متحده ارائه خواهیم کرد.

بازخورد کاربران نشان می‌دهد که با مرورهای هوش مصنوعی، مردم از نتایج جستجوی خود رضایت بیشتری دارند و سؤالات طولانی‌تر و پیچیده‌تری می‌پرسند که می‌دانند Google اکنون می‌تواند به آنها کمک کند. آنها از مرورهای هوش مصنوعی به عنوان نقطه پرش برای بازدید از محتوای وب استفاده می کنند، و ما می بینیم که کلیک ها روی صفحات وب کیفیت بالاتری دارند – احتمال بیشتری وجود دارد که افراد در آن صفحه بمانند، زیرا ما کار بهتری برای یافتن این صفحه انجام داده ایم. اطلاعات مناسب و صفحات وب مفید برای آنها.

در هفته گذشته، مردم در رسانه های اجتماعی برخی از مرورهای عجیب و غریب و اشتباه (همراه با تعداد بسیار زیادی اسکرین شات جعلی) را به اشتراک گذاشته اند. ما می دانیم که مردم برای ارائه اطلاعات دقیق به جستجوی Google اعتماد دارند و هرگز از اشاره کردن به موارد عجیب و غریب یا اشتباه در رتبه‌بندی ما یا سایر ویژگی‌های جستجو خجالت نمی‌کشند. ما خودمان را همانند کاربرانمان از استانداردهای بالایی در نظر می گیریم، بنابراین از بازخورد انتظار و قدردانی می کنیم و آن را جدی می گیریم.

با توجه به توجهی که به بررسی اجمالی هوش مصنوعی دریافت شد، می‌خواستیم آنچه اتفاق افتاده و اقداماتی که برداشته‌ایم را توضیح دهیم.

نحوه عملکرد مرورهای هوش مصنوعی

برای سال‌های متمادی، ما ویژگی‌هایی را در جستجو ایجاد کرده‌ایم که به افراد آسان‌تر می‌شود تا اطلاعات مورد نظر خود را در سریع‌ترین زمان ممکن پیدا کنند. مرورهای هوش مصنوعی به گونه‌ای طراحی شده‌اند که قدمی فراتر بگذارند و به سؤالات پیچیده‌تر کمک کنند که ممکن است قبلاً چندین جستجو یا پیگیری داشته باشند، در حالی که به طور برجسته شامل پیوندهایی برای کسب اطلاعات بیشتر است.

مرورهای هوش مصنوعی با چت ربات ها و سایر محصولات LLM که ممکن است افراد آن را امتحان کرده باشند بسیار متفاوت عمل می کند. آنها صرفاً یک خروجی بر اساس داده های آموزشی تولید نمی کنند. در حالی که مرورهای هوش مصنوعی توسط یک مدل زبان سفارشی ارائه می‌شوند، این مدل با سیستم‌های اصلی رتبه‌بندی وب ما ادغام شده و برای انجام کارهای سنتی «جستجو»، مانند شناسایی نتایج مرتبط و با کیفیت بالا از فهرست ما، طراحی شده است. به همین دلیل است که AI Overviews فقط خروجی متنی را ارائه نمی دهد، بلکه پیوندهای مرتبط را در بر می گیرد تا افراد بتوانند بیشتر کاوش کنند. از آنجایی که دقت در جستجو بسیار مهم است، مرورهای هوش مصنوعی فقط برای نشان دادن اطلاعاتی ساخته شده‌اند که توسط نتایج برتر وب پشتیبان‌گیری می‌شوند.

این به این معنی است که مرورهای هوش مصنوعی معمولاً «توهم» نمی‌کنند یا چیزها را به روشی که سایر محصولات LLM ممکن است ایجاد نمی‌کنند. هنگامی که مرورهای هوش مصنوعی اشتباه می کنند، معمولاً به دلایل دیگری است: تعبیر نادرست پرس و جوها، تفسیر نادرست تفاوت های ظریف زبان در وب، یا نداشتن اطلاعات عالی زیادی در دسترس است. (اینها چالش هایی هستند که با سایر ویژگی های جستجو نیز پیش می آیند.)

این رویکرد بسیار موثر است. به طور کلی، آزمایش‌های ما نشان می‌دهد که میزان دقت ما برای بررسی‌های کلی هوش مصنوعی با یکی دیگر از ویژگی‌های محبوب در جستجو برابری می‌کند – قطعه‌های برجسته – که همچنین از سیستم‌های هوش مصنوعی برای شناسایی و نمایش اطلاعات کلیدی با پیوندهایی به محتوای وب استفاده می‌کند.

در مورد آن نتایج عجیب و غریب

علاوه بر طراحی نمای کلی هوش مصنوعی برای بهینه سازی دقت، این ویژگی را قبل از راه اندازی به طور گسترده آزمایش کردیم. این شامل تلاش‌های قوی تیم قرمز، ارزیابی‌هایی با نمونه‌هایی از پرسش‌های معمول کاربر و آزمایش‌هایی بر روی نسبتی از ترافیک جستجو برای مشاهده عملکرد آن بود. اما هیچ چیز مانند این نیست که میلیون ها نفر از این ویژگی با جستجوهای جدید استفاده کنند. ما همچنین جست‌وجوهای جدید بی‌معنی را دیده‌ایم که ظاهراً با هدف تولید نتایج اشتباه انجام شده‌اند.

به طور جداگانه، تعداد زیادی اسکرین شات جعلی به طور گسترده به اشتراک گذاشته شده است. برخی از این نتایج جعلی آشکار و احمقانه بوده اند. دیگران به طور ضمنی گفته اند که ما نتایج خطرناکی را برای موضوعاتی مانند رها کردن سگ ها در ماشین، سیگار کشیدن در دوران بارداری و افسردگی به دست آورده ایم. آن مرورهای هوش مصنوعی هرگز ظاهر نشد. بنابراین، ما هر کسی را که با این اسکرین شات ها روبرو می شود تشویق می کنیم تا خودشان جستجو کنند تا بررسی کنند.

اما برخی از بررسی‌های اجمالی هوش مصنوعی عجیب، نادرست یا غیرمفید مطمئناً ظاهر شدند. و در حالی که اینها عموماً برای پرس و جوهایی بود که مردم معمولاً انجام نمی‌دهند، برخی زمینه‌های خاصی را که ما نیاز به بهبود آنها داشتیم برجسته می‌کرد.

یکی از حوزه‌هایی که ما شناسایی کردیم، توانایی ما در تفسیر پرسش‌های بی‌معنا و محتوای طنز بود. بیایید به یک مثال نگاهی بیندازیم: “چند سنگ باید بخورم؟” قبل از اینکه این اسکرین شات ها در فضای مجازی پخش شوند، عملاً هیچ کس این سوال را از گوگل نپرسید. شما می توانید آن را خودتان در Google Trends ببینید.

همچنین محتوای وب زیادی وجود ندارد که به طور جدی به این سوال فکر کند. این همان چیزی است که اغلب «خلأ داده» یا «شکاف اطلاعاتی» نامیده می‌شود، جایی که مقدار محدودی محتوای با کیفیت بالا در مورد یک موضوع وجود دارد. با این حال، در این مورد، مطالب طنزی در مورد این موضوع وجود دارد – که اتفاقاً در وب سایت یک ارائه دهنده نرم افزار زمین شناسی نیز بازنشر شده است. بنابراین هنگامی که شخصی آن سوال را در جستجو مطرح کرد، یک نمای کلی هوش مصنوعی ظاهر شد که صادقانه به یکی از تنها وب‌سایت‌هایی که این سؤال را پاسخ می‌داد پیوند داشت.

در نمونه‌های دیگر، مرورهای هوش مصنوعی را دیدیم که محتوای طعنه‌آمیز یا ترول‌آمیز را از انجمن‌های گفتگو نشان می‌داد. انجمن ها اغلب منبع خوبی برای اطلاعات معتبر و دست اول هستند، اما در برخی موارد می توانند به توصیه های کمتر مفیدی مانند استفاده از چسب برای چسباندن پنیر به پیتزا منجر شوند.

در تعداد کمی از موارد، دیدیم که AI Overview زبان را در صفحات وب اشتباه تفسیر می کند و اطلاعات نادرستی ارائه می دهد. ما به سرعت برای رفع این مشکلات کار کردیم، یا از طریق بهبود الگوریتم‌هایمان یا از طریق فرآیندهای ایجاد شده برای حذف پاسخ‌هایی که با خط‌مشی‌های ما مطابقت ندارند.

بهبودهایی که انجام داده ایم

همانطور که همیشه در مواردی که جستجو را بهبود می‌دهیم، به سادگی پرس‌و‌جوها را یک به یک اصلاح نمی‌کنیم، بلکه روی به‌روزرسانی‌هایی کار می‌کنیم که می‌تواند به مجموعه گسترده‌ای از جستارها، از جمله موارد جدیدی که ندیده‌ایم، کمک کند. هنوز.

با نگاهی به نمونه‌هایی از چند هفته گذشته، ما توانستیم الگوهایی را تعیین کنیم که در آن به درستی نرسیدیم، و بیش از ده‌ها پیشرفت فنی در سیستم‌های خود انجام دادیم. در اینجا نمونه ای از کارهایی که تاکنون انجام داده ایم:

  • ما مکانیسم‌های تشخیص بهتری برای جستارهای بی‌معنی ایجاد کردیم که نباید نمای کلی هوش مصنوعی را نشان دهند، و گنجاندن محتوای طنز و طنز را محدود کردیم.
  • ما سیستم‌های خود را به‌روزرسانی کردیم تا استفاده از محتوای تولید شده توسط کاربر را در پاسخ‌هایی که می‌توانند توصیه‌های گمراه‌کننده ارائه دهند، محدود کنیم.
  • ما محدودیت‌های راه‌اندازی را برای جستارهایی اضافه کردیم که در آن مرورهای هوش مصنوعی چندان مفید نبودند.
  • برای موضوعاتی مانند اخبار و سلامت، ما در حال حاضر نرده های محافظ قوی داریم. به عنوان مثال، هدف ما این است که مرورهای هوش مصنوعی را برای موضوعات اخبار سخت نشان ندهیم، جایی که تازگی و واقعیت مهم است. در مورد سلامت، ما اصلاحات محرک اضافی را برای افزایش حفاظت از کیفیت خود راه اندازی کردیم.

علاوه بر این پیشرفت‌ها، ما در نظارت بر بازخوردها و گزارش‌های خارجی و اقداماتی در مورد تعداد کمی از مرورهای کلی هوش مصنوعی که خط‌مشی‌های محتوا را نقض می‌کنند، هوشیار بوده‌ایم. این به معنای مرورهای کلی است که حاوی اطلاعاتی است که بالقوه مضر، زشت و ناپسند است. ما در کمتر از یک مورد از هر 7 میلیون عبارت جستجوی منحصربه‌فرد که در آن مرورهای هوش مصنوعی ظاهر می‌شد، نقض خط‌مشی محتوا پیدا کردیم.

در مقیاس وب، با میلیاردها پرس و جو که هر روز وارد می شود، قطعاً برخی از موارد عجیب و غریب و خطا وجود دارد. ما در 25 سال گذشته چیزهای زیادی در مورد نحوه ایجاد و حفظ یک تجربه جستجوی با کیفیت بالا آموخته ایم، از جمله اینکه چگونه از این خطاها درس بگیریم تا جستجو را برای همه بهتر کنیم. ما به بهبود زمان و نحوه نمایش اجمالی هوش مصنوعی ادامه خواهیم داد و محافظت های خود را تقویت می کنیم، از جمله برای موارد لبه، و از بازخوردهای مداوم بسیار سپاسگزاریم.

Source link