7 نوع تعصب داده در یادگیری ماشین

@ Hent03Hengtee Lim

من ” من علاقه مند به روند AI هستم که نحوه تقابل و تعامل افراد و فناوری را شکل می دهد.

سوگیری داده ها در یادگیری ماشین نوعی خطا است که در آن عناصر موجود در یک مجموعه داده از وزن بیشتری برخوردارند و یا نمایندگی بیشتری نسبت به سایرین دارند. یک مجموعه داده مغرضانه به طور دقیق مورد استفاده از یک مدل را نشان نمی دهد ، در نتیجه نتایج کج ، سطح دقت پایین و خطاهای تحلیلی وجود دارد.

به طور کلی ، داده های آموزش برای پروژه های یادگیری ماشین باید نمایندگی باشد از دنیای واقعی این مهم است زیرا این داده ها نحوه یادگیری ماشین برای انجام کار خود است. تعصب داده ها می تواند در طیف وسیعی از زمینه ها ، از سوگیری گزارشگری و انتخاب انسانی گرفته تا تعصب الگوریتمی و تفسیر ، رخ دهد. تصویر زیر نمونه خوبی از انواع تعصبات است که می تواند فقط در مرحله جمع آوری داده ها و حاشیه نویسی ظاهر شود.

9f48-7″ c> 9f48-7 “c = 9f48-7″> f = ff = ff = ff = ffdc4b0aaaaa “paragraf”> حل تعصب داده ها در پروژه های یادگیری ماشین به معنای ابتدا تعیین مکان آن است. فقط پس از دانستن اینکه کجا تعصب وجود دارد ، می توانید اقدامات لازم را برای رفع آن انجام دهید ، خواه آدرس دهی به اطلاعات فاقد داده باشد یا فرایندهای حاشیه نویسی را بهبود بخشد. با توجه به این نکته ، بسیار مهم است که در مورد دامنه ، کیفیت و نحوه مدیریت داده های خود هوشیار باشید تا در صورت امکان از تعصب جلوگیری کنید. این نه تنها دقت مدل شما را تحت تأثیر قرار می دهد ، بلکه می تواند به موارد اخلاقی ، انصاف و گنجاندن نیز شامل شود.

در زیر ، من هفت نوع از متداول ترین داده ها را ذکر کرده ام تعصب در یادگیری ماشین برای کمک به شما در تحلیل و درک اینکه کجا اتفاق می افتد و اینکه در این باره چه کاری می توانید انجام دهید.

(اگر به اطلاعات بیشتری در مورد جمع آوری داده ها و برچسب گذاری داده ها برای پروژه های یادگیری ماشین نیاز دارید) ، در اینجا یک پیوند برای کسب اطلاعات بیشتر در مورد آموزش داده ها برای یادگیری ماشین قبل از خواندن ادامه مقاله وجود دارد.) لیست حاوی نمونه های متداول تعصب داده ها در این زمینه است ، همراه با مثالهایی از محل وقوع آن.

نمونه تعصب: هنگامی که یک مجموعه داده منعکس نمی کند واقعیت های محیطی که یک مدل در آن اجرا می شود. نمونه آن برخی از سیستم های تشخیص چهره است که اساساً روی تصاویر مردان سفید پوست آموزش دیده است. این مدلها دارای دقت بسیار کمتری در زنان و افراد از قومیتهای مختلف هستند. نام دیگر این تعصب تعصب انتخاب است.

تعصب انصراف: تعصب انحصار در مرحله پیش پردازش داده ها بیشتر رایج است. غالباً این مورد حذف داده های ارزشمندی است که فکر می کنند بی اهمیت هستند. با این حال ، می تواند به دلیل حذف منظم اطلاعات خاص نیز رخ دهد. به عنوان مثال ، تصور کنید شما یک مجموعه داده از فروش مشتری در آمریکا و کانادا دارید. 98٪ از مشتریان از آمریکا هستند ، بنابراین شما تصمیم می گیرید که داده های مکان را بی ربط حذف کنید. با این حال ، این بدان معنی است که مدل شما این واقعیت را نشان نمی دهد که مشتریان کانادایی دو برابر بیشتر هزینه می کنند.

تعصب اندازه گیری: این نوع تعصب زمانی رخ می دهد که داده های جمع آوری شده برای آموزش با اطلاعات جمع آوری شده در دنیای واقعی یا اندازه گیری های معیوب منجر به تحریف داده ها متفاوت است. یک نمونه خوب از این سوگیری در مجموعه داده های تشخیص تصویر رخ می دهد ، جایی که داده های آموزش با یک نوع دوربین جمع آوری می شود ، اما داده های تولید با دوربین دیگری جمع می شود. تعصب اندازه گیری همچنین می تواند به دلیل ناسازگاری حاشیه نویسی در مرحله برچسب گذاری داده های یک پروژه رخ دهد.

فراخوان یادآوری: این نوعی سوگیری اندازه گیری است ، و در مرحله برچسب گذاری داده های یک پروژه معمول است. سوگیری یادآوری زمانی ایجاد می شود که انواع مختلف داده ها را متناقض برچسب گذاری کنید. این نتیجه در دقت کمتری دارد. به عنوان مثال ، بگذارید بگوییم شما یک تیم دارید که تصاویر تلفن ها را به عنوان آسیب دیده ، نیمه آسیب دیده یا آسیب دیده برچسب گذاری می کند. اگر کسی برچسب یک تصویر را خراب کرده باشد ، اما یک تصویر مشابه آن را تا حدی آسیب دیده باشد ، داده های شما متناقض خواهد بود.

تعصب ناظر: همچنین به عنوان تعصب تأیید شناخته می شود ، تعصب ناظر اثر مشاهده آنچه را که انتظار دارید در داده ببینید یا می خواهید ببینید. این می تواند هنگامی اتفاق بیفتد که محققان با افکار ذهنی در مورد مطالعه خود ، چه آگاهانه و چه ناخودآگاه ، وارد پروژه ای شوند. وقتی برچسب گذاران به افکار ذهنی خود اجازه می دهند تا عادت های برچسب گذاری خود را کنترل کنند ، در نتیجه داده های نادرستی می توانید این را مشاهده کنید. از این رو ، این به دلیل شیوع آن در فناوری هوش مصنوعی در اواخر سال ، هنوز هم مایل به ذکر است. تعصب نژادی زمانی اتفاق می افتد که داده ها به نفع آمارهای خاص جمعیتی منحرف شوند. این را می توان در تشخیص چهره و فن آوری تشخیص گفتار خودکار مشاهده کرد که قادر به تشخیص افراد رنگین پوست به همان اندازه قفقازها نیست. مسابقه تصاویر فراگیر گوگل شامل مثالهای خوبی از چگونگی وقوع این امر بود.

تعصب انجمن: این تعصب زمانی اتفاق می افتد که داده های مربوط به مدل یادگیری ماشین تقویت یا / و تعصب فرهنگی را چند برابر می کند. مجموعه داده های شما ممکن است مجموعه ای از مشاغل باشد که در آن همه مردان پزشک و همه زنان پرستار هستند. این بدان معنا نیست که زنان نمی توانند پزشک باشند و مردان نمی توانند پرستار باشند. با این حال ، تا آنجا که به مدل یادگیری ماشین شما مربوط می شود ، پزشکان زن و پرستاران مرد وجود ندارند. تعصب انجمن به دلیل ایجاد تعصب جنسیتی بیشتر شناخته شده است ، همانطور که در مطالعه Excavating AI قابل مشاهده بود.

جلوگیری از سوگیری داده ها در پروژه های یادگیری ماشین یک روند مداوم است. اگرچه گاهی می توان فهمید که داده ها یا مدل شما چگونه مغرضانه عمل می کند ، اما برای جلوگیری از تعصب یا به موقع گرفتن آن می توانید چند مرحله انجام دهید. اگرچه از یک لیست جامع دور است ، اما نقاط زیر یک راهنمای سطح ابتدایی برای تفکر در مورد تعصب داده ها برای پروژه های یادگیری ماشین فراهم می کند.

  • در حد توانایی خود ، در مورد کاربران خود پیشاپیش تحقیق کنید. از موارد استفاده عمومی و موارد احتمالی پرتگاه خود آگاه باشید.
  • اطمینان حاصل کنید که تیم شما از دانشمندان داده و برچسب زنی داده ها متنوع است.
  • در صورت امکان ، ورودی های چندین منبع را برای اطمینان از تنوع داده ها ترکیب کنید.
  • برای برچسب گذاری داده های خود یک استاندارد طلایی ایجاد کنید. استاندارد طلا مجموعه ای از داده ها است که داده های دارای برچسب ایده آل برای کار شما را منعکس می کند. این امکان را برای شما فراهم می کند تا حاشیه نویسی های تیم خود را برای دقت اندازه گیری کنید.
  • دستورالعمل های روشنی را برای انتظارات برچسب گذاری داده ها ارائه دهید تا برچسب گذاری داده ها سازگار باشد. مستعد تعصب باشید. نمونه هایی از این مورد شامل تجزیه و تحلیل احساسات ، تعدیل محتوا و تشخیص قصد است.
  • برای بررسی داده های جمع آوری شده و / یا حاشیه نویسی خود ، از شخصی با تخصص دامنه کمک بگیرید. ممکن است شخصی از خارج از تیم شما تعصب هایی را ببیند که تیم شما آنها را نادیده گرفته است.
  • به طور منظم داده های خود را تجزیه و تحلیل کنید. خطاها و مناطق مشکل را پیگیری کنید تا بتوانید سریعاً به آنها پاسخ دهید و آنها را برطرف کنید. قبل از تصمیم به حذف یا نگهداری از آنها ، داده های داده را با دقت تجزیه و تحلیل کنید.
  • آزمایش تعصب بخشی از چرخه توسعه خود قرار دهید. Google ، IBM و Microsoft همه ابزارها و راهنماهای منتشر شده برای کمک به تجزیه و تحلیل تعصب برای انواع مختلف داده ها را دارند.

اگر به دنبال یک غواصی عمیق تر هستید در مورد چگونگی سوگیری ، تأثیرات آن بر روی مدلهای یادگیری ماشین و مثالهای قبلی آن در فناوری خودکار ، توصیه می کنم از ارائه مقاله “بایاس در چشم انداز و زبان هوش مصنوعی” مارگارت میچل دیدن کنید. می توانید اسلایدهای ارائه را در اینجا نگاهی بیندازید ، یا فیلم زیر را تماشا کنید. > مهم است که از تعصبات بالقوه یادگیری ماشین برای هر پروژه داده ای آگاهی داشته باشید. با قرار دادن سیستم های مناسب در اوایل کار و نگهداری اطلاعات جمع آوری ، برچسب گذاری و پیاده سازی ، می توانید قبل از ایجاد مشکل متوجه آن شوید و یا هنگام ظاهر شدن به آن پاسخ دهید.

همچنین در: https://lionbridge.ai/articles/7- انواع-داده ها-تعصب-در-یادگیری-ماشین / منتشر شده /