چرا برخی از روش های نمونه گیری داده ها شکست می خورند (و برخی دیگر این کار را نمی کنند)

نویسندگان:

(1) اندرو دراگانوف ، دانشگاه ارهوس و همه نویسندگان به طور مساوی در این تحقیق نقش داشتند.

(2) David Saulpic ، Université Paris Cité & CNRS ؛

(3) کریس شوویگلشان ، دانشگاه آرهوس.

چکیده و 1 مقدمه

2 مقدمات و کارهای مرتبط

2.1 در مورد استراتژی های نمونه برداری

2.2 استراتژی های دیگر Coreset

2.3 هسته برای برنامه های پایگاه داده

2.4 تعبیه چهارگانه

3 هسته سریع

4 کاهش تأثیر گسترش

4.1 محاسبه یک قسمت فوقانی خام

4.2 از محلول تقریبی تا کاهش گسترش

5 فشرده سازی سریع در عمل

5.1 هدف و دامنه تحلیل تجربی

5.2 تنظیم آزمایشی

5.3 ارزیابی استراتژی های نمونه برداری

5.4 تنظیم جریان و 5.5 غذای آماده

6 نتیجه گیری

7 اذعان

8 اثبات ، شبه کد و پسوندها و 8.1 اثبات نتیجه 3.2

8.2 کاهش K-Mean به K-Median

8.3 تخمین هزینه بهینه در یک درخت

8.4 پسوند به الگوریتم 1

منابع

5.3 ارزیابی استراتژی های نمونه برداری

روشهای تضمین شده تئوریکی. ما برای اولین بار مقایسه بین الگوریتم هسته سریع و نمونه گیری حساسیت استاندارد را دور می کنیم. به طور خاص ، آخرین ستون های جداول 4 و 5 نشان می دهد که روش سریع هسته ای فشرده سازی هایی از اعوجاج به طور مداوم کم و این را تولید می کند

شکل 2: بالا: تأثیر M-Scalar بر اعوجاج Coreset برای مجموعه داده های دنیای واقعی. این یک تجسم از داده ها در جدول 4 است. پایین: تأثیر مقیاس M در زمان اجرای الگوریتم برای مجموعه داده های دنیای واقعی. تمام مقادیر میانگین بیش از 5 اجرا است. سه میله نمونه ای از اندازه M = 40k ، 80k را نشان می دهد.شکل 2: بالا: تأثیر M-Scalar بر اعوجاج Coreset برای مجموعه داده های دنیای واقعی. این یک تجسم از داده ها در جدول 4 است. پایین: تأثیر مقیاس M در زمان اجرای الگوریتم برای مجموعه داده های دنیای واقعی. تمام مقادیر میانگین بیش از 5 اجرا است. سه میله نمونه ای از اندازه M = 40k ، 80k را نشان می دهد.

دارای مجموعه داده ها ، مقادیر مقیاس m و در …

Source link