اگرچه قانونی است، اما خراش دادن وب روی سرور وب سایت بارگذاری می کند. به همین دلیل است که هنگام تمرین خراش دادن وب، استفاده از پیدا کردن یک زمین بازی برای بهبود تکنیک های خراش دادن خود مهم است.
در این آموزش، من به شما وب سایت هایی را نشان می دهم که هنگام تمرین وب اسکرپینگ بیشتر دوستشان دارم.
در اینجا لیستی از وب سایت ها برای تمرین خراش دادن وب آمده است:
- scrapethissite.com
- crawler-test.com
- the-internet.herokuapp.com
- toscrape.com: books.toscrape.com & quotes.toscrape.com
- realpython.github.io/fake-jobs
- s1.demo.opensourcecms.com/wordpress
1. ScrapeThisSite (scrapethissite.com)
⭐⭐⭐⭐⭐
ScrapeThisSite متمایز است زیرا مجموعه ای ساختار یافته از وب سایت ها را با برخی چالش های خراش دادن وب ارائه می دهد. میتوانید در دستههای مختلف پیمایش کنید و انواع مختلف را خراش دهید. وب سایت هم ساده و هم غنی است.
2. Crawler-Test (crawler-test.com)
⭐⭐⭐⭐⭐
Crawler-test.com واقعاً گوهری برای اسکرپینگ وب و همچنین برای یادگیری SEO است. یک زیرساخت قوی برای بررسی نحوه برخورد رباتها با انواع مختلف خطاهایی که ممکن است در یک وبسایت رخ دهد، ساخته شد.
3. the-internet.herokuapp.com
⭐⭐⭐⭐⭐
اینترنت طیف گسترده ای از تعاملات وب را ارائه می دهد، از جمله سناریوهای متعدد مربوط به خراش دادن وب. چالش های رابط کاربری آن به مبتدیان و همچنین متخصصان وب سایت کمک می کند تا ساختارهای HTML را به طور موثر درک کرده و دستکاری کنند.
4. خراش دادن (toscrape.com)
⭐⭐⭐⭐
Toscrape.com یک رابط فوق العاده ساده برای خراش دادن نقل قول ها (quotes.toscrape.com) یا خراش دادن کتاب ها (books.toscrape.com)، از جمله تمرین های صفحه بندی ارائه می دهد. این جعبه ماسهبازی برای خراش دادن وب مبتدی عالی است.
5. مشاغل جعلی پایتون واقعی (realpython.github.io/fake-jobs)
⭐⭐⭐
تابلوهای کار برای اسکراپرهای وب بسیار مورد توجه هستند. صنعت کار به طور گسترده توسط محتوای خراشیده پر شده است. با توجه به این موضوع، realpython.com یک تابلوی شغلی جعلی فوق العاده ساده ایجاد کرد تا به شما کمک کند تا وب سایت را برای مشاغل تمرین کنید: realpython.github.io/fake-jobs. سندباکس خراش دادن وب مبتدی.
6. نسخههای نمایشی CMS منبع باز (s1.demo.opensourcecms.com/wordpress)
⭐⭐
وردپرس به عنوان یک CMS بسیار پرکاربرد، تمرین خراش دادن وب در برخی از وب سایت های ساخته شده بر روی آن مفید است، به همین دلیل این جعبه شنی به لیست اضافه شد. با این حال، موارد بسیار محدودی برای تمرین در opensourcecms.com وجود دارد.
نتیجه
تسلط بر وب اسکرپینگ نیاز به تمرین دارد. وب سایت های ذکر شده در این مقاله فرصت های خوبی برای بهبود مهارت های شما ارائه می دهند. Crawler-Test، ScrapeThisSite و The-Internet به دلیل تمرکز اختصاصی آنها بر چالش های خراش دادن وب، بهترین گزینه ها هستند. این پلتفرم ها را کاوش کنید، سناریوهای مختلف خراشیدن را آزمایش کنید و شاهد شکوفایی تخصص خود در زمینه خراش دادن وب باشید.
استراتژیست سئو در Tripadvisor، Seek سابق (ملبورن، استرالیا). متخصص در سئو فنی. در تلاش برای سئوی برنامهریزی شده برای سازمانهای بزرگ از طریق استفاده از پایتون، R و یادگیری ماشین.