در توسعه وب، خراش دادن وب سایت های پویا هم به یک هنر و هم به یک علم تبدیل شده است. با ابزارهایی مانند Puppeteer، Playwright و Selenium، توسعه دهندگان گزینه های قدرتمندی در اختیار دارند. اما با قدرت زیاد، پیچیدگی زیادی به همراه دارد. در یک وبینار اخیر، Dario Kondratiuk، دیگو مولینا، و گرگ گورلن کهنه کار خراش دادن نکات حرفه ای را برای پیمایش در این منظره به اشتراک گذاشتند. فرقی نمیکند با برنامههای تک صفحهای (SPA) سروکار داشته باشید یا از اقدامات ضد ربات طفره بروید، در اینجا نحوه ارتقای سطح بازی خراش دادن خود آورده شده است.
انتخاب انتخابگرهای قابل اعتماد
در طول وبینار، داریو کوندراتیوک بر اهمیت استفاده از انتخابگرهای قوی در اسکراپینگ وب تأکید کرد. انتخابگرهای شکننده و عمیق تو در تو اغلب منجر به سردردهای نگهداری می شود. در عوض، داریو استفاده از برچسبهای ARIA و انتخابگرهای مبتنی بر متن را توصیه کرد که در برابر تغییرات مقاومتر هستند.
مثلا:
javascriptCopy code// Using Playwright for ARIA and text selectors
await page.locator('text="Login"').click();
await page.locator('[aria-label="Submit"]').click();
این رویکرد تضمین میکند که حتی اگر HTML اصلی تغییر کند، اسکریپتهای شما کاربردی باقی میمانند. همانطور که داریو اشاره کرد، “انتخاب کننده های قابل اعتماد تعمیر و نگهداری را به حداقل می رساند و خرابی های اسکریپت را کاهش می دهد.”
رهگیری API را در آغوش بگیرید
در وبینار، گرگ گورلن بر قدرت رهگیری API برای موارد بیشتر تاکید کرد…