من به عنوان یک مهندس نرم افزار که با داده های مالی بسیار کار می کند ، اخیراً با API های سنتی بورس به دیوار برخورد کردم. بعد از ناامید شدن از محدودیت نرخ و اشتراک های گران قیمت ، تصمیم گرفتم با استفاده از خراش وب ، راه حل خودم را بسازم. در اینجا نحوه انجام این کار ، و آنچه در طول راه آموختم آمده است.
مقدمه: چرا من به یک رویکرد متفاوت نیاز داشتم
نکته شکستن من در طی یک پروژه شخصی به آنجا رسید که من در تلاش برای تجزیه و تحلیل روند بازار بودم. API Yahoo Finance محدودیت نرخ را به خود اختصاص داد ، و قیمت گذاری ترمینال بلومبرگ باعث شد من با صدای بلند بخندم – هیچ راهی وجود ندارد که بتوانم آن هزینه را برای یک پروژه جانبی توجیه کنم. من به چیزی احتیاج داشتم که به من اجازه دهد:
- داده های بدون محدودیت دلخواه
- قیمت های واقعی و حجم معاملات را دریافت کنید
- دسترسی به داده های تاریخی بدون پرداخت هزینه های حق بیمه
- تجزیه و تحلیل من را در صورت لزوم مقیاس کنید
راه حل خراش وب
پس از برخی تحقیقات و آزمایشات ، من در مورد داده های دو منبع اصلی: CNN پول برای سهام و تأمین مالی یاهو برای معیارهای دقیق ، روی داده های ضبط کردم. در اینجا نحوه ساخت آن آورده شده است:
تنظیم زیرساخت های اساسی
ابتدا ابزارهای ضروری را نصب کردم:
pip install requests bs4
سپس من یک اسکرابر اساسی ایجاد کردم که می تواند مسائل شبکه را به طرز فجیعی اداره کند:
import requests
from bs4 import BeautifulSoup
import time
import logging
def...