Vì sao scraping cần proxy xoay?
Khi gửi quá nhiều request từ một IP, website trả về lỗi 429 (Too Many Requests) hoặc 403 (Forbidden) rồi chặn IP. Proxy xoay phân tán request qua nhiều IP, giúp crawl liên tục mà không bị chặn.
Proxy xoay vs proxy tĩnh cho scraping
| Tiêu chí | Proxy xoay | Proxy tĩnh |
|---|---|---|
| Vượt rate-limit | Tốt (đổi IP liên tục) | Kém (1 IP cố định) |
| Số request/giờ | Rất cao | Giới hạn |
| Phù hợp | Crawl diện rộng | Phiên đăng nhập cần ổn định |
| Cách xoay | Tự động hoặc qua API | Không xoay |
Tích hợp với công cụ phổ biến
- Python requests/httpx: gán proxy qua tham số proxies, xoay theo vòng.
- Scrapy: dùng middleware xoay proxy + retry khi gặp 429/403.
- Selenium/Playwright: cấu hình proxy theo từng phiên trình duyệt.
- Gọi API xoay IP của Fox Proxies để đổi IP theo lịch hoặc theo ngưỡng lỗi.
Câu hỏi thường gặp
Bị lỗi 429 khi scraping thì làm sao?
Dùng proxy xoay để phân tán request qua nhiều IP, thêm độ trễ ngẫu nhiên giữa các request và retry với IP mới khi gặp 429.
Scraping nên dùng proxy dân cư hay datacenter?
Dân cư xoay cho mục tiêu khó (cần IP địa phương sạch); datacenter cho tải lớn, không nhạy cảm và cần giá tốt.