Amazon یک معدن طلا برای پایش قیمت و تحقیق محصول و یکی از تهاجمیترین سایتهای دفاعشدهی وب است. از یک IP دیتاسنتر اسکرپش کنید و ظرف چند درخواست کپچا، دیوار «Robot Check»، قیمتهای چرخان یا ۵۰۳ میبینید. این راهنما پوشش میدهد Amazon چه بررسی میکند، چه استراتژی پروکسی از آن جان بهدر میبرد و چه انضباط نشستی قیمتها و دادهی Buy Box را دقیق نگه میدارد.
پروکسی دیتاسنتر روی Amazon در هر حجم واقعی بنبست است؛ خروجیهای مسکونی با ASN تمیز همان چیزی است که دوام میآورد. به همان اندازه مهم: کشور خروجی را با بازاری که اسکرپ میکنید بخوانید. کشیدن قیمتهای amazon.de از خروجی آمریکا، قیمت، ارز و Buy Box آمریکا میدهد که بیصدا داده را خراب میکند. یک جغرافیای خروجی بهازای هر بازار.
Amazon بر اساس نشست شخصیسازی میکند — افزودن به سبد، محل تحویل و تستهای قیمت همه در cookie زندگی میکنند. اگر در هر درخواست IP بچرخانید، مدام این زمینه را ریست میکنید و قیمتها و برندگان Buy Box ناسازگار میگیرید. برای کل اسکرپ یک محصول یک نشست چسبنده نگه دارید، سپس در مرز محصول یا کار بچرخانید:
import itertools, time, random
from curl_cffi import requests
PROXIES = ["socks5h://USERNAME:[email protected]:913", "..."]
pool = itertools.cycle(PROXIES)
def scrape_product(asin, proxy):
# Same sticky exit for every page of this product
s = requests.Session(impersonate="chrome",
proxies={"http": proxy, "https": proxy})
detail = s.get(f"https://www.amazon.com/dp/{asin}")
offers = s.get(f"https://www.amazon.com/gp/offer-listing/{asin}")
return detail.text, offers.text
for asin in asins:
proxy = next(pool) # new sticky exit per product
if "Robot Check" in scrape_product(asin, proxy)[0]:
# flagged - back off, rotate, retry on a fresh exit
...
time.sleep(random.uniform(2.0, 5.0))
مثل اسکرپ Google SERP، انضباطی که زندهتان نگه میدارد نرخ بهازای هر خروجی است، نه اندازهی استخر. فاصلهها را تصادفی کنید، همروندی بهازای IP را سقف بزنید و با دیدن «Robot Check» یا ۵۰۳ زدن به آن خروجی را متوقف و عقب بکشید؛ تلاش مجدد روی IP علامتخورده فقط بلاک را طولانی میکند.
یک فراخوان سادهی requests یک JA3 میفرستد که پیش از اعمال امتیاز IP شما را اتوماسیون علامت میزند. با curl_cffi (بالا) یا مرورگر واقعی اثرانگشت مرورگر بفرستید — دور زدن فینگرپرینتینگ TLS با curl_cffi را ببینید. اگر Amazon دیوار کپچای JS انداخت، به موتور مرورگر واقعی ارتقا دهید.
کاربران جدید با ثبتنام 500MB هدیه میگیرند، بهعلاوه بونوس اولین شارژ. پیشنهاد محدود.