پروکسی برای وبگردی ایجنتهای هوش مصنوعی به بخشی غیرقابلمذاکره از زیرساخت ایجنتهای محصول تبدیل شده است. هر بار که ایجنت LangChain شما یک صفحهی قیمتگذاری را اسکرپ میکند، نمونهی AutoGPT شما رقبا را بررسی میکند، یا تیم CrewAI شما دادهی آموزشی جمع میکند، وبسایت هدف یک آدرس IP واحد را میبیند که با درخواستهای خودکار به آن میکوبد. نتیجه: محدودیت نرخ، کپچا، مسدودسازی IP و ایجنتهایی که بیسروصدا دادهی بیارزش برمیگردانند.
گارتنر پیشبینی میکند که تا پایان سال 2026، چهل درصد از برنامههای سازمانی ایجنتهای هوش مصنوعی وظیفهمحور خواهند داشت، در مقایسه با کمتر از 5 درصد در 2025 (گارتنر، اوت 2025). هرچه استقرار ایجنتها مقیاس میگیرد، مسدودسازی هم بیشتر میشود. این راهنما هر چیزی را که برای ساخت یک زیرساخت پروکسی قابلاتکا برای جمعآوری دادهی LLM نیاز دارید پوشش میدهد: کدام نوع پروکسی را بهکار ببرید، چطور آنها را به سه چارچوب محبوب ایجنت سیمکشی کنید، و چطور هزینهها را تحت کنترل نگه دارید.
ایجنتهای هوش مصنوعی بهگونهای متفاوت از انسانها با وب تعامل میکنند. یک ایجنت واحد میتواند صدها درخواست در دقیقه روی دهها دامنه شلیک کند. بدون پروکسی، هر یک از این درخواستها از همان آدرس IP میآید.
محدودیت نرخ. اکثر وبسایتها محدودیت درخواست بهازای هر IP اعمال میکنند. ایجنتی که 60 درخواست در دقیقه از یک IP میزند، ظرف چند ثانیه throttling را فعال میکند. پاسخها بسیار کند میشوند یا خطای 429 برمیگردانند، و زنجیرهی استدلال ایجنت شما میشکند.
تشخیص ضدبات. سیستمهایی مانند Cloudflare، Akamai و PerimeterX الگوهای درخواست، فینگرپرینتهای TLS و سیگنالهای رفتاری را تحلیل میکنند. شناسایی یک ایجنت که از یک سشن پیشفرض requests بدون فینگرپرینت مرورگر و با زمانبندی مسلسلوار استفاده میکند، پیشپاافتاده است.
فینگرپرینت IP. یک IP واحد که به چند endpoint روی یک سایت درخواست میزند، یک فینگرپرینت روشن میسازد. سایت این درخواستها را به هم مرتبط میکند، IP را علامتگذاری میکند و مسدودش میکند — اغلب برای همیشه.
محدودیتهای جغرافیایی. ایجنتهایی که دادهی قیمتگذاری، محتوای تبلیغاتی یا نتایج جستوجوی محلیشده جمع میکنند، باید از کشورهای مشخصی بهنظر برسند. بدون پروکسیهای جغرافیاییهدفمند، ایجنت شما فقط آنچه را که به موقعیت واقعی سرور شما سرو میشود میبیند.
IPهای مسکونی از دستگاههای واقعی اختصاصدادهشده توسط ISP میآیند. وبسایتها با آنها مانند ترافیک کاربر عادی رفتار میکنند، که آنها را برای اهدافی با سیستمهای ضدبات تهاجمی ایدهآل میسازد. در JIBAO Proxy، پهنای باند مسکونی با نرخ پایه 6.8 دلار بر گیگابایت هزینه دارد، با تخفیفهای حجمی که آن را تا 5.50 دلار بر گیگابایت پایین میآورند.
IPهای دیتاسنتر سریعتر و ارزانترند ولی تشخیصشان برای وبسایتها آسانتر است. برای APIها، منابع دادهی عمومی و اهداف بدون محافظت ضدبات خوب کار میکنند. با 1 دلار بر گیگابایت برای IPهای دیتاسنتر چرخشی، آنها انتخاب مقرونبهصرفه برای جمعآوری پرحجم و کمریسک هستند.
پروکسیهای چرخشی برای هر درخواست یک IP جدید اختصاص میدهند. وقتی هر درخواست مستقل است از آنها استفاده کنید: کوئریهای جستوجو، فهرست محصولات، بررسی انبوه URL.
Sticky session همان IP را برای مدتی قابلپیکربندی (1 تا 30 دقیقه) نگه میدارد. برای گردشکارهای چندمرحلهای از آنها استفاده کنید: ورود، پیمایش نتایج صفحهبندیشده، یا پر کردن فرمها.
| وظیفهی ایجنت | نوع پروکسی | سشن | چرا |
|---|---|---|---|
| اسکرپینگ وب (سایتهای محافظتشده) | مسکونی | چرخشی | از محدودیت نرخ مبتنی بر IP جلوگیری میکند |
| پر کردن فرم چندمرحلهای | مسکونی | Sticky | ثبات سشن را حفظ میکند |
| جمعآوری داده از API | دیتاسنتر | چرخشی | سریع، ارزان، APIها بهندرت IP دیتاسنتر را مسدود میکنند |
| پایش قیمت (تجارت الکترونیک) | مسکونی | چرخشی | تجارت الکترونیک از ضدبات تهاجمی استفاده میکند |
| جمعآوری دادهی آموزشی LLM | دیتاسنتر | چرخشی | حجم مهم است، اکثر اهداف سهلگیرند |
| تحقیق در شبکهی اجتماعی | مسکونی | Sticky | پلتفرمها بایند سشن-IP را ردیابی میکنند |
from langchain_community.document_loaders import WebBaseLoader
# endpoint مسکونی چرخشی JIBAO Proxy
PROXY_USER = "your_username"
PROXY_PASS = "your_password"
PROXY_HOST = "gate.jibaoproxy.com"
PROXY_PORT = "10001"
proxy_url = f"http://{PROXY_USER}:{PROXY_PASS}@{PROXY_HOST}:{PROXY_PORT}"
loader = WebBaseLoader(
web_paths=["https://example.com/pricing"],
proxies={"http": proxy_url, "https": proxy_url},
requests_kwargs={"timeout": 30},
)
docs = loader.load()
import requests
from langchain_community.document_loaders import WebBaseLoader
# Sticky session: شناسهی سشن را به نامکاربری اضافه کن
SESSION_ID = "agent-task-001"
PROXY_USER = f"your_username-session-{SESSION_ID}"
PROXY_HOST = "gate.jibaoproxy.com"
PROXY_PORT = "10002"
proxy_url = f"http://{PROXY_USER}:your_password@{PROXY_HOST}:{PROXY_PORT}"
session = requests.Session()
session.proxies = {"http": proxy_url, "https": proxy_url}
loader = WebBaseLoader(
web_paths=["https://example.com/page/1", "https://example.com/page/2"],
session=session,
)
docs = loader.load()
import os
from langchain.tools import tool
os.environ["HTTP_PROXY"] = "http://user:[email protected]:10001"
os.environ["HTTPS_PROXY"] = "http://user:[email protected]:10001"
@tool
def fetch_page(url: str) -> str:
"""یک صفحهی وب را از طریق یک پروکسی مسکونی واکشی کن."""
import requests
resp = requests.get(url, timeout=30)
resp.raise_for_status()
return resp.text[:8000]
AutoGPT پیکربندی پروکسی را از متغیرهای محیطی میخواند. اینها را به فایل .env خود اضافه کنید:
# .env - پیکربندی پروکسی AutoGPT
HTTP_PROXY=http://your_username:[email protected]:10001
HTTPS_PROXY=http://your_username:[email protected]:10001
# دور زدن پروکسی برای فراخوانیهای API مربوط به LLM
NO_PROXY=localhost,127.0.0.1,api.openai.com
# محدودیت نرخ (ثانیه بین درخواستها)
BROWSE_COOLDOWN=3
SEARCH_COOLDOWN=5
اگر AutoGPT را از طریق Docker اجرا میکنید، متغیرها را از طریق docker-compose.yml پاس بدهید:
services:
autogpt:
environment:
- HTTP_PROXY=http://user:[email protected]:10001
- HTTPS_PROXY=http://user:[email protected]:10001
- NO_PROXY=localhost,127.0.0.1,api.openai.com
متغیر NO_PROXY تضمین میکند که فراخوانیهای API به ارائهدهندهی LLM شما مستقیم میروند. فقط ترافیک وبگردی باید پروکسی شود.
import os
# پروکسی را پیش از وارد کردن ابزارهای CrewAI پیکربندی کن
os.environ["HTTP_PROXY"] = "http://user:[email protected]:10001"
os.environ["HTTPS_PROXY"] = "http://user:[email protected]:10001"
os.environ["NO_PROXY"] = "api.openai.com,api.anthropic.com"
from crewai import Agent, Task, Crew
from crewai_tools import ScrapeWebsiteTool, SerperDevTool
scrape_tool = ScrapeWebsiteTool()
search_tool = SerperDevTool()
researcher = Agent(
role="Market Researcher",
goal="Gather competitor pricing data from e-commerce sites",
tools=[scrape_tool, search_tool],
verbose=True,
)
task = Task(
description="Scrape pricing pages of the top 5 competitors",
agent=researcher,
expected_output="A comparison table of competitor prices",
)
crew = Crew(agents=[researcher], tasks=[task])
result = crew.kickoff()
IPها را بین وظایف بچرخانید، نه درون یک وظیفه. اگر ایجنت شما یک گردشکار 5 مرحلهای روی یک سایت انجام میدهد، برای هر 5 مرحله از یک sticky session استفاده کنید. تعویض IP در میانهی وظیفه، سیستمهای ضدتقلب را فعال میکند.
برای جریانهای احراز هویت از sticky session استفاده کنید. هر گردشکاری که شامل ورود یا کوکی سشن باشد باید همان IP را نگه دارد. کوکیای که روی IP-A ساخته شده و از IP-B ظاهر میشود، شبیه ربایش سشن بهنظر میرسد.
منطق تلاش مجدد را با چرخش پروکسی پیاده کنید:
import requests
from time import sleep
def fetch_with_retry(url, proxy_base, max_retries=3):
for attempt in range(max_retries):
proxy = f"http://user-session-{attempt}:pass@{proxy_base}"
try:
resp = requests.get(
url,
proxies={"http": proxy, "https": proxy},
timeout=30,
)
resp.raise_for_status()
return resp.text
except requests.exceptions.HTTPError:
sleep(2 ** attempt)
raise Exception(f"Failed after {max_retries} retries: {url}")
مصرف پهنای باند را پایش کنید. پروکسیهای مسکونی بر حسب گیگابایت محاسبه میشوند. ایجنتی با یک باگ که روی یک صفحهی 10 مگابایتی حلقه میزند میتواند بودجه را سریع بسوزاند.
به robots.txt احترام بگذارید. پروکسیها به شما توانایی دسترسی به هر چیزی را میدهند. این به معنای آن نیست که باید این کار را بکنید. نادیدهگرفتن robots.txt خطر تبعات حقوقی دارد و باعث علامتگذاری محدودههای IP پروکسی میشود.
ترافیک را بر اساس دشواری هدف مسیریابی کنید، نه راحتی.
پروکسیهای دیتاسنتر (1 دلار/گیگ) برای: APIهای عمومی، پورتالهای دولتی، پایگاهدادههای آکادمیک، سایتهای خبری. این اهداف بهندرت از سیستمهای ضدبات استفاده میکنند.
پروکسیهای مسکونی (6.8 دلار/گیگ، با حجم تا 5.50 دلار/گیگ) برای: پلتفرمهای تجارت الکترونیک، شبکهی اجتماعی، موتورهای جستوجو، هر چیزی پشت Cloudflare/Akamai.
این رویکرد لایهبندیشده هزینهی پروکسی را در مقایسه با مسیریابی همهچیز از طریق مسکونی، 60 تا 80 درصد کاهش میدهد.
پیش از تعهد تست کنید. JIBAO Proxy یک تست رایگان با ۵ دلار اعتبار هنگام ثبتنام ارائه میدهد — کافی برای اعتبارسنجی خط لولهی ایجنت شما. حسابهای جدید همچنین یک پاداش 100٪ روی اولین واریز دریافت میکنند.
۵ دلار اعتبار رایگان بگیرید تا پروکسیهای مسکونی و دیتاسنتر را با چارچوب ایجنت خود تست کنید.
شروع تست رایگانکاربران جدید با ثبتنام 500MB هدیه میگیرند، بهعلاوه بونوس اولین شارژ. پیشنهاد محدود.