AI agent 的联网浏览已成为生产级 agent 基础设施不可或缺的一环。每当你的 LangChain agent 抓一个价格页、AutoGPT 调研竞品、CrewAI 采训练数据,目标站看到的都是单个 IP 在狂打自动化请求 —— 结果就是限速、验证码、IP 封禁,以及悄悄返回垃圾数据的 agent。
随着 agent 部署规模上升,拦截也随之上升。本文覆盖你构建可靠的 LLM 数据采集代理基础设施所需的一切:用哪种代理、如何接入三大主流框架、如何控成本。
AI agent 与人的联网方式不同:单个 agent 每分钟可向几十个域名发出上百请求。没有代理,每个请求都来自同一 IP。
限速。多数站点按 IP 限请求数,一个 IP 每分钟 60 请求几秒内就触发节流,返回 429,agent 的推理链断裂。反机器人检测。Cloudflare、Akamai、PerimeterX 分析请求模式、TLS 指纹和行为信号;用默认 requests、无浏览器指纹、机枪式时序的 agent 一抓一个准。IP 指纹。单个 IP 访问同站多个端点会形成清晰指纹,被关联并封禁,常常是永久。地理限制。采价格、广告、本地化搜索结果的 agent 需要从特定国家出现,没有地理定向代理,agent 只能看到服务器实际位置被投放的内容。
住宅 IP 来自真实 ISP 分配的设备,网站当成正常用户流量,适合反机器人激进的目标。极豹住宅带宽基价 $6.8/GB,充值最高送100%、折后低至 $3.4/GB。
数据中心 IP 更快更便宜,但更易被识别,适合 API、公开数据源和无反机器人保护的目标。轮换数据中心 $1/GB,是高量、低风险采集的高性价比选择。
轮换每请求换 IP,用于彼此独立的请求:搜索查询、商品列表、批量 URL 检查。sticky在 1–30 分钟内保持同一 IP,用于多步流程:登录、翻页、填表。
| Agent 任务 | 代理类型 | 会话 | 原因 |
|---|---|---|---|
| 网页抓取(受保护站) | 住宅 | 轮换 | 避开按 IP 限速 |
| 多步填表 | 住宅 | sticky | 保持会话一致 |
| API 数据采集 | 数据中心 | 轮换 | 快、便宜,API 少封数据中心 |
| 电商比价 | 住宅 | 轮换 | 电商反机器人激进 |
| LLM 训练数据采集 | 数据中心 | 轮换 | 看重量,目标多宽松 |
| 社媒调研 | 住宅 | sticky | 平台跟踪会话-IP 绑定 |
from langchain_community.document_loaders import WebBaseLoader
# 极豹轮换住宅入口
PROXY_USER = "USERNAME"
PROXY_PASS = "PASSWORD"
PROXY_HOST = "gate.jibaoproxy.com"
PROXY_PORT = "10001"
proxy_url = f"http://{PROXY_USER}:{PROXY_PASS}@{PROXY_HOST}:{PROXY_PORT}"
loader = WebBaseLoader(
web_paths=["https://example.com/pricing"],
proxies={"http": proxy_url, "https": proxy_url},
requests_kwargs={"timeout": 30},
)
docs = loader.load()
import requests
from langchain_community.document_loaders import WebBaseLoader
# Sticky:在用户名后追加会话 ID
SESSION_ID = "agent-task-001"
PROXY_USER = f"USERNAME-session-{SESSION_ID}"
proxy_url = f"http://{PROXY_USER}:[email protected]:10001"
session = requests.Session()
session.proxies = {"http": proxy_url, "https": proxy_url}
loader = WebBaseLoader(
web_paths=["https://example.com/page/1", "https://example.com/page/2"],
session=session,
)
docs = loader.load()
AutoGPT 从环境变量读代理配置,加到 .env:
# .env - AutoGPT 代理配置
HTTP_PROXY=http://USERNAME:[email protected]:10001
HTTPS_PROXY=http://USERNAME:[email protected]:10001
# LLM API 调用绕过代理
NO_PROXY=localhost,127.0.0.1,api.openai.com
# 限速(请求间隔秒)
BROWSE_COOLDOWN=3
SEARCH_COOLDOWN=5
NO_PROXY 确保对 LLM 厂商的 API 调用走直连,只有联网浏览流量才走代理。
import os
# 在 import CrewAI 工具之前配置代理
os.environ["HTTP_PROXY"] = "http://USERNAME:[email protected]:10001"
os.environ["HTTPS_PROXY"] = "http://USERNAME:[email protected]:10001"
os.environ["NO_PROXY"] = "api.openai.com,api.anthropic.com"
from crewai import Agent, Task, Crew
from crewai_tools import ScrapeWebsiteTool, SerperDevTool
researcher = Agent(
role="市场调研员",
goal="从电商站采集竞品价格",
tools=[ScrapeWebsiteTool(), SerperDevTool()],
verbose=True,
)
task = Task(description="抓取前 5 名竞品的价格页", agent=researcher,
expected_output="竞品价格对比表")
result = Crew(agents=[researcher], tasks=[task]).kickoff()
按任务轮换,不在任务内轮换。一个 5 步流程用一个 sticky 会话跑完;任务内换 IP 会触发反欺诈。认证流程用 sticky。任何涉及登录或会话 cookie 的流程必须同一 IP。带轮换的重试逻辑。失败后在新 IP 上重试。盯住流量。住宅按 GB 计费,agent 的 bug 在大页面上死循环会快速烧钱。尊重 robots.txt。代理给你访问能力,不代表你该无视规则。
按目标难度而非便利来路由流量。数据中心($1/GB)用于:公开 API、政府门户、学术库、新闻站。住宅($6.8/GB,折后低至 $3.4/GB)用于:电商、社媒、搜索引擎、Cloudflare/Akamai 后面的一切。这种分层比全走住宅省 60–80%。
极豹新用户注册即送 $5、首充 100% 翻倍,足够验证你的 agent 流水线。延伸阅读:Python 代理轮换、绕过 Cloudflare。
新用户注册即送5U,首次充值额外加赠,活动期间限时开放。