AI 代理(Agent)的代理配置指南(2026)

发布于 2026年5月27日 · 阅读约 10 分钟

AI agent 的联网浏览已成为生产级 agent 基础设施不可或缺的一环。每当你的 LangChain agent 抓一个价格页、AutoGPT 调研竞品、CrewAI 采训练数据,目标站看到的都是单个 IP 在狂打自动化请求 —— 结果就是限速、验证码、IP 封禁,以及悄悄返回垃圾数据的 agent。

随着 agent 部署规模上升,拦截也随之上升。本文覆盖你构建可靠的 LLM 数据采集代理基础设施所需的一切:用哪种代理、如何接入三大主流框架、如何控成本。

没有代理,AI Agent 为何被封

AI agent 与人的联网方式不同:单个 agent 每分钟可向几十个域名发出上百请求。没有代理,每个请求都来自同一 IP。

限速。多数站点按 IP 限请求数,一个 IP 每分钟 60 请求几秒内就触发节流,返回 429,agent 的推理链断裂。反机器人检测。Cloudflare、Akamai、PerimeterX 分析请求模式、TLS 指纹和行为信号;用默认 requests、无浏览器指纹、机枪式时序的 agent 一抓一个准。IP 指纹。单个 IP 访问同站多个端点会形成清晰指纹,被关联并封禁,常常是永久。地理限制。采价格、广告、本地化搜索结果的 agent 需要从特定国家出现,没有地理定向代理,agent 只能看到服务器实际位置被投放的内容。

AI Agent 该用哪种代理

住宅代理

住宅 IP 来自真实 ISP 分配的设备,网站当成正常用户流量,适合反机器人激进的目标。极豹住宅带宽基价 $6.8/GB,充值最高送100%、折后低至 $3.4/GB。

数据中心代理

数据中心 IP 更快更便宜,但更易被识别,适合 API、公开数据源和无反机器人保护的目标。轮换数据中心 $1/GB,是高量、低风险采集的高性价比选择。

轮换 vs sticky 会话

轮换每请求换 IP,用于彼此独立的请求:搜索查询、商品列表、批量 URL 检查。sticky在 1–30 分钟内保持同一 IP,用于多步流程:登录、翻页、填表。

决策表

Agent 任务代理类型会话原因
网页抓取(受保护站)住宅轮换避开按 IP 限速
多步填表住宅sticky保持会话一致
API 数据采集数据中心轮换快、便宜,API 少封数据中心
电商比价住宅轮换电商反机器人激进
LLM 训练数据采集数据中心轮换看重量,目标多宽松
社媒调研住宅sticky平台跟踪会话-IP 绑定

在 LangChain 中配置代理

用 WebBaseLoader 轮换代理

from langchain_community.document_loaders import WebBaseLoader

# 极豹轮换住宅入口
PROXY_USER = "USERNAME"
PROXY_PASS = "PASSWORD"
PROXY_HOST = "gate.jibaoproxy.com"
PROXY_PORT = "10001"

proxy_url = f"http://{PROXY_USER}:{PROXY_PASS}@{PROXY_HOST}:{PROXY_PORT}"

loader = WebBaseLoader(
    web_paths=["https://example.com/pricing"],
    proxies={"http": proxy_url, "https": proxy_url},
    requests_kwargs={"timeout": 30},
)
docs = loader.load()

多步流程用 sticky 会话

import requests
from langchain_community.document_loaders import WebBaseLoader

# Sticky:在用户名后追加会话 ID
SESSION_ID = "agent-task-001"
PROXY_USER = f"USERNAME-session-{SESSION_ID}"
proxy_url = f"http://{PROXY_USER}:[email protected]:10001"

session = requests.Session()
session.proxies = {"http": proxy_url, "https": proxy_url}

loader = WebBaseLoader(
    web_paths=["https://example.com/page/1", "https://example.com/page/2"],
    session=session,
)
docs = loader.load()

在 AutoGPT 中配置代理

AutoGPT 从环境变量读代理配置,加到 .env

# .env - AutoGPT 代理配置
HTTP_PROXY=http://USERNAME:[email protected]:10001
HTTPS_PROXY=http://USERNAME:[email protected]:10001

# LLM API 调用绕过代理
NO_PROXY=localhost,127.0.0.1,api.openai.com

# 限速(请求间隔秒)
BROWSE_COOLDOWN=3
SEARCH_COOLDOWN=5

NO_PROXY 确保对 LLM 厂商的 API 调用走直连,只有联网浏览流量才走代理。

在 CrewAI 中配置代理

import os

# 在 import CrewAI 工具之前配置代理
os.environ["HTTP_PROXY"] = "http://USERNAME:[email protected]:10001"
os.environ["HTTPS_PROXY"] = "http://USERNAME:[email protected]:10001"
os.environ["NO_PROXY"] = "api.openai.com,api.anthropic.com"

from crewai import Agent, Task, Crew
from crewai_tools import ScrapeWebsiteTool, SerperDevTool

researcher = Agent(
    role="市场调研员",
    goal="从电商站采集竞品价格",
    tools=[ScrapeWebsiteTool(), SerperDevTool()],
    verbose=True,
)
task = Task(description="抓取前 5 名竞品的价格页", agent=researcher,
            expected_output="竞品价格对比表")
result = Crew(agents=[researcher], tasks=[task]).kickoff()

AI Agent 代理使用最佳实践

按任务轮换,不在任务内轮换。一个 5 步流程用一个 sticky 会话跑完;任务内换 IP 会触发反欺诈。认证流程用 sticky。任何涉及登录或会话 cookie 的流程必须同一 IP。带轮换的重试逻辑。失败后在新 IP 上重试。盯住流量。住宅按 GB 计费,agent 的 bug 在大页面上死循环会快速烧钱。尊重 robots.txt。代理给你访问能力,不代表你该无视规则。

成本优化

按目标难度而非便利来路由流量。数据中心($1/GB)用于:公开 API、政府门户、学术库、新闻站。住宅($6.8/GB,折后低至 $3.4/GB)用于:电商、社媒、搜索引擎、Cloudflare/Akamai 后面的一切。这种分层比全走住宅省 60–80%。

极豹新用户注册即送 $5、首充 100% 翻倍,足够验证你的 agent 流水线。延伸阅读:Python 代理轮换绕过 Cloudflare

为你的 AI Agent 提供动力

领取 $5 免费额度,用你的 Agent 框架测试住宅与数据中心代理。

免费试用

所有IP产品通用 · 海量节点随时可用

现在加入,立享最高100%充值返现

新用户注册即送5U,首次充值额外加赠,活动期间限时开放。