Прокси для веб-браузинга AI-агентов стали обязательной частью продакшен-инфраструктуры агентов. Каждый раз, когда ваш агент на LangChain скрапит страницу с ценами, инстанс AutoGPT изучает конкурентов, а команда CrewAI собирает обучающие данные, целевой сайт видит один-единственный IP-адрес, который засыпает его автоматическими запросами. Итог: лимиты запросов, CAPTCHA, баны IP и агенты, которые молча возвращают мусор вместо данных.
Gartner прогнозирует, что к концу 2026 года 40% корпоративных приложений будут содержать узкоспециализированных AI-агентов — против менее чем 5% в 2025 году (Gartner, авг. 2025). По мере масштабирования агентов растут и блокировки. Этот гайд охватывает всё, что нужно для построения надёжной прокси-инфраструктуры для сбора данных LLM: какие типы прокси использовать, как подключить их к трём самым популярным фреймворкам агентов и как держать расходы под контролем.
AI-агенты взаимодействуют с вебом не так, как люди. Один агент может выпустить сотни запросов в минуту по десяткам доменов. Без прокси каждый из этих запросов идёт с одного и того же IP-адреса.
Лимиты запросов. Большинство сайтов вводят ограничения числа запросов на один IP. Агент, который бьёт 60 запросов в минуту с одного IP, упрётся в троттлинг за считаные секунды. Ответы замедляются до черепашьего темпа или возвращают ошибки 429, и цепочка рассуждений вашего агента рвётся.
Анти-бот детекция. Системы вроде Cloudflare, Akamai и PerimeterX анализируют паттерны запросов, TLS-фингерпринты и поведенческие сигналы. Агент, использующий дефолтную сессию requests без браузерного фингерпринта и с пулемётным таймингом, опознаётся элементарно.
Фингерпринтинг IP. Один IP, делающий запросы к множеству эндпоинтов одного сайта, создаёт явный отпечаток. Сайт коррелирует эти запросы, помечает IP и блокирует его — нередко навсегда.
Гео-ограничения. Агентам, собирающим данные о ценах, рекламный контент или локализованную выдачу поиска, нужно выглядеть так, будто они из конкретных стран. Без гео-таргетированных прокси ваш агент видит только то, что отдаётся под фактическое расположение вашего сервера.
Резидентные IP приходят с реальных устройств, которым ISP выдал адрес. Сайты воспринимают их как обычный пользовательский трафик, что делает их идеальными для целей с агрессивными анти-бот системами. В JIBAO Proxy резидентный трафик стоит $6.8/GB по базовой ставке, а объёмные скидки опускают цену до $5.50/GB.
Дата-центровые IP быстрее и дешевле, но сайтам легче их детектировать. Они хорошо работают для API, открытых источников данных и целей без анти-бот защиты. По $1/GB за ротируемые дата-центровые IP это экономичный выбор для высокообъёмного сбора с низким риском.
Ротируемые прокси выдают новый IP на каждый запрос. Используйте их, когда каждый запрос независим: поисковые запросы, списки товаров, массовые проверки URL.
Sticky-сессии держат один и тот же IP на настраиваемый срок (1–30 минут). Используйте их для многошаговых сценариев: вход в аккаунт, навигация по постраничной выдаче, заполнение форм.
| Задача агента | Тип прокси | Сессия | Почему |
|---|---|---|---|
| Веб-скрапинг (защищённые сайты) | Резидентные | Ротация | Обходит лимиты запросов по IP |
| Многошаговое заполнение форм | Резидентные | Sticky | Сохраняет целостность сессии |
| Сбор данных через API | Дата-центровые | Ротация | Быстро, дёшево, API редко блокируют дата-центровые IP |
| Мониторинг цен (e-commerce) | Резидентные | Ротация | E-commerce использует агрессивную анти-бот защиту |
| Сбор обучающих данных для LLM | Дата-центровые | Ротация | Важен объём, большинство целей лояльны |
| Исследование соцсетей | Резидентные | Sticky | Платформы отслеживают связку сессия-IP |
from langchain_community.document_loaders import WebBaseLoader
# Ротируемый резидентный эндпоинт JIBAO Proxy
PROXY_USER = "your_username"
PROXY_PASS = "your_password"
PROXY_HOST = "gate.jibaoproxy.com"
PROXY_PORT = "10001"
proxy_url = f"http://{PROXY_USER}:{PROXY_PASS}@{PROXY_HOST}:{PROXY_PORT}"
loader = WebBaseLoader(
web_paths=["https://example.com/pricing"],
proxies={"http": proxy_url, "https": proxy_url},
requests_kwargs={"timeout": 30},
)
docs = loader.load()
import requests
from langchain_community.document_loaders import WebBaseLoader
# Sticky-сессия: добавляем ID сессии к имени пользователя
SESSION_ID = "agent-task-001"
PROXY_USER = f"your_username-session-{SESSION_ID}"
PROXY_HOST = "gate.jibaoproxy.com"
PROXY_PORT = "10002"
proxy_url = f"http://{PROXY_USER}:your_password@{PROXY_HOST}:{PROXY_PORT}"
session = requests.Session()
session.proxies = {"http": proxy_url, "https": proxy_url}
loader = WebBaseLoader(
web_paths=["https://example.com/page/1", "https://example.com/page/2"],
session=session,
)
docs = loader.load()
import os
from langchain.tools import tool
os.environ["HTTP_PROXY"] = "http://user:[email protected]:10001"
os.environ["HTTPS_PROXY"] = "http://user:[email protected]:10001"
@tool
def fetch_page(url: str) -> str:
"""Загрузить веб-страницу через резидентный прокси."""
import requests
resp = requests.get(url, timeout=30)
resp.raise_for_status()
return resp.text[:8000]
AutoGPT читает конфигурацию прокси из переменных окружения. Добавьте их в свой файл .env:
# .env - конфигурация прокси для AutoGPT
HTTP_PROXY=http://your_username:[email protected]:10001
HTTPS_PROXY=http://your_username:[email protected]:10001
# Не проксировать вызовы LLM API
NO_PROXY=localhost,127.0.0.1,api.openai.com
# Лимиты запросов (секунды между запросами)
BROWSE_COOLDOWN=3
SEARCH_COOLDOWN=5
Если вы запускаете AutoGPT через Docker, пробросьте переменные в docker-compose.yml:
services:
autogpt:
environment:
- HTTP_PROXY=http://user:[email protected]:10001
- HTTPS_PROXY=http://user:[email protected]:10001
- NO_PROXY=localhost,127.0.0.1,api.openai.com
Переменная NO_PROXY гарантирует, что вызовы к API вашего LLM-провайдера идут напрямую. Проксировать нужно только трафик веб-браузинга.
import os
# Настраиваем прокси ДО импорта инструментов CrewAI
os.environ["HTTP_PROXY"] = "http://user:[email protected]:10001"
os.environ["HTTPS_PROXY"] = "http://user:[email protected]:10001"
os.environ["NO_PROXY"] = "api.openai.com,api.anthropic.com"
from crewai import Agent, Task, Crew
from crewai_tools import ScrapeWebsiteTool, SerperDevTool
scrape_tool = ScrapeWebsiteTool()
search_tool = SerperDevTool()
researcher = Agent(
role="Market Researcher",
goal="Gather competitor pricing data from e-commerce sites",
tools=[scrape_tool, search_tool],
verbose=True,
)
task = Task(
description="Scrape pricing pages of the top 5 competitors",
agent=researcher,
expected_output="A comparison table of competitor prices",
)
crew = Crew(agents=[researcher], tasks=[task])
result = crew.kickoff()
Ротируйте IP между задачами, а не внутри задачи. Если агент выполняет пятишаговый сценарий на одном сайте, используйте sticky-сессию на все 5 шагов. Смена IP посреди задачи провоцирует анти-фрод системы.
Используйте sticky-сессии для флоу аутентификации. Любой сценарий с входом или сессионными cookie обязан держать один и тот же IP. Cookie, выпущенная на IP-A и появившаяся с IP-B, выглядит как перехват сессии.
Реализуйте логику повторов с ротацией прокси:
import requests
from time import sleep
def fetch_with_retry(url, proxy_base, max_retries=3):
for attempt in range(max_retries):
proxy = f"http://user-session-{attempt}:pass@{proxy_base}"
try:
resp = requests.get(
url,
proxies={"http": proxy, "https": proxy},
timeout=30,
)
resp.raise_for_status()
return resp.text
except requests.exceptions.HTTPError:
sleep(2 ** attempt)
raise Exception(f"Failed after {max_retries} retries: {url}")
Следите за расходом трафика. Резидентные прокси тарифицируются по GB. Агент с багом, зациклившийся на 10-мегабайтной странице, может быстро сжечь бюджет.
Уважайте robots.txt. Прокси дают возможность достучаться до чего угодно. Это не значит, что так надо. Игнорирование robots.txt чревато юридическими рисками и приводит к тому, что диапазоны прокси-IP помечают.
Маршрутизируйте трафик по сложности цели, а не по удобству.
Дата-центровые прокси ($1/GB) для: открытых API, государственных порталов, академических баз, новостных сайтов. Эти цели редко используют анти-бот системы.
Резидентные прокси ($6.8/GB, до $5.50/GB по объёму) для: e-commerce платформ, соцсетей, поисковиков, всего, что за Cloudflare/Akamai.
Такой многоуровневый подход срезает расходы на прокси на 60–80% по сравнению с прогоном всего через резидентные.
Протестируйте, прежде чем вкладываться. JIBAO Proxy даёт бесплатный пробный период с балансом $5 при регистрации — этого хватит, чтобы проверить пайплайн вашего агента. Новые аккаунты также получают 100% бонус к первому пополнению.
Получите $5 бесплатного баланса, чтобы протестировать резидентные и дата-центровые прокси с вашим фреймворком агентов.
Начать бесплатноНовым пользователям — 5U при регистрации, бонус к первому пополнению. Акция ограничена по времени.