Настройка прокси для Crawl4AI и Firecrawl: RAG-инжест без блоков (2026)

Опубликовано 6 июня 2026 г. · ≈8 мин чтения

Crawl4AI и Firecrawl стали стандартным способом подавать веб-данные в LLM-пайплайны — они обходят сайты, рендерят и возвращают чистый Markdown, который ваша модель реально может использовать. А затем вы наводите их на настоящую цель и узнаёте то, что рано или поздно узнаёт каждый скрейпер: слой извлечения никогда не был сложной частью. Сложность в том, что ваш краулер работает с одного дата-центрового IP, и веб это видит.

В гайде показана рабочая настройка прокси для обоих инструментов — self-hosted Crawl4AI и оба режима Firecrawl — плюс стратегия сессий, которая не даёт задачам RAG-инжеста умирать на 50-й странице. Это расширение наших гайдов по прокси для AI-агентов и browser-use на краулинговые фреймворки.

Почему LLM-краулеры блокируются быстрее обычных скрейперов

Они тянут вширь, а не точечно. Задача RAG-инжеста за минуты вытягивает сотни страниц по всему домену — ровно тот паттерн скорости, который системы репутации IP оценивают жёстче всего (см. разбор детекта по ASN).
По умолчанию они запускают headless Chromium. Crawl4AI под капотом использует Playwright; без флагов он показывает стандартные headless-артефакты.
Они тупо ретраят. Дефолтный retry-on-failure против анти-бот стены лишь глубже выжигает репутацию IP.

Crawl4AI: настройка прокси

Crawl4AI (open-source, self-hosted) принимает прокси на уровне BrowserConfig — один прокси на экземпляр краулера:

from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig

browser_cfg = BrowserConfig(
    headless=True,
    proxy_config={
        "server": "us.jibaoproxy.com:913",
        "username": "USERNAME",
        "password": "PASSWORD",
    },
)

async with AsyncWebCrawler(config=browser_cfg) as crawler:
    result = await crawler.arun(
        url="https://example.com/docs",
        config=CrawlerRunConfig(),
    )
    print(result.markdown[:500])

Для глубоких обходов меняйте личность на экземпляр краулера, а не на страницу — страницы в рамках одного визита на сайт должны делить один выходной IP (человек не меняет город между страницей 3 и страницей 4):

def crawler_for(site_id: str) -> BrowserConfig:
    # Sticky-сессия на сайт: cookie + IP двигаются вместе
    return BrowserConfig(
        headless=True,
        proxy_config={
            "server": "us.jibaoproxy.com:913",
            "username": f"USERNAME-session-{site_id}",
            "password": "PASSWORD",
        },
    )

# сайт A обходится через выход A, сайт B через выход B, параллельно

Firecrawl: два режима, два ответа

Облачный API: проксирование — это параметр запроса, Firecrawl маршрутизирует через свои пулы. Вы управляете уровнем качества, но не самими IP:

from firecrawl import FirecrawlApp

app = FirecrawlApp(api_key="fc-YOUR-KEY")
result = app.scrape_url(
    "https://example.com/pricing",
    params={"proxy": "stealth"},   # basic | stealth | auto
)

Подвох: запросы на уровне stealth тарифицируются кратно базовым кредитам, и вы не можете точно зафиксировать страну или держать sticky-сессии между вызовами. Годится для эпизодических страниц; дорого и неточно на объёмах инжеста.

Self-hosted Firecrawl: вы подаёте собственный прокси через переменные окружения, с полным контролем:

# .env для self-hosted Firecrawl
PROXY_SERVER=http://us.jibaoproxy.com:1000
PROXY_USERNAME=USERNAME
PROXY_PASSWORD=PASSWORD

Self-hosted + собственный резидентный шлюз — рационально по цене, как только вы инжестите на масштабе: вы платите за трафик по гигабайтам, а не за страницы по кредитам с stealth-множителем.

Стратегия сессий для задач RAG-инжеста

Один сайт = одна sticky-личность. Cookie, кэш и выходной IP остаются согласованными на весь обход сайта; ротация между сайтами. (Контекст: sticky против ротации.)
Уважайте темп на каждый сайт. Опции semaphore_count / задержек в Crawl4AI существуют ровно для этого — 2–4 одновременные страницы на сайт более чем достаточно; распределяйте параллелизм по сайтам.
Роняйте страницу, а не задачу. На 403/challenge пометьте URL, смените личность и продолжайте — слепые ретраи через тот же выход отравляют его оценку.
Валидируйте Markdown. Анти-бот интерстишал прекрасно конвертируется в Markdown — "Verifying you are human" в вашей векторной БД — вполне реальный режим отказа. Грепайте вывод инжеста на маркеры страниц-challenge перед индексацией.
Кэшируйте агрессивно. Повторный обход неизменившихся страниц жжёт трафик и репутацию впустую — уважайте ETag/Last-Modified, где фреймворк это позволяет.

Сверка с реальностью по цене

Конфигурация	За что платите	Когда лучше всего
Firecrawl облако, stealth-прокси	Кредиты за страницу × stealth-множитель	Малый объём, ноль операционки
Self-hosted Firecrawl + резидентные ГБ	Только трафик (~$10/ГБ)	Стабильный объём инжеста
Crawl4AI + резидентные ГБ	Только трафик, полный контроль	Кастомные пайплайны, глубокие обходы

Типичная текстовая страница стоит 100–300 КБ через прокси — примерно 3 000–10 000 страниц на ГБ. Циклы "блок-и-ретрай" — вот что разрывает бюджет, ещё одна причина чинить детект до масштабирования объёма.

Бесплатный инструмент · без регистрации

Переживёт ли ваш краулер контакт с целью?

Наведите наш Anti-Bot Detector на вашу связку Crawl4AI/Firecrawl — он покажет headless-артефакты, несоответствия отпечатков и классификацию IP, которые увидит защита цели.

Протестировать мой краулер →

Готовы масштабировать инжест? Резидентный трафик по $10/ГБ — $5 бесплатного баланса →

Итоги

Блок LLM-краулера = детект по IP + headless, а не фреймворк; чините сначала сетевой слой.
Crawl4AI: proxy_config в BrowserConfig; sticky-личность на сайт, ротация между сайтами.
Firecrawl облако: параметр proxy: "stealth", дорого на объёме; self-hosted: собственный шлюз через переменные окружения.
Валидируйте вывод Markdown на текст страниц-challenge до того, как он попадёт в векторную БД.
Резидентные по ГБ выигрывают у постраничных stealth-кредитов, как только инжест стабилен.

Трафик для вашего RAG-пайплайна

Резидентные выходы, sticky-сессии, цена за ГБ — $5 бесплатного баланса, без карты.

Начать бесплатно