Схема взаимодействия ИИ-краулеров с сайтом через robots.txt и сервер

Краулинговый бюджет LLM: как пустить ИИ-ботов на сайт

Настройка robots.txt и серверных ресурсов для OAI-SearchBot, ClaudeBot и других краулеров ИИ.

Краулинговый бюджет LLM: как убедиться, что боты ИИ индексируют ваш сайт

Краулинговый бюджет под ИИ — это управление доступом ботов нейросетей к сайту через robots.txt и скорость сервера. Если бот заблокирован или сайт медленный, контент не попадёт в ответы ChatGPT, Яндекс Нейро или Perplexity.

Нейросетевые поисковики используют собственные user-agent — и большинство сайтов случайно их блокируют устаревшими правилами robots.txt.

SEO-специалисты годами оптимизировали краулинговый бюджет под Googlebot и Яндекс-бота. Теперь к ним добавились десятки LLM-краулеров, каждый со своим именем и поведением. Эта статья — практическое руководство: какие user-agent нужно знать, как правильно настроить robots.txt и почему скорость сервера напрямую влияет на то, окажется ли ваш материал в ответе нейросети.

определение

Что такое краулинговый бюджет LLM

Краулинговый бюджет под ИИ — это управление доступом ботов нейросетей (OAI-SearchBot, ClaudeBot и др.) к сайту через robots.txt и скорость сервера. Если бот заблокирован или сайт медленный, контент не попадёт в ответы в реальном времени. Нужно явно разрешить нужные user-agent и обеспечить быстрый отклик.

01

У нейросетей свои user-agent (OAI-SearchBot, ClaudeBot и др.)

02

robots.txt должен явно их допускать

03

Медленный сервер = выпадение из ответов в реальном времени

04

Проверять логи доступа ботов регулярно

Почему это важно прямо сейчас

До 2023 года список значимых краулеров был стабилен: Googlebot, Яндекс-бот, BingBot — и несколько десятков нишевых сканеров. Сегодня картина кардинально изменилась. ChatGPT с функцией Browse, Perplexity AI, Яндекс Нейро и десятки других LLM-продуктов активно сканируют веб в поисках актуального контента для ответов в реальном времени.

Если ваш robots.txt написан три года назад и содержит общее правило `Disallow: /` для неизвестных ботов — вы, скорее всего, уже блокируете часть LLM-краулеров. Они просто не получают доступ к вашим страницам, и ваш контент не цитируется в ответах нейросетей, даже если по качеству он лучший в нише.

User-agents главных нейросетей

Каждая LLM-платформа регистрирует собственный user-agent для краулера. Ниже — актуальный на момент публикации список основных ботов. Названия могут меняться с выходом новых версий продуктов, поэтому всегда сверяйтесь с официальной документацией платформы.

ChatGPT / SearchGPT (OpenAI): `OAI-SearchBot` — индексирует веб для ответов в реальном времени; `ChatGPT-User` — запросы из плагинов и Browse-режима.

Claude (Anthropic): `ClaudeBot` — основной краулер для обучения и RAG-запросов.

Perplexity AI: `PerplexityBot` — агрессивный краулер, обходит страницы при каждом реальном запросе пользователя.

Google Gemini: `GoogleOther` и `Google-Extended` — последний специально для продуктов Gemini и Vertex AI; можно заблокировать отдельно от основного Googlebot.

Яндекс Нейро / YandexGPT: `YandexBot` остаётся основным идентификатором; отдельный `YandexGPT` упоминается в документации Яндекса — проверяйте актуальность в Яндекс Вебмастере.

Apple: `Applebot-Extended` — для Apple Intelligence и Siri.

Важная деталь: некоторые боты (например, PerplexityBot) не всегда строго следуют robots.txt — они могут игнорировать Crawl-delay и даже отдельные Disallow-правила при высокой нагрузке запросов. Это не повод отказываться от настройки, но повод держать мониторинг логов постоянно включённым.

Отдельно стоит упомянуть RAG-краулеры корпоративных решений — Microsoft Copilot использует Bingbot с расширенными правами, а ряд enterprise-LLM работает через общие пулы IP без фиксированного user-agent. Для таких случаев единственный способ контроля — анализ паттернов в логах по частоте и маршрутам обхода.

справочник

User-agent ИИ-краулеров: быстрая шпаргалка

ПлатформаUser-agentНазначение
ChatGPT / SearchGPTOAI-SearchBotОтветы в реальном времени
ChatGPT BrowseChatGPT-UserПлагины, Browse-режим
Claude (Anthropic)ClaudeBotRAG и обучение
Perplexity AIPerplexityBotОтветы в реальном времени
Google GeminiGoogle-ExtendedGemini, Vertex AI
Яндекс НейроYandexBot / YandexGPTНейро, Алиса
Apple IntelligenceApplebot-ExtendedSiri, Apple AI

⚠ Список актуален на момент публикации. Сверяйтесь с официальной документацией платформ — названия user-agent могут меняться.

Настройка robots.txt: допуск RAG-ботов

Правильная настройка robots.txt для LLM-краулеров строится на трёх принципах: явное разрешение, отдельные секции на каждый user-agent и регулярная ревизия.

Базовый шаблон разрешающих правил:

``` User-agent: OAI-SearchBot Allow: /

User-agent: ChatGPT-User Allow: /

User-agent: ClaudeBot Allow: /

User-agent: PerplexityBot Allow: /

User-agent: Google-Extended Allow: /

User-agent: YandexGPT Allow: /

User-agent: Applebot-Extended Allow: /

Если хотите заблокировать конкретный бот (например, не разрешать обучение на вашем контенте, но разрешить поиск):

``` User-agent: Google-Extended Disallow: /

User-agent: ClaudeBot Disallow: / ```

Crawl-delay — задержка между запросами. Для большинства LLM-краулеров рекомендуется 10–30 секунд, если сервер не справляется с нагрузкой. Слишком агрессивный Crawl-delay (>60 сек) может привести к тому, что бот вообще прекратит обход.

Путь к sitemap должен быть указан явно — это ускоряет обнаружение новых страниц:

``` Sitemap: https://example.ru/sitemap.xml ```

Распространённая ошибка — полагаться на общее правило `User-agent: *` с `Allow: /` и считать, что этого достаточно. Некоторые LLM-краулеры (особенно корпоративные) интерпретируют wildcard-правила иначе или имеют собственную логику приоритетов. Явные секции для каждого важного бота — единственный надёжный способ управлять доступом.

Ещё один нюанс: если у вас настроена защита от ботов (Cloudflare Bot Fight Mode, nginx rate-limiting или WAF-правила), убедитесь, что IP-диапазоны и user-agent LLM-краулеров добавлены в белый список. Иначе бот получит 403 или 429 — и в логах robots.txt всё будет «правильно», но страницы так и не будут проиндексированы.

Типичные ошибки при настройке доступа для ИИ-ботов

Большинство проблем с индексацией LLM-краулеров возникают не из злого умысла, а из устаревших конфигураций и неверных допущений.

Частые ошибки

  • Блокировка всех неизвестных ботов через `User-agent: * Disallow: /` — написано давно, LLM-боты тогда не существовали
  • Cloudflare или другой CDN блокирует ботов на уровне IP ещё до проверки robots.txt
  • Crawl-delay выставлен в 120+ секунд — бот считает сайт недоступным и прекращает обход
  • Нет sitemap.xml или он не обновляется — новые страницы обнаруживаются с опозданием в недели
  • Разные правила на www и non-www версиях сайта — бот видит противоречие

Как исправить

  1. 01

    Явно добавить Allow-секции для каждого LLM-бота в robots.txt

  2. 02

    Проверить правила Cloudflare/WAF и добавить user-agent ИИ-краулеров в whitelist

  3. 03

    Снизить Crawl-delay до 10–30 секунд или убрать совсем, если сервер справляется

  4. 04

    Настроить автогенерацию sitemap с актуальными датами lastmod

  5. 05

    Убедиться, что robots.txt одинаков на обеих версиях домена, и настроить 301-редирект

Скорость сервера и ответ в реальном времени

LLM-поисковики, работающие в режиме реального времени (Perplexity, Яндекс Нейро, SearchGPT), выбирают источники не только по релевантности, но и по скорости отклика. Когда пользователь задаёт вопрос, система за доли секунды решает, какие URL запросить для формирования ответа. Медленный сайт попросту не успевает попасть в выборку.

Ключевой показатель — TTFB (Time to First Byte). Для попадания в реалтайм-ответы ориентируйтесь на TTFB ≤ 200 мс для кешированных страниц и ≤ 800 мс для динамических. Проверить можно через Яндекс Вебмастер (раздел «Скорость сайта»), Google Search Console (Core Web Vitals) или инструменты WebPageTest и GTmetrix.

Помимо TTFB, важны: стабильность сервера (uptime ≥ 99,5%), отсутствие 5xx-ошибок при параллельных запросах и корректная обработка HEAD-запросов — некоторые LLM-краулеры сначала делают HEAD, чтобы проверить доступность страницы, и только потом GET.

Как ускорить сайт для LLM-краулеров: пошаговый план

  1. 01

    Включите кеширование страниц на уровне сервера (nginx FastCGI Cache, Varnish или CDN-кеш Cloudflare). Статические страницы должны отдаваться из кеша за <50 мс.

  2. 02

    Настройте HTTP/2 или HTTP/3 — LLM-краулеры умеют использовать мультиплексирование, что снижает задержки при параллельном обходе.

  3. 03

    Проверьте TTFB через Яндекс Вебмастер и Google Search Console. Если TTFB > 800 мс — ищите узкое место: медленные запросы к БД, тяжёлые плагины, отсутствие CDN.

  4. 04

    Убедитесь, что сервер корректно отвечает на HEAD-запросы кодом 200 (не 405 и не редиректом) — иначе часть ботов пометит страницу как недоступную.

  5. 05

    Настройте мониторинг uptime (UptimeRobot, Яндекс.Метрика Uptime или аналоги). Даже 15-минутный даунтайм в момент обхода может исключить страницу из индекса бота.

  6. 06

    Проверьте поведение сервера при 5–10 параллельных запросах — имитируйте нагрузку через Apache Benchmark (ab) или Yandex.Tank. LLM-краулеры нередко запрашивают несколько URL одновременно.

Как проверить, что боты действительно заходят

Ни Яндекс Вебмастер, ни Google Search Console пока не отображают визиты LLM-ботов в отдельном отчёте. Единственный достоверный источник — access-логи веб-сервера.

Для nginx стандартный путь к логам: `/var/log/nginx/access.log`. Для Apache: `/var/log/apache2/access.log`. Фильтрация по нужному боту:

```bash grep -i "OAI-SearchBot" /var/log/nginx/access.log | tail -50 grep -i "ClaudeBot" /var/log/nginx/access.log | wc -l grep -i "PerplexityBot" /var/log/nginx/access.log ```

Что смотреть в логах: HTTP-статус ответа (200 — хорошо, 403/429 — заблокирован, 5xx — ошибка сервера), частоту визитов (слишком редко — возможно, бот получает ошибки), какие именно страницы обходятся (приоритет бота) и соответствие Crawl-delay реальным интервалам между запросами.

чек-лист

Аудит доступности сайта для LLM-краулеров

robots.txt

  • Явные Allow-секции для OAI-SearchBot, ClaudeBot, PerplexityBot
  • Явные Allow-секции для Google-Extended, YandexGPT, Applebot-Extended
  • Crawl-delay не превышает 30 секунд
  • Sitemap указан явно в robots.txt
  • Правила одинаковы на www и non-www

Сервер и безопасность

  • TTFB ≤ 800 мс для динамических страниц
  • HEAD-запросы возвращают 200, не 405
  • WAF/Cloudflare не блокирует user-agent ботов
  • Uptime ≥ 99,5%, мониторинг настроен
  • Нет массовых 5xx при параллельных запросах

Мониторинг логов

  • Access-логи хранятся минимум 30 дней
  • Настроен grep/алерт на 403/429 от ИИ-ботов
  • Частота визитов соответствует ожиданиям
  • Ключевые страницы обходятся, не только главная
  • Sitemap.xml обновляется при публикации
Технический доступ — необходимое, но не достаточное условие для цитирования. После того как вы открыли доступ ботам и ускорили сервер, убедитесь, что контент отвечает на конкретные вопросы (E-E-A-T), страницы имеют чёткую структуру заголовков H1–H3 и подключена разметка schema.org. Нейросети предпочитают источники, которые легко «распарсить» и процитировать дословно.

Отдельный вопрос — разграничение доступа для обучения и для поиска. Некоторые владельцы сайтов хотят, чтобы их контент попадал в ответы нейросетей (поисковый краулинг), но не использовался для дообучения моделей. Для этого Google ввёл `Google-Extended` — его можно заблокировать отдельно от основного Googlebot. Аналогично `ClaudeBot` у Anthropic используется как для обучения, так и для RAG. Если вы хотите разрешить только поиск, уточняйте в документации платформы, какой именно user-agent отвечает за какую функцию.

Практика показывает: сайты, которые явно открыли доступ для LLM-краулеров и оптимизировали TTFB, начинают появляться в ответах Яндекс Нейро и Perplexity уже через 2–4 недели после изменений — при условии, что контент релевантен запросам пользователей.

Инструмент проверкиЧто проверяетКогда использовать
Яндекс Вебмастер → Скорость сайтаTTFB, LCP с точки зрения ЯндексаБазовый мониторинг для Рунета
Google Search Console → Core Web VitalsTTFB, LCP, CLS с точки зрения GoogleБазовый мониторинг для глобального трафика
WebPageTest.orgВодопад загрузки, TTFB из разных регионовДетальный разбор узких мест
GTmetrixОбщая скорость, рекомендации по оптимизацииБыстрая проверка и регрессия после изменений
grep по access.logФакт визитов конкретных ботов и HTTP-статусыЕжедневный/еженедельный аудит ИИ-ботов
Apache Benchmark (ab)Поведение сервера под параллельной нагрузкойНагрузочное тестирование перед публикацией

Итог: три шага к видимости в ответах нейросетей

Открытый robots.txt + быстрый сервер + регулярный мониторинг логов — минимальный технический фундамент для GEO-оптимизации.
  1. 01

    Добавьте явные Allow-секции в robots.txt для всех ключевых LLM-ботов: OAI-SearchBot, ClaudeBot, PerplexityBot, Google-Extended, YandexGPT, Applebot-Extended.

  2. 02

    Убедитесь, что TTFB ≤ 800 мс, WAF не блокирует ботов по IP, а HEAD-запросы возвращают 200.

  3. 03

    Настройте регулярный анализ access-логов — это единственный способ убедиться, что боты действительно заходят и получают нужные страницы.

  4. 04

    Разграничивайте доступ осознанно: если не хотите участвовать в обучении модели — блокируйте конкретный user-agent, не весь трафик.

  5. 05

    Повторяйте аудит раз в квартал: список user-agent LLM-краулеров обновляется вместе с выходом новых продуктов.

GEO (Generative Engine Optimization) — это не замена SEO, а его логичное продолжение. Технические основы одни и те же: доступность, скорость, структурированный контент. Разница — в деталях настройки и в том, что список «поисковых роботов» теперь обновляется каждые несколько месяцев. Держите robots.txt и логи под рукой.

Часто задаваемые вопросы

Шаг 1 из 2
Бесплатный разбор

Проверим, открыт ли ваш сайт для ИИ-краулеров

Аудит robots.txt, логов и скорости — получите отчёт с конкретными правками

Введите адрес сайта — например, gurucontext.ru

Бесплатный разборБез обязательствОтветим за час
Сайт принят в работу

Куда прислать разбор?

Не удалось отправить — проверьте связь и попробуйте ещё раз.

Укажите имя

Оставьте телефон или Telegram для связи

Нужно согласие на обработку данных

Не передаём третьим лицам

Заявка принята

Разберём ваш сайт и пришлём результат в течение часа.

Обычно отвечаем в Telegram. Если оставили телефон — позвоним в рабочее время.

Политика конфиденциальности

При оставлении заявки на ресурсе «https://gurucontext.ru» пользователи предоставляют следующие сведения:

  • Имя
  • Контактный телефон или Telegram
  • Адрес сайта пользователя (не обязательно)

Также администрация сайта получает данные об IP-адресе посетителей, типе браузера, времени нахождения на сайте и прочие подобные сведения через сервисы статистики.

Использование информации

Вся полученная информация используется администрацией «https://gurucontext.ru» исключительно в целях связи с клиентом.

Защита персональных данных

Компания «https://gurucontext.ru» обязуется не разглашать сведения, полученные от пользователей, и хранит их в защищённом виде.

Предоставление данных третьим лицам

Полученные сведения не передаются третьим лицам, за исключением случаев исполнения обязательств перед клиентом (с его разрешения) и обоснованных требований закона.

Контакты

Телефон: +7 (499) 955-47-00.
E-mail: info@gurucontext.ru.