
Краулинговый бюджет LLM: как пустить ИИ-ботов на сайт
Настройка robots.txt и серверных ресурсов для OAI-SearchBot, ClaudeBot и других краулеров ИИ.
Краулинговый бюджет LLM: как убедиться, что боты ИИ индексируют ваш сайт
Краулинговый бюджет под ИИ — это управление доступом ботов нейросетей к сайту через robots.txt и скорость сервера. Если бот заблокирован или сайт медленный, контент не попадёт в ответы ChatGPT, Яндекс Нейро или Perplexity.
SEO-специалисты годами оптимизировали краулинговый бюджет под Googlebot и Яндекс-бота. Теперь к ним добавились десятки LLM-краулеров, каждый со своим именем и поведением. Эта статья — практическое руководство: какие user-agent нужно знать, как правильно настроить robots.txt и почему скорость сервера напрямую влияет на то, окажется ли ваш материал в ответе нейросети.
определение
Что такое краулинговый бюджет LLM
Краулинговый бюджет под ИИ — это управление доступом ботов нейросетей (OAI-SearchBot, ClaudeBot и др.) к сайту через robots.txt и скорость сервера. Если бот заблокирован или сайт медленный, контент не попадёт в ответы в реальном времени. Нужно явно разрешить нужные user-agent и обеспечить быстрый отклик.
У нейросетей свои user-agent (OAI-SearchBot, ClaudeBot и др.)
robots.txt должен явно их допускать
Медленный сервер = выпадение из ответов в реальном времени
Проверять логи доступа ботов регулярно
Почему это важно прямо сейчас
До 2023 года список значимых краулеров был стабилен: Googlebot, Яндекс-бот, BingBot — и несколько десятков нишевых сканеров. Сегодня картина кардинально изменилась. ChatGPT с функцией Browse, Perplexity AI, Яндекс Нейро и десятки других LLM-продуктов активно сканируют веб в поисках актуального контента для ответов в реальном времени.
Если ваш robots.txt написан три года назад и содержит общее правило `Disallow: /` для неизвестных ботов — вы, скорее всего, уже блокируете часть LLM-краулеров. Они просто не получают доступ к вашим страницам, и ваш контент не цитируется в ответах нейросетей, даже если по качеству он лучший в нише.
User-agents главных нейросетей
Каждая LLM-платформа регистрирует собственный user-agent для краулера. Ниже — актуальный на момент публикации список основных ботов. Названия могут меняться с выходом новых версий продуктов, поэтому всегда сверяйтесь с официальной документацией платформы.
ChatGPT / SearchGPT (OpenAI): `OAI-SearchBot` — индексирует веб для ответов в реальном времени; `ChatGPT-User` — запросы из плагинов и Browse-режима.
Claude (Anthropic): `ClaudeBot` — основной краулер для обучения и RAG-запросов.
Perplexity AI: `PerplexityBot` — агрессивный краулер, обходит страницы при каждом реальном запросе пользователя.
Google Gemini: `GoogleOther` и `Google-Extended` — последний специально для продуктов Gemini и Vertex AI; можно заблокировать отдельно от основного Googlebot.
Яндекс Нейро / YandexGPT: `YandexBot` остаётся основным идентификатором; отдельный `YandexGPT` упоминается в документации Яндекса — проверяйте актуальность в Яндекс Вебмастере.
Apple: `Applebot-Extended` — для Apple Intelligence и Siri.
Важная деталь: некоторые боты (например, PerplexityBot) не всегда строго следуют robots.txt — они могут игнорировать Crawl-delay и даже отдельные Disallow-правила при высокой нагрузке запросов. Это не повод отказываться от настройки, но повод держать мониторинг логов постоянно включённым.
Отдельно стоит упомянуть RAG-краулеры корпоративных решений — Microsoft Copilot использует Bingbot с расширенными правами, а ряд enterprise-LLM работает через общие пулы IP без фиксированного user-agent. Для таких случаев единственный способ контроля — анализ паттернов в логах по частоте и маршрутам обхода.
справочник
User-agent ИИ-краулеров: быстрая шпаргалка
⚠ Список актуален на момент публикации. Сверяйтесь с официальной документацией платформ — названия user-agent могут меняться.
Настройка robots.txt: допуск RAG-ботов
Правильная настройка robots.txt для LLM-краулеров строится на трёх принципах: явное разрешение, отдельные секции на каждый user-agent и регулярная ревизия.
Базовый шаблон разрешающих правил:
``` User-agent: OAI-SearchBot Allow: /
User-agent: ChatGPT-User Allow: /
User-agent: ClaudeBot Allow: /
User-agent: PerplexityBot Allow: /
User-agent: Google-Extended Allow: /
User-agent: YandexGPT Allow: /
User-agent: Applebot-Extended Allow: /
Если хотите заблокировать конкретный бот (например, не разрешать обучение на вашем контенте, но разрешить поиск):
``` User-agent: Google-Extended Disallow: /
User-agent: ClaudeBot Disallow: / ```
Crawl-delay — задержка между запросами. Для большинства LLM-краулеров рекомендуется 10–30 секунд, если сервер не справляется с нагрузкой. Слишком агрессивный Crawl-delay (>60 сек) может привести к тому, что бот вообще прекратит обход.
Путь к sitemap должен быть указан явно — это ускоряет обнаружение новых страниц:
``` Sitemap: https://example.ru/sitemap.xml ```
Распространённая ошибка — полагаться на общее правило `User-agent: *` с `Allow: /` и считать, что этого достаточно. Некоторые LLM-краулеры (особенно корпоративные) интерпретируют wildcard-правила иначе или имеют собственную логику приоритетов. Явные секции для каждого важного бота — единственный надёжный способ управлять доступом.
Ещё один нюанс: если у вас настроена защита от ботов (Cloudflare Bot Fight Mode, nginx rate-limiting или WAF-правила), убедитесь, что IP-диапазоны и user-agent LLM-краулеров добавлены в белый список. Иначе бот получит 403 или 429 — и в логах robots.txt всё будет «правильно», но страницы так и не будут проиндексированы.
Типичные ошибки при настройке доступа для ИИ-ботов
Частые ошибки
- Блокировка всех неизвестных ботов через `User-agent: * Disallow: /` — написано давно, LLM-боты тогда не существовали
- Cloudflare или другой CDN блокирует ботов на уровне IP ещё до проверки robots.txt
- Crawl-delay выставлен в 120+ секунд — бот считает сайт недоступным и прекращает обход
- Нет sitemap.xml или он не обновляется — новые страницы обнаруживаются с опозданием в недели
- Разные правила на www и non-www версиях сайта — бот видит противоречие
Как исправить
- 01
Явно добавить Allow-секции для каждого LLM-бота в robots.txt
- 02
Проверить правила Cloudflare/WAF и добавить user-agent ИИ-краулеров в whitelist
- 03
Снизить Crawl-delay до 10–30 секунд или убрать совсем, если сервер справляется
- 04
Настроить автогенерацию sitemap с актуальными датами lastmod
- 05
Убедиться, что robots.txt одинаков на обеих версиях домена, и настроить 301-редирект
Скорость сервера и ответ в реальном времени
LLM-поисковики, работающие в режиме реального времени (Perplexity, Яндекс Нейро, SearchGPT), выбирают источники не только по релевантности, но и по скорости отклика. Когда пользователь задаёт вопрос, система за доли секунды решает, какие URL запросить для формирования ответа. Медленный сайт попросту не успевает попасть в выборку.
Ключевой показатель — TTFB (Time to First Byte). Для попадания в реалтайм-ответы ориентируйтесь на TTFB ≤ 200 мс для кешированных страниц и ≤ 800 мс для динамических. Проверить можно через Яндекс Вебмастер (раздел «Скорость сайта»), Google Search Console (Core Web Vitals) или инструменты WebPageTest и GTmetrix.
Помимо TTFB, важны: стабильность сервера (uptime ≥ 99,5%), отсутствие 5xx-ошибок при параллельных запросах и корректная обработка HEAD-запросов — некоторые LLM-краулеры сначала делают HEAD, чтобы проверить доступность страницы, и только потом GET.
Как ускорить сайт для LLM-краулеров: пошаговый план
- 01
Включите кеширование страниц на уровне сервера (nginx FastCGI Cache, Varnish или CDN-кеш Cloudflare). Статические страницы должны отдаваться из кеша за <50 мс.
- 02
Настройте HTTP/2 или HTTP/3 — LLM-краулеры умеют использовать мультиплексирование, что снижает задержки при параллельном обходе.
- 03
Проверьте TTFB через Яндекс Вебмастер и Google Search Console. Если TTFB > 800 мс — ищите узкое место: медленные запросы к БД, тяжёлые плагины, отсутствие CDN.
- 04
Убедитесь, что сервер корректно отвечает на HEAD-запросы кодом 200 (не 405 и не редиректом) — иначе часть ботов пометит страницу как недоступную.
- 05
Настройте мониторинг uptime (UptimeRobot, Яндекс.Метрика Uptime или аналоги). Даже 15-минутный даунтайм в момент обхода может исключить страницу из индекса бота.
- 06
Проверьте поведение сервера при 5–10 параллельных запросах — имитируйте нагрузку через Apache Benchmark (ab) или Yandex.Tank. LLM-краулеры нередко запрашивают несколько URL одновременно.
Как проверить, что боты действительно заходят
Ни Яндекс Вебмастер, ни Google Search Console пока не отображают визиты LLM-ботов в отдельном отчёте. Единственный достоверный источник — access-логи веб-сервера.
Для nginx стандартный путь к логам: `/var/log/nginx/access.log`. Для Apache: `/var/log/apache2/access.log`. Фильтрация по нужному боту:
```bash grep -i "OAI-SearchBot" /var/log/nginx/access.log | tail -50 grep -i "ClaudeBot" /var/log/nginx/access.log | wc -l grep -i "PerplexityBot" /var/log/nginx/access.log ```
Что смотреть в логах: HTTP-статус ответа (200 — хорошо, 403/429 — заблокирован, 5xx — ошибка сервера), частоту визитов (слишком редко — возможно, бот получает ошибки), какие именно страницы обходятся (приоритет бота) и соответствие Crawl-delay реальным интервалам между запросами.
чек-лист
Аудит доступности сайта для LLM-краулеров
robots.txt
- ✓ Явные Allow-секции для OAI-SearchBot, ClaudeBot, PerplexityBot
- ✓ Явные Allow-секции для Google-Extended, YandexGPT, Applebot-Extended
- ✓ Crawl-delay не превышает 30 секунд
- ✓ Sitemap указан явно в robots.txt
- ✓ Правила одинаковы на www и non-www
Сервер и безопасность
- ✓ TTFB ≤ 800 мс для динамических страниц
- ✓ HEAD-запросы возвращают 200, не 405
- ✓ WAF/Cloudflare не блокирует user-agent ботов
- ✓ Uptime ≥ 99,5%, мониторинг настроен
- ✓ Нет массовых 5xx при параллельных запросах
Мониторинг логов
- ✓ Access-логи хранятся минимум 30 дней
- ✓ Настроен grep/алерт на 403/429 от ИИ-ботов
- ✓ Частота визитов соответствует ожиданиям
- ✓ Ключевые страницы обходятся, не только главная
- ✓ Sitemap.xml обновляется при публикации
Отдельный вопрос — разграничение доступа для обучения и для поиска. Некоторые владельцы сайтов хотят, чтобы их контент попадал в ответы нейросетей (поисковый краулинг), но не использовался для дообучения моделей. Для этого Google ввёл `Google-Extended` — его можно заблокировать отдельно от основного Googlebot. Аналогично `ClaudeBot` у Anthropic используется как для обучения, так и для RAG. Если вы хотите разрешить только поиск, уточняйте в документации платформы, какой именно user-agent отвечает за какую функцию.
Практика показывает: сайты, которые явно открыли доступ для LLM-краулеров и оптимизировали TTFB, начинают появляться в ответах Яндекс Нейро и Perplexity уже через 2–4 недели после изменений — при условии, что контент релевантен запросам пользователей.
| Инструмент проверки | Что проверяет | Когда использовать |
|---|---|---|
| Яндекс Вебмастер → Скорость сайта | TTFB, LCP с точки зрения Яндекса | Базовый мониторинг для Рунета |
| Google Search Console → Core Web Vitals | TTFB, LCP, CLS с точки зрения Google | Базовый мониторинг для глобального трафика |
| WebPageTest.org | Водопад загрузки, TTFB из разных регионов | Детальный разбор узких мест |
| GTmetrix | Общая скорость, рекомендации по оптимизации | Быстрая проверка и регрессия после изменений |
| grep по access.log | Факт визитов конкретных ботов и HTTP-статусы | Ежедневный/еженедельный аудит ИИ-ботов |
| Apache Benchmark (ab) | Поведение сервера под параллельной нагрузкой | Нагрузочное тестирование перед публикацией |
Итог: три шага к видимости в ответах нейросетей
- 01
Добавьте явные Allow-секции в robots.txt для всех ключевых LLM-ботов: OAI-SearchBot, ClaudeBot, PerplexityBot, Google-Extended, YandexGPT, Applebot-Extended.
- 02
Убедитесь, что TTFB ≤ 800 мс, WAF не блокирует ботов по IP, а HEAD-запросы возвращают 200.
- 03
Настройте регулярный анализ access-логов — это единственный способ убедиться, что боты действительно заходят и получают нужные страницы.
- 04
Разграничивайте доступ осознанно: если не хотите участвовать в обучении модели — блокируйте конкретный user-agent, не весь трафик.
- 05
Повторяйте аудит раз в квартал: список user-agent LLM-краулеров обновляется вместе с выходом новых продуктов.
GEO (Generative Engine Optimization) — это не замена SEO, а его логичное продолжение. Технические основы одни и те же: доступность, скорость, структурированный контент. Разница — в деталях настройки и в том, что список «поисковых роботов» теперь обновляется каждые несколько месяцев. Держите robots.txt и логи под рукой.
Часто задаваемые вопросы
Основные: OAI-SearchBot (ChatGPT/SearchGPT), ClaudeBot (Anthropic Claude), PerplexityBot (Perplexity AI), GoogleOther (Gemini), YandexGPT-Bot (Яндекс Нейро). Список регулярно обновляется — сверяйтесь с официальной документацией каждой платформы.
Добавьте явные правила Allow для каждого user-agent: «User-agent: OAI-SearchBot» → «Allow: /». Не полагайтесь на правило для «*» — некоторые боты его игнорируют.
Да. Нейросетевые поисковики (Яндекс Нейро, Perplexity) отдают предпочтение источникам с быстрым откликом. Медленный TTFB (>800 мс) снижает шансы на включение в ответ в реальном времени.
Анализируйте access-логи сервера (nginx/Apache): фильтруйте по строкам OAI-SearchBot, ClaudeBot, PerplexityBot. Яндекс Вебмастер и Google Search Console пока не показывают визиты LLM-ботов отдельно — только логи дают полную картину.
Проверьте качество контента (E-E-A-T), структуру заголовков и наличие структурированных данных (schema.org). Технический доступ — необходимое, но не достаточное условие.