ИИ-продвижение01 июля 2026 г. 11 минут чтения 9 просмотров

Краулинговый бюджет LLM: как пустить ИИ-ботов на сайт

Q: Какие user-agent используют нейросети?

Основные: OAI-SearchBot (ChatGPT/SearchGPT), ClaudeBot (Anthropic Claude), PerplexityBot (Perplexity AI), GoogleOther (Gemini), YandexGPT-Bot (Яндекс Нейро). Список регулярно обновляется — сверяйтесь с официальной документацией каждой платформы.

Q: Как разрешить ИИ-ботам доступ в robots.txt?

Добавьте явные правила Allow для каждого user-agent: «User-agent: OAI-SearchBot» → «Allow: /». Не полагайтесь на правило для «*» — некоторые боты его игнорируют.

Q: Влияет ли скорость сайта на попадание в ответы ИИ?

Да. Нейросетевые поисковики (Яндекс Нейро, Perplexity) отдают предпочтение источникам с быстрым откликом. Медленный TTFB (>800 мс) снижает шансы на включение в ответ в реальном времени.

Q: Как проверить, что ИИ-боты действительно заходят на сайт?

Анализируйте access-логи сервера (nginx/Apache): фильтруйте по строкам OAI-SearchBot, ClaudeBot, PerplexityBot. Яндекс Вебмастер и Google Search Console пока не показывают визиты LLM-ботов отдельно — только логи дают полную картину.

Q: Что делать, если бот заходит, но сайт не цитируется?

Проверьте качество контента (E-E-A-T), структуру заголовков и наличие структурированных данных (schema.org). Технический доступ — необходимое, но не достаточное условие.

Настройка robots.txt и серверных ресурсов для OAI-SearchBot, ClaudeBot и других краулеров ИИ.

Краулинговый бюджет LLM: как убедиться, что боты ИИ индексируют ваш сайт

Краулинговый бюджет под ИИ — это управление доступом ботов нейросетей к сайту через robots.txt и скорость сервера. Если бот заблокирован или сайт медленный, контент не попадёт в ответы ChatGPT, Яндекс Нейро или Perplexity.

Нейросетевые поисковики используют собственные user-agent — и большинство сайтов случайно их блокируют устаревшими правилами robots.txt.

SEO-специалисты годами оптимизировали краулинговый бюджет под Googlebot и Яндекс-бота. Теперь к ним добавились десятки LLM-краулеров, каждый со своим именем и поведением. Эта статья — практическое руководство: какие user-agent нужно знать, как правильно настроить robots.txt и почему скорость сервера напрямую влияет на то, окажется ли ваш материал в ответе нейросети.

определение

Что такое краулинговый бюджет LLM

Краулинговый бюджет под ИИ — это управление доступом ботов нейросетей (OAI-SearchBot, ClaudeBot и др.) к сайту через robots.txt и скорость сервера. Если бот заблокирован или сайт медленный, контент не попадёт в ответы в реальном времени. Нужно явно разрешить нужные user-agent и обеспечить быстрый отклик.

У нейросетей свои user-agent (OAI-SearchBot, ClaudeBot и др.)

robots.txt должен явно их допускать

Медленный сервер = выпадение из ответов в реальном времени

Проверять логи доступа ботов регулярно

Почему это важно прямо сейчас

До 2023 года список значимых краулеров был стабилен: Googlebot, Яндекс-бот, BingBot — и несколько десятков нишевых сканеров. Сегодня картина кардинально изменилась. ChatGPT с функцией Browse, Perplexity AI, Яндекс Нейро и десятки других LLM-продуктов активно сканируют веб в поисках актуального контента для ответов в реальном времени.

Если ваш robots.txt написан три года назад и содержит общее правило `Disallow: /` для неизвестных ботов — вы, скорее всего, уже блокируете часть LLM-краулеров. Они просто не получают доступ к вашим страницам, и ваш контент не цитируется в ответах нейросетей, даже если по качеству он лучший в нише.

User-agents главных нейросетей

Каждая LLM-платформа регистрирует собственный user-agent для краулера. Ниже — актуальный на момент публикации список основных ботов. Названия могут меняться с выходом новых версий продуктов, поэтому всегда сверяйтесь с официальной документацией платформы.

ChatGPT / SearchGPT (OpenAI): `OAI-SearchBot` — индексирует веб для ответов в реальном времени; `ChatGPT-User` — запросы из плагинов и Browse-режима.

Claude (Anthropic): `ClaudeBot` — основной краулер для обучения и RAG-запросов.

Perplexity AI: `PerplexityBot` — агрессивный краулер, обходит страницы при каждом реальном запросе пользователя.

Google Gemini: `GoogleOther` и `Google-Extended` — последний специально для продуктов Gemini и Vertex AI; можно заблокировать отдельно от основного Googlebot.

Яндекс Нейро / YandexGPT: `YandexBot` остаётся основным идентификатором; отдельный `YandexGPT` упоминается в документации Яндекса — проверяйте актуальность в Яндекс Вебмастере.

Apple: `Applebot-Extended` — для Apple Intelligence и Siri.

Важная деталь: некоторые боты (например, PerplexityBot) не всегда строго следуют robots.txt — они могут игнорировать Crawl-delay и даже отдельные Disallow-правила при высокой нагрузке запросов. Это не повод отказываться от настройки, но повод держать мониторинг логов постоянно включённым.

Отдельно стоит упомянуть RAG-краулеры корпоративных решений — Microsoft Copilot использует Bingbot с расширенными правами, а ряд enterprise-LLM работает через общие пулы IP без фиксированного user-agent. Для таких случаев единственный способ контроля — анализ паттернов в логах по частоте и маршрутам обхода.

справочник

User-agent ИИ-краулеров: быстрая шпаргалка

ПлатформаUser-agentНазначение

ChatGPT / SearchGPTOAI-SearchBotОтветы в реальном времени

ChatGPT BrowseChatGPT-UserПлагины, Browse-режим

Claude (Anthropic)ClaudeBotRAG и обучение

Perplexity AIPerplexityBotОтветы в реальном времени

Google GeminiGoogle-ExtendedGemini, Vertex AI

Яндекс НейроYandexBot / YandexGPTНейро, Алиса

Apple IntelligenceApplebot-ExtendedSiri, Apple AI

⚠ Список актуален на момент публикации. Сверяйтесь с официальной документацией платформ — названия user-agent могут меняться.

Настройка robots.txt: допуск RAG-ботов

Правильная настройка robots.txt для LLM-краулеров строится на трёх принципах: явное разрешение, отдельные секции на каждый user-agent и регулярная ревизия.

Базовый шаблон разрешающих правил:

``` User-agent: OAI-SearchBot Allow: /

User-agent: ChatGPT-User Allow: /

User-agent: ClaudeBot Allow: /

User-agent: PerplexityBot Allow: /

User-agent: Google-Extended Allow: /

User-agent: YandexGPT Allow: /

User-agent: Applebot-Extended Allow: /

Если хотите заблокировать конкретный бот (например, не разрешать обучение на вашем контенте, но разрешить поиск):

``` User-agent: Google-Extended Disallow: /

User-agent: ClaudeBot Disallow: / ```

Crawl-delay — задержка между запросами. Для большинства LLM-краулеров рекомендуется 10–30 секунд, если сервер не справляется с нагрузкой. Слишком агрессивный Crawl-delay (>60 сек) может привести к тому, что бот вообще прекратит обход.

Путь к sitemap должен быть указан явно — это ускоряет обнаружение новых страниц:

``` Sitemap: https://example.ru/sitemap.xml ```

Распространённая ошибка — полагаться на общее правило `User-agent: *` с `Allow: /` и считать, что этого достаточно. Некоторые LLM-краулеры (особенно корпоративные) интерпретируют wildcard-правила иначе или имеют собственную логику приоритетов. Явные секции для каждого важного бота — единственный надёжный способ управлять доступом.

Ещё один нюанс: если у вас настроена защита от ботов (Cloudflare Bot Fight Mode, nginx rate-limiting или WAF-правила), убедитесь, что IP-диапазоны и user-agent LLM-краулеров добавлены в белый список. Иначе бот получит 403 или 429 — и в логах robots.txt всё будет «правильно», но страницы так и не будут проиндексированы.

Типичные ошибки при настройке доступа для ИИ-ботов

Большинство проблем с индексацией LLM-краулеров возникают не из злого умысла, а из устаревших конфигураций и неверных допущений.

Частые ошибки

Блокировка всех неизвестных ботов через `User-agent: * Disallow: /` — написано давно, LLM-боты тогда не существовали
Cloudflare или другой CDN блокирует ботов на уровне IP ещё до проверки robots.txt
Crawl-delay выставлен в 120+ секунд — бот считает сайт недоступным и прекращает обход
Нет sitemap.xml или он не обновляется — новые страницы обнаруживаются с опозданием в недели
Разные правила на www и non-www версиях сайта — бот видит противоречие

Как исправить

01
Явно добавить Allow-секции для каждого LLM-бота в robots.txt
02
Проверить правила Cloudflare/WAF и добавить user-agent ИИ-краулеров в whitelist
03
Снизить Crawl-delay до 10–30 секунд или убрать совсем, если сервер справляется
04
Настроить автогенерацию sitemap с актуальными датами lastmod
05
Убедиться, что robots.txt одинаков на обеих версиях домена, и настроить 301-редирект

Скорость сервера и ответ в реальном времени

LLM-поисковики, работающие в режиме реального времени (Perplexity, Яндекс Нейро, SearchGPT), выбирают источники не только по релевантности, но и по скорости отклика. Когда пользователь задаёт вопрос, система за доли секунды решает, какие URL запросить для формирования ответа. Медленный сайт попросту не успевает попасть в выборку.

Ключевой показатель — TTFB (Time to First Byte). Для попадания в реалтайм-ответы ориентируйтесь на TTFB ≤ 200 мс для кешированных страниц и ≤ 800 мс для динамических. Проверить можно через Яндекс Вебмастер (раздел «Скорость сайта»), Google Search Console (Core Web Vitals) или инструменты WebPageTest и GTmetrix.

Помимо TTFB, важны: стабильность сервера (uptime ≥ 99,5%), отсутствие 5xx-ошибок при параллельных запросах и корректная обработка HEAD-запросов — некоторые LLM-краулеры сначала делают HEAD, чтобы проверить доступность страницы, и только потом GET.

Как ускорить сайт для LLM-краулеров: пошаговый план

01
Включите кеширование страниц на уровне сервера (nginx FastCGI Cache, Varnish или CDN-кеш Cloudflare). Статические страницы должны отдаваться из кеша за <50 мс.
02
Настройте HTTP/2 или HTTP/3 — LLM-краулеры умеют использовать мультиплексирование, что снижает задержки при параллельном обходе.
03
Проверьте TTFB через Яндекс Вебмастер и Google Search Console. Если TTFB > 800 мс — ищите узкое место: медленные запросы к БД, тяжёлые плагины, отсутствие CDN.
04
Убедитесь, что сервер корректно отвечает на HEAD-запросы кодом 200 (не 405 и не редиректом) — иначе часть ботов пометит страницу как недоступную.
05
Настройте мониторинг uptime (UptimeRobot, Яндекс.Метрика Uptime или аналоги). Даже 15-минутный даунтайм в момент обхода может исключить страницу из индекса бота.
06
Проверьте поведение сервера при 5–10 параллельных запросах — имитируйте нагрузку через Apache Benchmark (ab) или Yandex.Tank. LLM-краулеры нередко запрашивают несколько URL одновременно.

Как проверить, что боты действительно заходят

Ни Яндекс Вебмастер, ни Google Search Console пока не отображают визиты LLM-ботов в отдельном отчёте. Единственный достоверный источник — access-логи веб-сервера.

Для nginx стандартный путь к логам: `/var/log/nginx/access.log`. Для Apache: `/var/log/apache2/access.log`. Фильтрация по нужному боту:

```bash grep -i "OAI-SearchBot" /var/log/nginx/access.log | tail -50 grep -i "ClaudeBot" /var/log/nginx/access.log | wc -l grep -i "PerplexityBot" /var/log/nginx/access.log ```

Что смотреть в логах: HTTP-статус ответа (200 — хорошо, 403/429 — заблокирован, 5xx — ошибка сервера), частоту визитов (слишком редко — возможно, бот получает ошибки), какие именно страницы обходятся (приоритет бота) и соответствие Crawl-delay реальным интервалам между запросами.

чек-лист

Аудит доступности сайта для LLM-краулеров

robots.txt

✓ Явные Allow-секции для OAI-SearchBot, ClaudeBot, PerplexityBot
✓ Явные Allow-секции для Google-Extended, YandexGPT, Applebot-Extended
✓ Crawl-delay не превышает 30 секунд
✓ Sitemap указан явно в robots.txt
✓ Правила одинаковы на www и non-www

Сервер и безопасность

✓ TTFB ≤ 800 мс для динамических страниц
✓ HEAD-запросы возвращают 200, не 405
✓ WAF/Cloudflare не блокирует user-agent ботов
✓ Uptime ≥ 99,5%, мониторинг настроен
✓ Нет массовых 5xx при параллельных запросах

Мониторинг логов

✓ Access-логи хранятся минимум 30 дней
✓ Настроен grep/алерт на 403/429 от ИИ-ботов
✓ Частота визитов соответствует ожиданиям
✓ Ключевые страницы обходятся, не только главная
✓ Sitemap.xml обновляется при публикации

Технический доступ — необходимое, но не достаточное условие для цитирования. После того как вы открыли доступ ботам и ускорили сервер, убедитесь, что контент отвечает на конкретные вопросы (E-E-A-T), страницы имеют чёткую структуру заголовков H1–H3 и подключена разметка schema.org. Нейросети предпочитают источники, которые легко «распарсить» и процитировать дословно.

Отдельный вопрос — разграничение доступа для обучения и для поиска. Некоторые владельцы сайтов хотят, чтобы их контент попадал в ответы нейросетей (поисковый краулинг), но не использовался для дообучения моделей. Для этого Google ввёл `Google-Extended` — его можно заблокировать отдельно от основного Googlebot. Аналогично `ClaudeBot` у Anthropic используется как для обучения, так и для RAG. Если вы хотите разрешить только поиск, уточняйте в документации платформы, какой именно user-agent отвечает за какую функцию.

Практика показывает: сайты, которые явно открыли доступ для LLM-краулеров и оптимизировали TTFB, начинают появляться в ответах Яндекс Нейро и Perplexity уже через 2–4 недели после изменений — при условии, что контент релевантен запросам пользователей.

Инструмент проверки	Что проверяет	Когда использовать
Яндекс Вебмастер → Скорость сайта	TTFB, LCP с точки зрения Яндекса	Базовый мониторинг для Рунета
Google Search Console → Core Web Vitals	TTFB, LCP, CLS с точки зрения Google	Базовый мониторинг для глобального трафика
WebPageTest.org	Водопад загрузки, TTFB из разных регионов	Детальный разбор узких мест
GTmetrix	Общая скорость, рекомендации по оптимизации	Быстрая проверка и регрессия после изменений
grep по access.log	Факт визитов конкретных ботов и HTTP-статусы	Ежедневный/еженедельный аудит ИИ-ботов
Apache Benchmark (ab)	Поведение сервера под параллельной нагрузкой	Нагрузочное тестирование перед публикацией

Итог: три шага к видимости в ответах нейросетей

Открытый robots.txt + быстрый сервер + регулярный мониторинг логов — минимальный технический фундамент для GEO-оптимизации.

01
Добавьте явные Allow-секции в robots.txt для всех ключевых LLM-ботов: OAI-SearchBot, ClaudeBot, PerplexityBot, Google-Extended, YandexGPT, Applebot-Extended.
02
Убедитесь, что TTFB ≤ 800 мс, WAF не блокирует ботов по IP, а HEAD-запросы возвращают 200.
03
Настройте регулярный анализ access-логов — это единственный способ убедиться, что боты действительно заходят и получают нужные страницы.
04
Разграничивайте доступ осознанно: если не хотите участвовать в обучении модели — блокируйте конкретный user-agent, не весь трафик.
05
Повторяйте аудит раз в квартал: список user-agent LLM-краулеров обновляется вместе с выходом новых продуктов.

GEO (Generative Engine Optimization) — это не замена SEO, а его логичное продолжение. Технические основы одни и те же: доступность, скорость, структурированный контент. Разница — в деталях настройки и в том, что список «поисковых роботов» теперь обновляется каждые несколько месяцев. Держите robots.txt и логи под рукой.

Часто задаваемые вопросы

Какие user-agent используют нейросети?

Как разрешить ИИ-ботам доступ в robots.txt?

Влияет ли скорость сайта на попадание в ответы ИИ?

Как проверить, что ИИ-боты действительно заходят на сайт?

Что делать, если бот заходит, но сайт не цитируется?

Шаг 1 из 2

Бесплатный разбор

Проверим, открыт ли ваш сайт для ИИ-краулеров

Аудит robots.txt, логов и скорости — получите отчёт с конкретными правками

Введите адрес сайта — например, gurucontext.ru

Бесплатный разборБез обязательствОтветим за час

Сайт — принят в работу

Куда прислать разбор?

Не удалось отправить — проверьте связь и попробуйте ещё раз.

Как к вам обращаться

Укажите имя

Телефон или Telegram

Оставьте телефон или Telegram для связи

Соглашаюсь на обработку персональных данных в соответствии с политикой конфиденциальности

Нужно согласие на обработку данных

Не передаём третьим лицам

Заявка принята

Разберём ваш сайт и пришлём результат в течение часа.

Обычно отвечаем в Telegram. Если оставили телефон — позвоним в рабочее время.