Владельцы небольших сайтов редко задумываются о краулинг-бюджете — их сайты роботы обходят целиком и без проблем. Но как только сайт вырастает до тысяч или десятков тысяч страниц, краулинг-бюджет становится одним из ключевых факторов, определяющих, насколько полно и быстро сайт будет проиндексирован. Разбираемся в деталях.
Что такое краулинг-бюджет
Краулинг-бюджет — это количество страниц сайта, которые поисковый робот Яндекса готов обойти за определённый период времени. Проще говоря: у робота есть лимит на количество запросов к вашему серверу. Как он потратит этот лимит — зависит от вас.
Если у вас 50 000 страниц, а робот обходит 1 000 в день — полный обход сайта займёт 50 дней. Если за это время на сайте появился новый контент или изменились цены — обновления попадут в индекс только через месяц-полтора.
Для интернет-магазинов с динамическими ценами и остатками, для новостных порталов, для агрегаторов — это критическая проблема.
Из чего складывается краулинг-бюджет
Яндекс при определении бюджета учитывает несколько факторов:
Авторитетность сайта. Сайты с высоким тИЦ (теперь — ИКС, Индекс качества сайта) получают больший бюджет. Яндекс инвестирует больше ресурсов в обход сайтов, которым доверяет.
Скорость сервера. Если сервер отвечает медленно или возвращает ошибки (5xx), Яндекс замедляет краулинг, чтобы не перегружать сервер. Фактически вы сами ограничиваете свой краулинговый бюджет плохой инфраструктурой.
Количество запрашиваемых URL. Чем больше уникальных URL обнаруживает робот (в ссылках, в sitemap), тем больше ему нужно обойти. Если сайт генерирует миллионы URL через фильтры и GET-параметры, бюджет расходуется на мусор.
Частота обновлений. Сайты, которые регулярно публикуют новый контент и обновляют существующий, получают более высокий приоритет краулинга.
Как посмотреть краулинг-бюджет в Яндекс.Вебмастере
Яндекс.Вебмастер не показывает краулинговый бюджет как одну цифру, но даёт косвенные данные:
Раздел «Индексирование» → «Статистика обходов» Здесь можно увидеть:
- Количество страниц, обходимых роботом в день.
- Динамику краулинга за период.
- HTTP-коды ответов (200, 301, 404, 5xx).
- Скорость ответа сервера.
Раздел «Индексирование» → «Страницы в индексе» Сравните количество страниц в индексе с реальным количеством страниц на сайте. Большое расхождение — сигнал проблем с краулингом.
Раздел «Диагностика» → «Проверка robots.txt» Убедитесь, что robots.txt настроен правильно и не блокирует важные страницы.
Анализируйте логи сервера — это основной источник данных о реальном поведении краулера. В логах видно, какие URL запрашивал Яндекс.Бот, с какой частотой, какие коды ответов получал.
Что «съедает» краулинг-бюджет: типичные проблемы
Дублированные страницы без canonical
Если у вас есть страницы example.com/product/ и example.com/product (с трейлинг-слэшем и без), example.com/product?utm_source=email — каждый из этих URL тратит краулинговый бюджет отдельно.
Решение: Настройте 301-редиректы на канонические URL, расставьте canonical теги, заблокируйте в robots.txt URL с UTM-метками.
Бесконечные URL от фасетной навигации
Фильтры в каталоге интернет-магазина — классическая ловушка. Комбинируя фильтры «цвет + размер + бренд», можно получить миллионы URL. Робот будет тратить весь бюджет на обход этого бесконечного пространства.
Решение:
- Закрыть комбинированные фильтры в robots.txt.
- Поставить noindex на страницы с несколькими фильтрами одновременно.
- Использовать AJAX для применения фильтров без изменения URL (если SEO-ценность этих страниц низкая).
- Реализовать canonical с фильтрованных страниц на основную категорию.
Параметры пагинации
URL типа ?page=1, ?page=2 и т.д. тратят краулинговый бюджет. Особенно если пагинация глубокая, а страницы в конце практически не имеют ссылок.
Решение: Закрыть глубокие страницы пагинации (начиная с page=10 или page=20 в зависимости от ситуации) через robots.txt или noindex. Обеспечить ссылки на первые страницы категорий из навигации.
Сессионные ID в URL
Если приложение добавляет к URL уникальные идентификаторы сессии (?session_id=abc123), каждый пользователь генерирует уникальный URL. Это огромная трата краулинг-бюджета.
Решение: Хранить сессионные данные в cookies, а не в URL. Заблокировать параметр session_id в robots.txt.
Страницы-пустышки
404-страницы, страницы с ошибками, страницы без контента — все они тратят бюджет, не давая ничего взамен.
Решение: Регулярно проверять краулинговые логи и Вебмастер на наличие массовых 404-ошибок. Настроить 301-редиректы со старых URL.
Как оптимизировать краулинг-бюджет: практический подход
Шаг 1: Аудит текущего состояния
Скачайте логи сервера за последние 30 дней. Отфильтруйте запросы от Яндекс.Бота (User-Agent: YandexBot). Посмотрите:
- Сколько уникальных URL запрашивал робот?
- Какой процент ответов — 200 OK?
- Какие страницы запрашиваются чаще всего?
- Есть ли запросы к заблокированным в robots.txt страницам?
Шаг 2: Настройка robots.txt
Заблокируйте URL, которые не нужно индексировать:
User-agent: Yandex
Disallow: /search?
Disallow: /*?sort=
Disallow: /*?color=*&size=
Disallow: /cart/
Disallow: /account/
Disallow: /checkout/
Будьте осторожны: не заблокируйте случайно важные страницы.
Шаг 3: Внутренние ссылки
Убедитесь, что важные страницы имеют внутренние ссылки. Страницы, на которые нет ссылок («висячие» страницы), робот может не найти или посещать редко.
Используйте инструменты краулинга (Screaming Frog, Netpeak Spider, ClickFlow) для анализа структуры внутренних ссылок. ClickFlow, в частности, позволяет визуализировать граф внутренних ссылок и найти страницы с недостаточным внутренним весом.
Шаг 4: Скорость ответа сервера
Оптимизация сервера напрямую влияет на бюджет. Цель — TTFB менее 200мс для большинства страниц.
Что помогает:
- Кэширование страниц (Redis, Varnish, nginx fastcgi_cache).
- CDN для статических ресурсов.
- Оптимизация запросов к базе данных.
- Достаточная мощность сервера.
Шаг 5: Приоритизация в Sitemap
XML Sitemap — способ сообщить Яндексу, какие страницы важны. Правильно составленный sitemap помогает роботу расходовать бюджет эффективно.
Рекомендации:
- Включайте только страницы, которые реально нужно индексировать.
- Используйте
<lastmod>— указывайте реальную дату последнего изменения страницы. - Разбивайте большой sitemap на несколько файлов по типу контента (категории отдельно, товары отдельно, статьи отдельно).
- Обновляйте sitemap автоматически при добавлении нового контента.
Шаг 6: Обновление контента
Регулярно обновляйте важные страницы — это сигнал роботу, что сюда стоит возвращаться чаще. Обновление даты публикации без изменения контента — плохая идея. Яндекс это замечает. Обновляйте реально: добавляйте новые данные, исправляйте устаревшую информацию, добавляйте разделы.
Мониторинг краулинга
Настройте регулярный мониторинг:
- Еженедельно проверяйте Вебмастер: количество страниц в индексе, ошибки краулинга.
- Ежемесячно анализируйте логи сервера.
- Настройте алерты на резкие изменения в Вебмастере.
Платформа ClickFlow предоставляет автоматический мониторинг краулинга с визуализацией динамики: как меняется количество обходимых страниц, какой процент ответов 200, где растут ошибки. Это избавляет от необходимости вручную копаться в логах и помогает вовремя заметить проблемы.
Краулинг-бюджет и новые страницы
Если вы регулярно добавляете новые страницы (новые товары, статьи, категории), убедитесь, что на них ведут внутренние ссылки с уже проиндексированных страниц. Одного sitemap недостаточно — внутренние ссылки ускоряют обнаружение и краулинг новых страниц.
Эффективная структура внутренней перелинковки — это и SEO-инструмент (передача веса), и инструмент управления краулинг-бюджетом одновременно.