robots.txt для Яндекса: настройка и частые ошибки

Файл robots.txt — небольшой текстовый документ в корне сайта, который сообщает поисковым роботам, какие страницы можно сканировать, а какие — нет. Для Яндекса правильная настройка этого файла критически важна: бот Яндекса имеет ряд особенностей поведения, которые отличают его от Googlebot, и игнорирование этих особенностей приводит к потере позиций и трафика.

В этом руководстве разберём синтаксис файла, основные директивы, типичные ошибки и способы проверки через Яндекс Вебмастер.

Зачем нужен файл robots.txt

Основная задача robots.txt — управление краулинговым бюджетом. Поисковый робот тратит ограниченное время на сканирование вашего сайта. Если он уходит на служебные страницы (корзину, фильтры, страницы внутреннего поиска), времени на важные страницы остаётся меньше.

Кроме того, robots.txt помогает:

Скрыть от индексации дублированный контент (URL-версии с параметрами сортировки и фильтрации)
Защитить административные разделы от попадания в поисковую выдачу
Управлять скоростью сканирования через директиву Crawl-delay
Указать путь к XML-карте сайта (Sitemap)

Важно понимать принципиальное различие: robots.txt закрывает страницу от сканирования, но не от индексации. Если на закрытую страницу ведут внешние ссылки, она всё равно может попасть в индекс Яндекса — просто без содержимого. Для полного исключения из индекса используйте мета-тег noindex.

Синтаксис и основные директивы

Файл robots.txt состоит из блоков. Каждый блок начинается с директивы User-agent, за которой следуют правила для указанного бота.

User-agent — имя бота, к которому применяются правила. Звёздочка (*) означает все боты:

User-agent: *
Disallow: /admin/

Для Яндекса используется имя Yandex. Можно задать отдельные правила только для него:

User-agent: Yandex
Crawl-delay: 2

Disallow — запрещает сканирование указанного пути. Пустое значение означает, что всё разрешено:

User-agent: *
Disallow:

Allow — явно разрешает сканирование конкретного пути внутри запрещённого раздела. Полезно, когда нужно закрыть папку, но открыть отдельный файл или подпапку:

User-agent: *
Disallow: /catalog/filter/
Allow: /catalog/filter/color/

Crawl-delay — пауза в секундах между запросами робота. Помогает снизить нагрузку на сервер. Яндекс поддерживает эту директиву — Google нет (для Google используйте настройку в Search Console):

User-agent: Yandex
Crawl-delay: 1

Sitemap — ссылка на XML-карту сайта. Указывается вне блоков User-agent и применяется ко всем ботам:

Sitemap: https://example.ru/sitemap.xml

Что закрывать в robots.txt для Яндекса

Вот типичный список разделов, которые следует закрывать от сканирования:

Административные панели:

Disallow: /admin/
Disallow: /wp-admin/
Disallow: /bitrix/admin/

Служебные страницы сайта:

Disallow: /cart/
Disallow: /checkout/
Disallow: /login/
Disallow: /register/
Disallow: /search/
Disallow: /wishlist/

URL с параметрами, создающими дубли. Осторожно с универсальным запретом Disallow: /*?* — он закроет ВСЕ URL с параметрами, включая важные для индексации. Лучше закрывать конкретные параметры:

Disallow: /*?sort=
Disallow: /*?order=
Disallow: /*?utm_

Технические директории:

Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /upload/private/

Что нельзя закрывать от Яндекса

Типичная и критическая ошибка — случайно закрыть важные ресурсы. Никогда не закрывайте:

Главную страницу. Строка Disallow: / запрещает роботам сканировать весь сайт. Это полная деиндексация.
CSS и JavaScript файлы. Яндекс использует их для рендеринга и понимания структуры страницы. Если закрыть JS/CSS, робот может неправильно интерпретировать содержимое.
Изображения. Если вы рассчитываете на трафик из поиска по картинкам — изображения должны быть открыты.
Страницы категорий и карточки товаров. Это ядро коммерческого сайта.
Страницы блога и статей. Информационный контент даёт трафик.

Особенности ботов Яндекса

Яндекс использует несколько специализированных ботов:

Yandex — основной бот для сканирования и индексации страниц
YandexImages — бот для сбора изображений
YandexVideo — бот для видеоконтента
YandexMedia — медиабот
YandexDirect — бот для сбора данных рекламной системы

Если хотите запретить индексацию изображений, но оставить сканирование страниц:

User-agent: YandexImages
Disallow: /

Яндекс строго соблюдает директиву Crawl-delay. Если сервер нестабилен или медленно отвечает, установите задержку 1–2 секунды. Слишком агрессивное сканирование может замедлить сайт и ухудшить поведенческие факторы для реальных пользователей.

Проверка файла robots.txt в Яндекс Вебмастере

Яндекс Вебмастер предоставляет встроенный инструмент для анализа robots.txt. Найти его можно по пути: Инструменты → Анализ robots.txt.

Инструмент показывает:

Синтаксические ошибки в файле
Какие URL открыты, а какие закрыты для конкретного бота
Предупреждения о потенциально проблемных директивах

Для проверки конкретного URL введите его в поле «Проверить URL» и выберите нужного бота (Yandex, YandexImages и т.д.). Система покажет, разрешён или запрещён доступ, и какое правило сработало.

После любых изменений в robots.txt проверяйте файл через этот инструмент перед публикацией. Одна опечатка может стоить вам нескольких недель видимости в поиске.

Частые ошибки в файле robots.txt

1. Закрытые ресурсы CSS и JavaScript. Если в файле есть строки вроде Disallow: /*.css$ или Disallow: /bitrix/js/ без соответствующих Allow, Яндекс не сможет корректно отрендерить страницы.

2. Конфликт директив Allow и Disallow. При конфликте Яндекс применяет более специфичное (длинное) правило. Проверяйте логику правил через инструмент Вебмастера.

3. Отсутствие строки Sitemap. Не указывать Sitemap в robots.txt — упущенная возможность ускорить индексацию. Добавьте: Sitemap: https://yoursite.ru/sitemap.xml

4. Ошибки регистра. Директивы Disallow, Allow, User-agent, Sitemap, Crawl-delay пишутся с заглавной буквы. Некоторые парсеры чувствительны к регистру.

5. Лишние пробелы и пустые строки. Пустая строка внутри блока User-agent завершает блок. Следующие директивы перестают применяться к указанному боту.

6. Блокировка пагинации. Закрывать страницы пагинации через robots.txt — спорное решение. Если страницы 2, 3 и т.д. несут уникальный контент, лучше оставить их открытыми и использовать rel=canonical на главную страницу категории.

7. Устаревшие правила. CMS обновляются, структура URL меняется, а robots.txt остаётся нетронутым годами. Проводите аудит файла раз в квартал.

Пример robots.txt для интернет-магазина на 1С-Битрикс

User-agent: *
Disallow: /bitrix/
Disallow: /upload/private/
Disallow: /personal/
Disallow: /cart/
Disallow: /order/
Disallow: /search/
Disallow: /*?sort=
Disallow: /*?order=
Allow: /bitrix/js/
Allow: /bitrix/css/
Allow: /bitrix/images/
Allow: /bitrix/templates/

User-agent: Yandex
Crawl-delay: 1

Sitemap: https://yourstore.ru/sitemap.xml

Этот пример закрывает административные и служебные разделы Битрикса, но открывает JS/CSS для корректного рендеринга. URL с параметрами сортировки закрыты точечно.

Robots.txt vs мета-тег noindex: что выбрать

Задача	Инструмент
Не тратить краулинговый бюджет	`robots.txt Disallow`
Исключить страницу из индекса	`<meta name="robots" content="noindex">`
Не передавать вес через ссылку	`rel="nofollow"`
Скрыть страницу от всех роботов	Оба инструмента вместе

Для служебных страниц (корзина, личный кабинет, страница поиска) оптимальная стратегия — закрыть через robots.txt И поставить noindex. Это полностью исключает страницы из сканирования и индексации.

Как часто обновлять robots.txt

Обновляйте файл в следующих случаях:

Появились новые разделы, не предназначенные для индексации
Изменилась структура URL на сайте
Роботы тратят ресурсы на ненужные страницы (видно в логах сервера)
Добавился новый Sitemap
Подключили новый сервис (CDN, staging-окружение)

После обновления обязательно проверяйте файл в Яндекс Вебмастере. Повторное сканирование обновлённого robots.txt происходит в течение 1–3 дней.

Правильно настроенный robots.txt — фундамент технического SEO. В связке с грамотной внутренней оптимизацией и работой с поведенческими факторами (которую автоматизирует ClickFlow) он позволяет поисковым роботам эффективнее обходить сайт и лучше понимать его структуру.

Файл robots.txt для Яндекса: как настроить поисковые роботы и управлять индексацией сайта