Индексация сайта: как управлять индексом

Поисковые роботы посещают регулярно страницы ресурса, но то, с какой периодичностью они это делают, зависит от нескольких факторов:

частота изменения контента;
количество страниц на сайте;
объем трафика.

О новых страницах поисковые роботы узнают из ссылок, которые появляются на ранее известных им документах, а также по трафику на них с различных источников.

При этом необходимо учитывать, что за один заход робот обрабатывает некоторое количество страниц сайта. Такое явление связано с тем, что поисковые роботы не хотят перенагружать сервер своими запросами. Но каким образом определяется этот лимит загружаемых документов?

В начале 2017 года представитель компании Google Гэри Илш рассказал про такое понятие как Краулинговый бюджет, который объединяет в себе такие показатели: скорость сканирования сайта и краулинговый спрос (количество документов, которое хочет обойти робот Google, основанное на популярности ресурса и актуальности контента). Под краулинговым бюджетом Google подразумевает количество страниц сайта, которые может обойти Googlebot.

Внутренние факторы сайта, которые уменьшают показатель краулингового бюджета (по версии Google):

доступные к индексации документы, в адресе которых указаны идентификаторы сессий, переменные фильтрации или поиска, UTM-метки;
дубли страницы;
документы с 404-откликом сервера;
страницы с низкокачественным и спамным контентом.

Способы управления индексацией сайта

Для того чтобы оптимизировать расход краулингового бюджета необходимо корректно управлять индексацией сайта - давать возможность индексировать роботам только те страницы, которые важны для продвижения ресурса.

Канонические страницы

С помощью настройки канонического адреса (canonical) можно явно поисковым системам указать, какая страница является предпочтительной для индексации. Настраивать атрибут canonical необходимо в том случае, если на сайте присутствуют документы с одинаковым содержанием:

страницы пагинации;
страницы с UTM-метками;
страницы фильтрации;
и др

Для настройки канонических страниц необходимо в разделе head указать следующий код:

Если страница должна участвовать в поиске, то в атрибуте href указывается ее url, если не должна и является полным или частичным дублем, то в атрибуте href указывается адрес канонического документа.

Robots.txt

С помощью файла robots.txt, который находится в корне сайта, можно управлять поисковыми роботами:

Директива Disallow закрывает от индексации указанные страницы;
User-Agent позволяет указать поисковую систему, для которой написаны инструкции индексации;
Crawl-delay задает частоту обращения роботов к страницам ресурса (Google пропускает данную инструкцию);
Clean-param запрещает к индексации страницы с указанными динамическими параметрами.

Мета-тег Robots

Данный мета-тег предназначен для управления индексацией конкретной страницы. Для настройки мета-тега необходимо в разделе head указать:

Список параметров мета-тега robots:

index — разрешение на индексирование документа;
noindex — запрет на индексирование документа;
follow — разрешение на следование по ссылкам на странице;
nofollow — запрет на следование по ссылкам на странице;
all — равносильно указанию content=”index, follow”;
none — равносильно указанию content=”noindex, nofollow”.

Отсутствие мета-тега в коде страницы расценивается как автоматическое разрешение на индексацию документа и следование по ссылкам.

Важно учитывать, что при закрытии страницы от индексации таким образом - робот все равно “тратит” свой краулинговый бюджет на ее прочтение, лучше всего данный мета-тег использовать для запрета перехода по ссылкам.

Какие страницы необходимо закрывать от индексации?

От индексации поисковыми системами следует закрывать следующие типы страниц:

Для страниц пагинации следует указывать канонический адрес (не стоит закрывать такие их с помощью мета-тега robots или robots.txt: широкий ассортимент - один из важных коммерческих факторов);
Технические страницы (без полезного контента) следует закрывать в robots.txt;
Страницы персональной информации (личный кабинет, регистрации и др.) стоит закрывать в robots.txt:
Для страниц, которые формируются при сортировке товаров в каталоге, стоит указывать канонический адрес;
Страницы версии для печати стоит закрывать в robots.txt;
Страницы с результатами поиска по сайту стоит закрывать в robots.txt и с помощью тега robots, если их нельзя оптимизировать под получение дополнительного трафика.

Грамотное управление индексацией поможет оптимизировать краулинговый бюджет и направить лимиты на продвигаемые страницы ресурса.

Проверка проиндексированных страниц

Для проверки корректной индексации ресурса можно воспользоваться несколькими способами.

Проверка индексации в панелях Вебмастера Яндекса и Google

В Яндекс Вебмастере в разделе Индексации есть возможность проанализировать индексацию ресурса:

просмотреть общее количество страниц, проиндексированных поисковой системой;
настроить отслеживание изменений на важных страницах (изменение ответа сервера, выпадение из индекса);
проверить статус индексации отдельных документов:
узнать причины выпадения страниц из поиска. Причинами могут быть:

Индексация сайта: как управлять индексом

Способы управления индексацией сайта

Какие страницы необходимо закрывать от индексации?

Проверка проиндексированных страниц

Использование поисковых операторов

Проверка индексации с помощью RDS бара

Программы для проверки индексации

Причины выпадения страниц из индекса

Методы ускоренной индексации

Заключение