Индексация сайта: как управлять индексом
Поисковые роботы посещают регулярно страницы ресурса, но то, с какой периодичностью они это делают, зависит от нескольких факторов:
- частота изменения контента;
- количество страниц на сайте;
- объем трафика.
О новых страницах поисковые роботы узнают из ссылок, которые появляются на ранее известных им документах, а также по трафику на них с различных источников.
При этом необходимо учитывать, что за один заход робот обрабатывает некоторое количество страниц сайта. Такое явление связано с тем, что поисковые роботы не хотят перенагружать сервер своими запросами. Но каким образом определяется этот лимит загружаемых документов?
В начале 2017 года представитель компании Google Гэри Илш рассказал про такое понятие как Краулинговый бюджет, который объединяет в себе такие показатели: скорость сканирования сайта и краулинговый спрос (количество документов, которое хочет обойти робот Google, основанное на популярности ресурса и актуальности контента). Под краулинговым бюджетом Google подразумевает количество страниц сайта, которые может обойти Googlebot.
Внутренние факторы сайта, которые уменьшают показатель краулингового бюджета (по версии Google):
- доступные к индексации документы, в адресе которых указаны идентификаторы сессий, переменные фильтрации или поиска, UTM-метки;
- дубли страницы;
- документы с 404-откликом сервера;
- страницы с низкокачественным и спамным контентом.
Способы управления индексацией сайта
Для того чтобы оптимизировать расход краулингового бюджета необходимо корректно управлять индексацией сайта - давать возможность индексировать роботам только те страницы, которые важны для продвижения ресурса.
Канонические страницыС помощью настройки канонического адреса (canonical) можно явно поисковым системам указать, какая страница является предпочтительной для индексации. Настраивать атрибут canonical необходимо в том случае, если на сайте присутствуют документы с одинаковым содержанием:
- страницы пагинации;
- страницы с UTM-метками;
- страницы фильтрации;
- и др
Для настройки канонических страниц необходимо в разделе head указать следующий код:
<link rel="canonical" href="http://каноническая/">
Если страница должна участвовать в поиске, то в атрибуте href указывается ее url, если не должна и является полным или частичным дублем, то в атрибуте href указывается адрес канонического документа.
Robots.txtС помощью файла robots.txt, который находится в корне сайта, можно управлять поисковыми роботами:
- Директива Disallow закрывает от индексации указанные страницы;
- User-Agent позволяет указать поисковую систему, для которой написаны инструкции индексации;
- Crawl-delay задает частоту обращения роботов к страницам ресурса (Google пропускает данную инструкцию);
- Clean-param запрещает к индексации страницы с указанными динамическими параметрами.
Данный мета-тег предназначен для управления индексацией конкретной страницы. Для настройки мета-тега необходимо в разделе head указать:
<meta name="robots" content="параметр">
Список параметров мета-тега robots:
- index — разрешение на индексирование документа;
- noindex — запрет на индексирование документа;
- follow — разрешение на следование по ссылкам на странице;
- nofollow — запрет на следование по ссылкам на странице;
- all — равносильно указанию content=”index, follow”;
- none — равносильно указанию content=”noindex, nofollow”.
Отсутствие мета-тега в коде страницы расценивается как автоматическое разрешение на индексацию документа и следование по ссылкам.
Важно учитывать, что при закрытии страницы от индексации таким образом - робот все равно “тратит” свой краулинговый бюджет на ее прочтение, лучше всего данный мета-тег использовать для запрета перехода по ссылкам.
Какие страницы необходимо закрывать от индексации?
От индексации поисковыми системами следует закрывать следующие типы страниц:
- Для страниц пагинации следует указывать канонический адрес (не стоит закрывать такие их с помощью мета-тега robots или robots.txt: широкий ассортимент - один из важных коммерческих факторов);
- Технические страницы (без полезного контента) следует закрывать в robots.txt;
- Страницы персональной информации (личный кабинет, регистрации и др.) стоит закрывать в robots.txt:
- Для страниц, которые формируются при сортировке товаров в каталоге, стоит указывать канонический адрес;
- Страницы версии для печати стоит закрывать в robots.txt;
- Страницы с результатами поиска по сайту стоит закрывать в robots.txt и с помощью тега robots, если их нельзя оптимизировать под получение дополнительного трафика.
Грамотное управление индексацией поможет оптимизировать краулинговый бюджет и направить лимиты на продвигаемые страницы ресурса.
Проверка проиндексированных страниц
Для проверки корректной индексации ресурса можно воспользоваться несколькими способами.
Проверка индексации в панелях Вебмастера Яндекса и GoogleВ Яндекс Вебмастере в разделе Индексации есть возможность проанализировать индексацию ресурса:
- просмотреть общее количество страниц, проиндексированных поисковой системой;
- настроить отслеживание изменений на важных страницах (изменение ответа сервера, выпадение из индекса);
- проверить статус индексации отдельных документов:
- узнать причины выпадения страниц из поиска. Причинами могут быть:
- наличия дубля;
- неверный отклик;
- неканоническая;
- запрет для индексации в robots.txt
- Количество проиндексированных страниц;
- Количество закрытых страниц в файле robots.txt:
- количество проиндексированных страниц в Яндексе и в Google;
- проиндексирована ли текущая страница в Яндексе и в Google;
- Netpeak Spider - программа позволяет проверить отклики страниц, посмотреть канонические адреса, закрыта ли страница в robots.txt или с помощью мета-тега robots:
- Comparser - специализированная программа для глубокого анализа индексации сайта, которая позволяет выполнять следующие операции:
- сканирование страниц всего веб-ресурса (откликов и канонических адресов);
- сканирование индекса поисковых систем (Яндекс и Google);
- поиск страниц, которые есть в индексе поисковых систем, но на сайте на них отсутствуют внутренние ссылки;
- автоматическое удаление ненужных страниц из индекса Яндекса и Google.
Причины выпадения страниц из индекса
Большое количество выпавших посадочных страниц из поиска Яндекса и Google приводит к падению позиций сайта и трафика. Можно выделить несколько основных причин выпадения страниц из индекса поисковых систем:
- 301 или 302 отклик (настроены редиректы на другой документ);
- Наличие дублей (например, страницы пагинации, фильтрации, сортировки и другие типы страниц, где дублируются мета-данные и контент);
- Ошибочное закрытие раздела сайта или страницы в файле robots.txt или мета-тегом robots;
- 404 отклик;
- 5xx отклик, говорящий о том, что есть сбои в работе хостинга или CMS, из-за чего страницы длительное время недоступны для роботов поисковых систем.
Для предотвращения выпадения посадочных страниц ресурса из индекса поисковых систем следует следить за технической оптимизацией сайта и своевременно устранять возникающие ошибки. Но если, поисковая система удалила страницу из поиска, то следует воспользоваться следующим алгоритмом:
- Определить причину выпадения из индекса;
- Устранить причину;
- Отправить выпавшую страницу на индексацию (переиндексацию).
Методы ускоренной индексации
Если страница новая или отсутствует в индексе по какой-то причине (и причина выпадения из индекса исправлена), то с помощью следующих способов, можно ускорить добавление ее в индекс:
- Указание страницы (страниц) в файле sitemap.xml с датой обновления и приоритетом на индексирование;
- Отправка в инструмент “Переобход страниц” в Яндексе;
- Размещение ссылок на документ на внешних ресурсах;
- Размещение ссылок на документ в социальных сетях;
- Получение моментального трафика с хорошей активностью, где источником трафика может быть даже e-mail-рассылка;
- Корректная настройка внутренней перелинковки на сайте.
Заключение
Управление индексацией - важная часть работы при продвижении. В отличие от работы с внешними факторами поисковой оптимизации - возможность влиять на индексацию страниц всегда доступна и изменения быстрее отражаются в индексе поисковых систем, но лучше всего предусмотреть грамотное взаимодействие сайта с поисковыми роботами еще на этапе разработки ресурса.
Важно вовремя отслеживать все внутренние ошибки на сайте, чтобы иметь возможность быстро их устранить до того, как поисковые системы удалят страницы из индекса. А если это уже произошло - необходимо оперативно отправить выпавшие (либо новые) страницы на индексацию.
Владея этой информацией можно оперативно устранять ошибки на сайте для возврата необходимых страниц в индекс поисковой системы Яндекс.
Google, к сожалению, не обладает столь удобным инструментом для анализа проиндексированных документов. С помощью консоли Google для вебмастеров можно посмотреть:
Использование поисковых операторов
Поисковые системы разработали специальные поисковые операторы, позволяющие уточнять поисковой запрос. Например, с помощью оператора «site:» можно узнать приблизительное количество проиндексированных страниц.
Большая разница между количеством проиндексированных страниц в Яндексе и в Google может свидетельствовать о том, что у сайта проблемы с технической оптимизацией.
С помощью оператора url: в Яндексе можно проверить проиндексирована ли конкретная страница:
Проверка индексации с помощью RDS бара
Панель инструментов RDS бар — это плагин для браузеров Google Chrome и Mozilla Firefox, который в браузере отображается в виде дополнительной панели инструментов. Данный плагин позволяет быстро просмотреть основные показатели ресурса:
Программы для проверки индексации
Для автоматизации процесса анализа внутренних ошибок веб-ресурса и проблем индексации существуют специальные инструменты - парсеры сайта и индекса поисковых систем: