. Индексация сайтов: основные принципы
Индексация сайтов: основные принципы

Индексация сайтов: основные принципы

Индексация сайтов важна. Так как именно в процессе сканирования сайта поисковыми роботами обновляется информацию о сайте в поисковых базах. Чтобы пользователи находили сайт в поиске, ресурс должен попасть в индекс поисковых систем.

Существует два пути:

  1. поставить ссылки на других ресурсах на новый сайт
  2. прямая регистрация, используя доступные сервисы Яндекс и Google. Следуя инструкциям, добавляем адрес сайта и подтверждаем права на него.

Первый способ менее эффективный и занимает больше времени, тогда как прямая регистрация быстро направит поисковых роботов на новый ресурс. Ожидаемый срок появления ресурса в поиске — 1-2 недели после подтверждения прав.

Сканирование сайтов роботами проводится регулярно. Если сайт пополнился новыми страницами, либо обновилась информация на существующих, то можно «помочь» роботам обнаружить обновления и ускорить появление новых страниц в поиске.

Для этого сайту необходима карта — Sitemap, указывающая роботам на важные страницы, которые были обновлены либо недавно добавлены. Карта важна как для простых по структуре сайтов, так и для массивных ресурсов с многоуровневой вложенностью. Для того чтобы роботы смогли обработать карту, она должна соответствовать определенным требованиям:

  • размер до 10мб в несжатом виде
  • не более 50 000 страниц
  • отсутствие ошибок
  • карта находится в том же домене, что и страницы.

Основные форматы карты: текстовый и XML. XML формат позволяет указать роботам дополнительные данные о страницах: значимость, время последнего обновления, а также частоту обновлений.

Проверяется правильность составления Sitemap стандартными инструментами: валидатор Яндекс и Google. Файл robots.txt должен содержать ссылку на Sitemap.

Что влияет на индексацию сайта

За доступность ресурса для индексации отвечает сервер. Поисковая база постоянно обновляется, сайты, недоступные длительное время, удаляются. Чтобы проверить ответ сервера, используем инструмент.

К примеру, ответ 200 означает, что ресурс доступен роботам и пользователям, а 404 код ответа — что страница удалена. Узнать подробнее о кодах ответов сервера можно в справочнике вебмастера.

Яндекс отправляет на сайты разных роботов индексировать разный контент. Так, существуют отдельные роботы для определения картинок и видео. Важно, чтобы весь контент правильно индексировался. Для этого необходимо поверить настройки и удостовериться, что все роботы имеют доступ к сканированию ресурса.

Вот несколько моментов, которые могут повлиять на индексацию:

  • Чем длиннее URL и чем больше уровней вложенности, тем сложнее поисковому роботу найти и проиндексировать страницу
  • Документы более 10Мб не индексируются
  • Flash проиндексируется, если файлы встроены в код html при помощи тегов <embed> или <object>
  • В PDF документах индексированию подлежит текстовый контент, графический контент не индексируется (текст в картинках)

Как повлиять на индексацию

Каждый вебмастер может управлять тем, как роботы поиска сканируют страницы сайта, какой материал им доступен, а какой скрыт от индексации.

Для этого существует файл robots.txt, в котором разработчик может закрыть определенные разделы ресурса от индексации. По умолчанию для индексации доступна вся информация на ресурсе, поэтому вебмастер должен принять меры и ограничить роботам доступ к определенному контенту. Как правило, для индексации закрывают личные данные пользователей сайтов, переписку, финансовую информацию. Также закрываем страницы с внутренней, служебной информацией.

Файл robots.txt автоматически генерируется CMS со всеми необходимыми командами. Для проверки файлов существуют стандартные инструменты Яндекс и Google. Robots.txt закрывает от индексации все содержимое страницы, если вам необходимо запретить индексацию определенной части контента, то лучше применить тег <noindex>. Он запрещает индексирование заключенного в него текста, но оставляет доступными для индексации и перехода ссылки.

Как удалить страницу ресурса из поиска

Проверяем количество страниц в индексе Яндекса и Google.

Удаляем страницы одним из перечисленных способом:

  • удаление страницы с сайта
  • закрыть доступ роботам в файле robots.txt
  • использование тега robots в самом html-коде между <head>-тегами
  • закрыть контент на удаляемой странице либо его часть мета-тегом <noindex>
  • воспользоваться сервисом «Удалить URL» в Яндексе и Google (Google предлагает выполнить определенные действия перед удалением информации из поиска ). Это наиболее быстрый способ удаления страниц из поисковых баз.

Данные способы не исключают друг друга. То есть можно запретить индексирование в файле robots.txt и удалить страницу через поисковый сервис.

Три важных команды в файле robots.txt

Robots.txt — основной инструмент управления поисковыми роботами на сайте.

Disallow запрещает индексирования определенных разделов ресурса (технические данные, бесполезная для пользователя информация — статистика посещений, дубликаты страниц и прочие).

Crawl Delay указывает поисковому роботу минимальный интервал обращения к серверу, чтобы снизить нагрузку и не повлиять на скорость отображения страниц на стороне пользователя. Это важно для больших сайтов с тысячами страниц. К примеру, Crawl Delay: 2 означает, что минимальный интервал обращения робота к серверу 2 секунды.

Clean Param указывает, какие cgi-параметры, присутствующие в URL, не должны учитываться. К примеру, в URL может содержаться идентификатор сессий. Фактически разные URL будут вести на одну и ту же страницу. Роботы могут «увязнуть» в их индексировании, так и не добравшись до важных и полезных страниц.

Выводы

Поисковые системы выдвигают простые требования к сайтам и индексации.

Карта сайта и файл robots.txt — основные инструменты управления поведением роботов при каждом посещении.

Страницы поисковых систем индексируются быстрее других сайтов, поэтому размещение ссылок на новый сайт в социальных медиа помогает ускорить встречу поискового робота и сайта.

Индексация сайтов: основные принципы : 2 комментария

Я бы добавил, что если хотите проиндексировать не только Главную, но и остальные страницы и поскорее, то «добывайте» ссылки на них, а ещё проще и быстрее — запустите контекст, особенно актуально для яндекса.

А в гугл вебмастере в разделе «посмотреть как гуглебот» можно сразу 10 страниц добавить + страницы на которые они ссылаются или около того

  1. Юлия Федотова Автор записи 03.09.2015 в 14:07

Павел, спасибо за ценное дополнение! Важно воспользоваться всеми возможными способами ускорить индексацию.

📎📎📎📎📎📎📎📎📎📎