Новый алгоритм Яндекса «Королев»: от ключевых слов к смысловому наполнению
В конце августа 2017 года Яндекс презентовал новый алгоритм ранжирования «Королев». Руководитель службы релевантности и лингвистики Яндекса Александр Сафронов обозначил его суть и новый путь работы своей команды: «От поиска по словам, к поиску по смыслам».
Всем, кто не смог присоединиться к официальному запуску, доступно видео с презентацией алгоритма.
Алгоритм — это математическая формула. Она учитывает множество критериев, на основе которых решает, какие именно сайты показать по тому или иному запросу. У каждой поисковой системы существуют разные алгоритмы для анализа сайтов. Они постоянно изменяются и совершенствуются. Так происходит для того, чтобы более качественно отвечать на потребности пользователей.
Формула, по которой работает «Королев» обращает больше внимания на наполнение сайта в целом и пытается понимать смысл запроса пользователя. Так происходит за счет создания нейронных сетей, способных решать сложные аналитические задачи и постоянно обучаться.
Нейронная сеть — понятие, которое пришло к нам из биологии. В машинном обучении, в трактовке известного портала GeekTimes — это функция, которая преобразует несколько входных фактов в один выходной. Главное ее достоинство — способность обучаться, а возможности — классифицировать, предсказывать и распознавать.
Применяя нейронные сети к веб-документам, алгоритм «Королев» анализирует информацию не только по модели запрос → заголовок. Так работал его предшественник «Палех». «Королев» обращает внимание на тело страницы, оценивая смысловую близость всего наполнения.
Нейронные сети анализируют поведение пользователей и запросы, по которым они ранее находили страницу в сети. Это дает возможность новому алгоритму предлагать пользователю более релевантную выдачу, даже в ответ на абстрактные описательные конструкции. По словам разработчиков, Яндекс вскоре будет предлагать релевантную выдачу даже по запросам типа: «какая рыжая женщина пела песню про скрипача».
Палех, Королев и возможности нейронных сетей
Работа алгоритма «Палех» была ограниченной. На последнем этапе ранжирования он анализировал всего 150 страниц, применяя нейронную модель. Причина в сложности вычислений. Поэтому, как только пользователь вводил запрос, к нему применялись стандартные критерии отбора, и лишь 150 лучших документов (этап L3) оценивались с помощью алгоритмом. В результате качественные страницы терялись на более ранних этапах ранжирования и не попадали в топ. Так происходило с низкочастотными и сложными пользовательскими запросами.
Существовала одна возможность исправить ситуацию — использовать все возможности нейронных сетей и попробовать ранжировать максимальное количество пользовательских запросов.
Яндекс использовал все достоинства нейронных сетей и перераспределил ресурсы для усовершенствования нового алгоритма.
Ранее «Палех» анализировал запрос и заголовок страницы. Алгоритм «Королев» работает иначе. Он анализирует страницу сайта не в момент ввода запроса пользователем, а на этапе ее индексации. Такое перераспределение позволило снизить уровень необходимых вычислительных мощностей и отбирать из меньшего количества страниц, которые уже предварительно находятся в релевантном запросу индексе. Как результат — число страниц, с которыми работает нейронная сеть увеличилось со 150 до 200 000.
Новый поисковый алгоритм умеет сравнивать семантику и классифицировать контент по степени схожести. Например, пользователь может искать одну и ту же страницу по нескольким совершенно разным запросам: «Яндекс деньги», «кошелек Яндекс», «электронные деньги в Яндексе». С точки зрения запроса — они разные. С точки зрения смысла — предполагают одну и ту же выдачу. Также работает возможность нейронной сети предсказывать и распознавать. Например, на запрос «ленивый медведь ест эвкалипт» поисковая сеть должна выдать в топ информацию о ленивцах.
Обучение и улучшение работы алгоритма «Королев»
Разработчики алгоритма «Королев» поставили перед собой цель — научить его понимать смысл на человеческом уровне. Механически сделать это очень сложно, требует массы времени и ресурса. Поэтому они привлекают людей — пользователей поисковой сети. Они показывают машине примеры релевантной и нерелевантной выдачи. Ранее обучением занимались сотрудники компании — асессоры, но их стало недостаточно. Поэтому была создана Яндекс.Толока, где любой пользователь может помочь строить формулу ранжирования и зарабатывать на этом.
Также в обучении помогают системы сбора статистики, которые постоянно анализируют поведение пользователей на сайтах. О том, что запрос релевантный свидетельствует длительное пребывание человека на сайте и наоборот. Фактически, любой запрос и дальнейшая реакция пользователя на него дают все больше возможностей машине правильно понимать смысл, вложенный в слова.
Как вебмастера отреагировали на выход алгоритма «Королев»
«Королев» вызвал неоднозначные реакции со стороны разных типов пользователей. Многие из них уже успели высказать свое мнение в топовых изданиях и на собственных сайтах.
На ресурсе optimizatorsha.ru презентацию алгоритма «Королев» сравнили с размахом Apple. Такой маркетинговый ход вызвал неоднозначную реакцию в среде вебмастеров, которые уже долгое время жалуются на попытки Яндекс загнать всех в платную рекламу. На страницах форумов активно развиваются темы, так как специалисты пока не понимают чего ожидать. Некоторые из них утверждают, что «Баден-Баден» (алгоритм, вышедший в марте 2017 года) и «Королев» противоречат друг другу и, если следовать критериям одного, обязательно попадешь под фильтр второго. Больше про «Баден Баден» можно почитать в официальном блоге Яндекс.
Однако, кроме возмущений существуют и актуальные вопросы. Пока сложно сказать, как скажется работа алгоритма на составлении семантического ядра, его распределении по страницам и оптимизации контента. В том числе неизвестно, как готовить контент для коммерческих тематик, ведь из пояснений разработчиков Яндекс становится понятно, что преимущественно модель работает с информационными низкочастотными запросами.
Станислав Ставский из statoperator.com восхищается высоким уровнем инженерной мысли специалистов поисковой системы и считает, что использование столь прогрессивных технологий имеет широкие перспективы. Напротив, Алексей Штарев из компании SeoPult говорит, что Гугл еще с 2013 года использует такой же алгоритм под названием «Колибри». По его мнению, единственная разница между ними в том, что в отличии от Яндекса, они не делают из каждого обновления громкую новость, ограничиваясь уведомлением для профессиональной аудитории. На канале SeoPultTV можно посмотреть краткий обзор алгоритма «Королев».
В чем соль для создателей контента. Поисковые системы все дальше отходят от текстов, оптимизированных под ключевое слово. Все больше внимания уделяется смыслам. Работа алгоритма «Королев» в основном направлена на информационные запросы с «длинным хвостом». Это подводит к мыслям о текстах «для людей» с богатой семантикой и практической ценностью. Для подготовки более конкретных рекомендаций пока нет основы, так как с момента запуска прошло всего несколько недель.
«Колибри» от Гугла и «Королев» от Яндекса — есть ли разница
«Колибри» выпустили в 2013 году. С того времени представители Гугл обращают внимание разработчиков на контент. По мнению поисковой сети, он должен быть максимально понятным человеку. Причина: «Колибри» работает в паре с алгоритмом «RankBrain» (запуск в 2015 году) — искусственным интеллектом, интерпретирующим «неестественные» запросы. Вместе они распознают смысл страницы, точно так же, как и «Королев».
Оксана Мамчуева, журналист энциклопедии интернет-маркетинга SearchEngines.ru подготовила небольшой обзор, где сравнивает работу «RankBrain» и нового алгоритма Яндекса. Она основывается на данных исследования, проведенного интернет-агентством «Пиксель Плюс», согласно которому качество выдачи после обработки одним и вторым алгоритмом является соизмеримым.
Так как Гугл представил свой алгоритм в 2013, а в 2015 году дополнил его возможностями нейронной сети «RankBrain», подход к работе с сайтами после выхода алгоритма «Королев» для вебмастеров не будет чем-то новым.
Причина появления новых алгоритмов — изменение пользовательского поведения
Суть работы поисковой системы заключается в мгновенной выдаче наиболее релевантных страниц, выбранных среди миллиардов, в ответ на пользовательский запрос. С каждым днем информации становится все больше, и для того чтобы подбирать лучшее соответствие сайты проходят несколько стадий «отбора». Количество его критериев постоянно увеличивается и алгоритмы ранжирования становятся все сложнее.
Вначале было найдено простое решение — ключевое слово. Чем больше ключевых слов на странице, тем более релевантной она считалась пользовательскому запросу. Сложности начались с появлением вебмастеров, пытающихся манипулировать выдачей и специально создавать в текстах «переспам». В борьбе с ними появилось понятие «ссылочная масса».
Поисковые системы начали учитывать ссылки между сайтами, считая, раз на сайт ссылаются другие, значит, информация на нем более ценная для пользователя. Но манипулировать выдачей, основанной на ссылочном профиле, оказалось так же просто. Достаточно купить нужное количество ссылок и твой сайт выходит в топ по нужным тебе запросам. Поняв это, поисковые системы обратили внимание на пользователя. Вернее, на его поведение на сайте. Так среди критериев появились поведенческие факторы, влияющие на позицию сайта в выдаче.
Критериев для отбора стало так много, что справиться с ними может только искусственный интеллект. Так в 2009 году в Яндекс появился метод машинного обучения Матрикснет. Именно он до сегодняшнего дня определяет релевантность страниц поисковым запросам, основываясь на тысячах факторов.
Современный пользователь ищет смыслы. Далеко не всегда в поисковую строку попадают четкие ключевые слова, отражающие то, что хотел бы найти человек. Поэтому возникла необходимость добавить к косвенным признакам релевантности (ссылки, ключевые слова, поведение и др.) «понимание» контента (текста, звука, видео, изображений) поисковой сетью. Так начали возникать алгоритмы, работающие с использование нейронных сетей. Со стороны Яндекс первой пробой реализовать “умный поиск” стал «Палех» в 2016 году. В его основе машинное обучение и нейронные модели, учитывающие запросы пользователей, по которым они заходили на страницу. «Королев» пошел еще дальше, расширив возможности он шагнул на “территорию” человека, пытаясь понять чего он хочет, минуя буквальное значение ключевых слов и фраз.
Вебмастера пока сомневаются в корректной работе алгоритма, но ожидают первых статистических результатов, которые компания обещает предоставить в конце сентября.
Подведем краткий итог
- Новый алгоритм «Королев» основывается модели, которая ориентируется на смысл.
- Алгоритм обращает внимание на тело страницы, оценивая смысловую близость всего наполнения запросу пользователя.
- «Королев» — это усовершенствованная модель предыдущего алгоритма «Палех». Сегодня он способен анализировать 200 000 страниц.
- Преимущественно модель работает с информационными низкочастотными запросами.
- Учитывая особенности алгоритма, дальнейшая работа над контентом должна основываться на потребностях пользователей, практической ценности и максимальной естественности в подаче текста.
- Вебмастера разошлись во мнениях, одни считают его прорывом, другие — повторением алгоритма Гугл «Колибри».
- Согласно исследованию интернет-агентства «Пиксель Плюс» качество обработки запросов алгоритмами «Колибри» и «Королев» соизмеримо.
А вы уже заметили изменения в выдаче Яндекс?
Отразился ли он на ваших сайтах или комфорте в процессе поиска информации?