• Оставить заявку на консультацию по сайту

RankBrain или первые попытки ранжирования документов искусственным интеллектом

поисковые алгоритмы  

В 2013 году Гугл написал интересную статью «Понимая смысл слов», в которой рассказал о том, насколько продвинулись компьютеры в распознавании речи и классификации изображений с помощью машинного обучения.

Нарисованная ИИ кошка

Возможно, вы слышали об эксперименте, в котором компьютерный алгоритм смог распознать кошку после просмотра миллионов фотографий, нарезанных из клипов с ютуба. Причем алгоритм первоначально не знал, как выглядит кошка, однако после просмотра и анализа изображений смог нарисовать ее морду.

Поиск связей между словами с помощью Word2Vec

Разработчики не остановились на кошках и выложили в открытый доступ технологию обработки больших массивов текстовой информации Word2Vec. Если вкратце, то данный инструмент разбирает корпус текста на вектора слов и находит связи между контекстами слов.

В качестве эксперимента разработчики скормили Word2Vec кучу новостных статей, и на их основе алгоритм вывел взаимосвязи между странами и городами.

анализ новостных статей в Word2Vec

Как RankBrain впервые засветился в Блумберге

Спустя пару лет Блумберг выпускает статью «Гугл передает прибыльную технологию веб-поиска машинам с искусственным интеллектом», в которой рассказывает об алгоритме Rankbrain, чем-то напоминающим Word2Vec. На момент выхода публикации алгоритм применялся лишь на 15% от всех поисковых запросов в Гугл. Теперь же используется в каждом.

Что думает Search Engine Land о RankBrain

По заявлениям известного редактора Дэнни Салливана, Rankbrain является частью основного поискового алгоритма HummingBird, который в свою очередь включает в себя 7 других алгоритмов:

  • Panda. Наказывает за низкокачественный контент.
  • Penguin. Наказывает за покупные ссылки.
  • Payday. Борется с переспамленными запросами: «порно», «потребительские кредиты» и т.д.
  • Pigeon. Расчищает локальную выдачу.
  • Top Heavy. Наказывает за агрессивную рекламу.
  • Mobile Friendly. Поощряет адаптацию под мобильные устройства.
  • Pirate. Наказывает за нарушение авторских прав.
Если сложить все алгоритмы, то получим жирную Колибри, которая учитывает более 200 сигналов ранжирования документов. Причем Rankbrain, по заявлению главы отдела исследований Грега Коррадо, занимает 3 место по важности.

Стоит отметить, что RankBrain на запросы пользователей может выдать документы, в которых вообще не встречается поисковая фраза. Так, по запросу «кроссовки» в выдаче могут присутствовать страницы со спортивной обувью для бега и ходьбы, где слово «кроссовки» отсутствует как таковое.

Откуда Rankbrain черпает знания о словах

Благодаря семантической технологии «Граф знаний», запущенной в 2012 году, Гугл научился устанавливать более глубокие связи между словами.

«Граф знаний» представляет собой базу данных, в которой не просто собрана, а связана между собой разрозненная информация о различных фактах, событиях, людях и т.д.

Карточка с днем рождения Мишель Обамы

К примеру, если вбить запрос «когда родилась жена Обамы», без уточнения ее имени, то Гугл поймет, кого вы ищете, и выдаст карточку с днем рождения Мишель Обамы.

Как RankBrain помогает прояснять запросы

Ежедневно Гугл обрабатывает около 3 миллиардов запросов. Среди них есть неуникальные, т.е. задавались пользователями ранее, и уникальные, которые задавались впервые и состояли из длинного хвоста слов.

В 2007 году доля уникальных запросов составила 20-25%. В 2013 уже 15% или 450 миллионов обращений в сутки.
Цель RankBrain – обрабатывать многословные запросы, находить между ними закономерности и выдавать пользователю релевантные результаты.

Конкретнее на примерах

Если введем в поиск запрос «как называют консумент, который находится на вершине пищевой цепи?», то увидим, что Гугл, несмотря на такую странную фразу, даст релевантную информацию по хищникам.

Работа Rankbrain на низкочастотном запросе

При запросе «верхушка пищевой цепи» Гугл выдаст похожие результаты.

Выдача Гугл по ВЧ-запросу

RankBrain связывает многословный запрос с коротким и устанавливает между ними связь. На выходе Гугл использует информацию по общим запросам, чтобы улучшить результаты по многословным.

Как часто обучается RankBrain

Алгоритм обучается офлайн: ему скармливают историю запросов, и на их основе он выстраивает прогнозы. Если прогнозы проходят тесты, то разработчики выкатывают последнюю версию алгоритма.

Выводы

RankBrain обрабатывает многословные запросы, обучается офлайн и является 3 по важности сигналом ранжирования документов.
author

Андрей Кусков

SEO

Поисковый маркетинг и веб-аналитика.

Комментарии (0)

    © Web-Ux. Все права защищены. Копирование информации с сайта возможно только с указанием ссылки на первоисточник. Политика конфиденциальности.