
В 2013 году Гугл написал интересную статью «Понимая смысл слов», в которой рассказал о том, насколько продвинулись компьютеры в распознавании речи и классификации изображений с помощью машинного обучения.

Возможно, вы слышали об эксперименте, в котором компьютерный алгоритм смог распознать кошку после просмотра миллионов фотографий, нарезанных из клипов с ютуба. Причем алгоритм первоначально не знал, как выглядит кошка, однако после просмотра и анализа изображений смог нарисовать ее морду.
Поиск связей между словами с помощью Word2Vec
Разработчики не остановились на кошках и выложили в открытый доступ технологию обработки больших массивов текстовой информации Word2Vec. Если вкратце, то данный инструмент разбирает корпус текста на вектора слов и находит связи между контекстами слов.
В качестве эксперимента разработчики скормили Word2Vec кучу новостных статей, и на их основе алгоритм вывел взаимосвязи между странами и городами.

Как RankBrain впервые засветился в Блумберге
Спустя пару лет Блумберг выпускает статью «Гугл передает прибыльную технологию веб-поиска машинам с искусственным интеллектом», в которой рассказывает об алгоритме Rankbrain, чем-то напоминающим Word2Vec. На момент выхода публикации алгоритм применялся лишь на 15% от всех поисковых запросов в Гугл. Теперь же используется в каждом.
Что думает Search Engine Land о RankBrain
По заявлениям известного редактора Дэнни Салливана, Rankbrain является частью основного поискового алгоритма HummingBird, который в свою очередь включает в себя 7 других алгоритмов:
- Panda. Наказывает за низкокачественный контент.
- Penguin. Наказывает за покупные ссылки.
- Payday. Борется с переспамленными запросами: «порно», «потребительские кредиты» и т.д.
- Pigeon. Расчищает локальную выдачу.
- Top Heavy. Наказывает за агрессивную рекламу.
- Mobile Friendly. Поощряет адаптацию под мобильные устройства.
- Pirate. Наказывает за нарушение авторских прав.
Стоит отметить, что RankBrain на запросы пользователей может выдать документы, в которых вообще не встречается поисковая фраза. Так, по запросу «кроссовки» в выдаче могут присутствовать страницы со спортивной обувью для бега и ходьбы, где слово «кроссовки» отсутствует как таковое.
Откуда Rankbrain черпает знания о словах
Благодаря семантической технологии «Граф знаний», запущенной в 2012 году, Гугл научился устанавливать более глубокие связи между словами.
«Граф знаний» представляет собой базу данных, в которой не просто собрана, а связана между собой разрозненная информация о различных фактах, событиях, людях и т.д.

К примеру, если вбить запрос «когда родилась жена Обамы», без уточнения ее имени, то Гугл поймет, кого вы ищете, и выдаст карточку с днем рождения Мишель Обамы.
Как RankBrain помогает прояснять запросы
Ежедневно Гугл обрабатывает около 3 миллиардов запросов. Среди них есть неуникальные, т.е. задавались пользователями ранее, и уникальные, которые задавались впервые и состояли из длинного хвоста слов.
Конкретнее на примерах
Если введем в поиск запрос «как называют консумент, который находится на вершине пищевой цепи?», то увидим, что Гугл, несмотря на такую странную фразу, даст релевантную информацию по хищникам.

При запросе «верхушка пищевой цепи» Гугл выдаст похожие результаты.

RankBrain связывает многословный запрос с коротким и устанавливает между ними связь. На выходе Гугл использует информацию по общим запросам, чтобы улучшить результаты по многословным.
Как часто обучается RankBrain
Алгоритм обучается офлайн: ему скармливают историю запросов, и на их основе он выстраивает прогнозы. Если прогнозы проходят тесты, то разработчики выкатывают последнюю версию алгоритма.
Комментарии ()