• Оставить заявку на консультацию по сайту

Использует ли Гугл латентно-семантическое индексирование?

поисковые алгоритмы  

В SEO существует определенный пласт специалистов, которые утверждают, причем бездоказательно, о том, что Гугл использует технологию LSI (Latent Semantic Indexing). Даже есть сайт, который предлагает ключи LSI, но при этом не дает никакой информации о том, откуда берутся эти ключи, какая технология латентно-семантического индексирования используется для их генерации, и влияет ли она вообще на то, как поисковая система вроде Гугл будет индексировать такой контент.

Чем же отличается нынешнее использование ЛСИ ключей от переоптимизации текста ключевыми словами? Ведь Гугл нам явно говорит: «Фокусируйтесь на создании полезного и информативного контента, в котором ключевые слова используется уместно и в надлежащем контексте».

Корни LSI

Я подумал, что было бы не лишним углубиться в корни самой технологии. LSI появилось до ВЕБа и использовалось для индексирования контента коллекций документов, которые особо не меняются. Создателем считается Сьюзан Дюмэй, занимающаяся поисковым инжинирингом в Майкрософт. Первые исследования она проводила еще в Лаборатории Белла – крупном американском исследовательском центре, и вместе с остальными учеными выпустила научную работу: «Латентно-семантический анализ для индексирования».

Патент под названием «Поиск компьютерной информации с использованием латентных семантических структур» был зарегистрирован в сентябре 1988 года, а опубликован в августе 1992. ВЕБ же появился в августе 1991. LSI должно было решить следующую проблему:

Поскольку человеческая речь отличается чрезмерной синонимией и многозначностью, то при использовании простых алгоритмов сопоставления терминов мы упускаем из виду значимую информацию и извлекаем незначимую, ведь разные люди разными словами рассказывают об одном и том же, а одно и тоже слово может нести сразу несколько значений.

Основная проблема заключается в том, что люди хотят получить информацию, основанную на смысле, однако используемые ими слова не выражают в достаточной мере тот смысл, который они закладывали. Предыдущие попытки улучшить стандартный поиск по словам, а также решить проблему использования различных слов человеком за счет ограничения разрешенного вокабуляра, составления вручную тезауруса по синонимам, построения подробных моделей по релевантным предметным областям ... не увенчались большим успехом...

Информация о словоупотреблении содержит в себе латентно-семантическую структуру, которая скрыта или размыта из-за варьирования выбором слов. Для оценки такой латентной структуры и раскрытия латентного значения используется статистический подход. В процессе обработки слов, текстовых объектов и пользовательских запросов извлекается смысл, и новая латентно-семантическая структура области затем используется для представления и поиска информации.

Для иллюстрации работы LSI в патенте приводится набор из 9 документов, которые посвящены различным темам по взаимодействию человека с компьютером. В патенте не затрагивается вопрос о том, каким образом данный процесс может быть применен к ВЕБу, поскольку на тот момент ничего похожего не существовало. ВЕБ содержит громадное количество информации, которая постоянно меняется, и сам подход, который создан для индексации уже известной коллекции документов, уже не столь идеален. Патент говорит нам напрямую, что используется анализ терминов, и «каждый раз происходит существенное обновление хранилища файлов».

С тех пор прошло много исследований и появились новые технологии, которые используются при обработке огромных коллекций документов в ВЕБе. Мы уже знаем, что команда Google Brain научилась представлять слова в виде векторов (патент был выдан в 2017 году). В других патентах Гугл все же можно найти упоминания об ЛСИ, но как о примере метода индексирования, и не более того:

Методы классификации текстов могут быть использованы для распределения по одной и более тематическим категориям. Классификация / категоризация текста – одна из областей исследования информатики (information science), которая занимается распределением текста по одной и более категорий на основе содержимого. Типичные методы классификации текста основаны на наивном байесовском классификаторе, tf-idf, латентно-семантическом индексировании, методе опорных векторов и искусственных нейронных сетях.

Вольный перевод статьи Билла Славски: «Does Google Use Latent Semantic Indexing?

author

Андрей Кусков

SEO

Поисковый маркетинг и веб-аналитика.

Комментарии ()

  1. Андрей Кусков 02 февраля 2018, 11:55 # 0
    Прочитал так же ветку комментариев под оригинальным постом и выудил пару интересных моментов из ответов Билла Славски. Вот, что он пишет: «Гугл никогда не заявлял, что они используют технологию LSI. Они подтвердили лишь то, что используют похожие слова (Phrase-Based indexing) в Rankbrain. А это современная технология. Я видел многих seo-специалистов, которые на платных SEO-тренингах рекомендуют использовать LSI-ключи, чтобы помочь Rankbrain, но я очень сомневаюсь, что вы таким образом действительно „поможете“ алгоритму. Гугл отметил, что подходы, включающие в себя контекстные термины, похожие слова, структурированные данные и семантическую разметку, работают гораздо эффективнее, это все есть в патентах. Я сомневаюсь в компетенции тех, кто рекомендует использовать LSI, 30-летнюю технологию, чтобы справиться с Rankbrain. Объясните этим ребятам, как работает ЛСИ.

    © Web-Ux. Все права защищены. Копирование информации с сайта возможно только с указанием ссылки на первоисточник. Политика конфиденциальности.