Serpstat и кластеризация запросов: детальная инструкция

12.11.2019
83 0
Категория: Общее

Один из важнейших этапов формирования семантического ядра сайта – кластеризация запросов. Использовать любой сервис таблиц и делать большую часть работы вручную – плохая идея.

Хорошая идея – воспользоваться алгоритмом, учитывающим связь между ключевыми словами и особенностями их выдачи. Благодаря чему вы сильно ускорите выполнение задачи.

Начнем с азов – что такое кластеризация запросов?

Кластеризация ключевых слов – то же, что и группирование. Вы объединяете похожие или связанные запросы в группы (кластеры). В идеале при группировании запросов нужно учитывать свойства объектов, к которым они привязаны. И помнить о контексте применения.

Увы, открытых баз с подобными данными не существует. И API Knowledge_Graph здесь тоже не поможет. Поэтому кластеризацию проводят, основываясь на выдаче поисковиков.

В SERP вы вводите поисковый запрос, получаете в ответ релевантные ссылки и сравниваете выдачу для группировки ключевых слов.

Основные алгоритмы кластеризации

Все существующие сегодня алгоритмы кластеризации можно отнести к одной из следующих групп:

  • мягкие;
  • умеренные;
  • жесткие.

Несмотря на некоторое разнообразие, большинство SEO-специалистов, также специальные сервисы практикуют преимущественно жесткую кластеризацию ключевых слов.

Жесткая кластеризация – это когда фразы объединяются в пару, когда по результатам выдачи количество общих адресов минимальное или превышает минимум.

Первый шаг – задать минимальное количество пар, согласно которых фразы могут группироваться.

Второй шаг – фразу отсортировать по убыванию частотности и сравнивать между собой, начав с начала – то есть, с высокочастотных.

Третий шаг – составить пару из фраз, если по данным выдачи количество общих адресов превышает или равно минимуму.

По такому алгоритму и создаются кластеры.

Больше о кластеризации и существующих алгоритмах можете прочитать на Википедии.

Главный недостаток алгоритма – фразы создаются, исходя из минимального количества совпадений. Дальше пример: три фразы с минимальной связью, для которых алгоритм сработает некорректно.

В примере: фразы 1 и 2 создают пару и попадают в один кластер. Фраза 3 либо сформирует отдельный кластер, либо будет объединена с фразой 1, хотя совпадений у них нет. Вывод – кластеризация по такому алгоритму будет не слишком точной.

Чтобы добиться высокой точности кластеризации, лучше использовать алгоритм, который учитывает силу связи между отдельными фразами и особенности выдачи.

Что такого особенного в этом алгоритме?

Адреса из топ-20 выдачи имеют уникальный вес – сейчас он соответствует CTR позиции, что используется в Serpstat.

Сила связи фраз = сумма весов совпадающих адресов. А вес совпадения = сумма весов двух адресов из пары.

У кластера есть две части – основная и дополнительная. В основной части находятся фразы с максимальной силой связи, в дополнительной – с минимальной силой связи, но  больше 2,5.

Что дает такой подход? Точную кластеризацию запросов и понимание природы связи между фразами кластера, а также силы этой связи (понадобится в дальнейшей работе). Результатом использования алгоритма станет матрица сил связей. Вот так она может выглядеть:

На этой матрице видим два кластера, сформированных на основе фраз 1 и 3. Вот примерный внешний вид каждого из этих кластеров:

В основной части Кластера 1 – фразы 1 и 2, потому что сила связи между ними больше всего. В дополнительной части кластера – фраза 4, потому что сила связи между фразами 1 и 4, хоть и не максимальная, но превышает 2,5. У Кластера 2 будет только основная часть, потому что у фразы 5 связь лучше с фразой 4, а она уже находится в основной части Кластера 2.

Более детальное объяснение можете увидеть в этом примере, где в скобках – вес каждого адреса.

После кластеризации матрица сил связей будет иметь следующий вид:

Что видим на этой матрице? Во-первых, что фразы 2 и 3 попадают в основную часть кластера. Во-вторых, фраза 3 будет и в дополнительной части кластера с фразой 1.

Используя принцип силы связи, вы проводите кластеризацию с учетом и количества общих адресов, и специфики формирования выдачи поисковых систем. Группы фраз получаются более качественными, что сказывается на качестве базируемой на них работы – статье, структуре сайта, объявлениях контекстной рекламы.

Особенности алгоритма для улучшения кластеризации:

1. Снижение веса главных страниц

Большинство современных сайтов имеют такие структуру и ссылочный профиль, что в результате вес их главных страниц в несколько раз выше веса остальных страниц. Посмотрите на топ-1000 сайтов в зоне видимости Serpstat и сравните количество ключевых фраз, по которым ранжируются их страницы.

2. Сила связи между ключевыми запросами заметно снижается, если сразу несколько страниц одного сайта оказываются в топ-5.

Скорее всего, связь между ключевыми фразами на самом деле не настолько велика, если лидирующие сайты удается продвигать в ТОП-сразу по нескольким страницам.

Какая польза от Serpstat?

Пока Serpstat не предлагает эффективный инструмент для группирования запросов, можно воспользоваться его огромной базой топов по разным запросам, а также удобным API для их обработки.

Существует скрипт, созданный с учетом описанного выше алгоритма и API Serpstat, который можно использовать для кластеризации. Ссылку на него найдете в конце статьи, а пока – конкретные примеры его работы.

Первый шаг – ввести входные данные

Вводные данные – это те параметры, по которым будет осуществляться поиск и отбор по базе Serpstat. Таким параметром может быть и домен, и ключевая фраза, и страница сайта.

Тип ввода – здесь необходимо указать тип ввода, с которым впоследствии будет работать скрипт.

Поисковая система – поисковик, с учетом особенностей которого скрипт будет проводить анализ. Пример – если анализируете американский Google, вводите значение g_us. Все доступные поисковые системы смотрите здесь.

Лимит поиска – максимальное количество ключевых запросов из органической выдачи, которые используются для анализа.

Размер страницы – если для ключевых слов установлен лимит запросов меньше 1000, размер страницы стоит выбирать равный лимиту поиска.

Максимальная частотность – предел допустимой частотности для ключевых фраз из двух баз, которые будут использоваться для анализа. Если хотите проанализировать только низкочастотные запросы, устанавливайте 20. Для блогов или сайтов-сателлитов – не выше 80.

API token – вводится индивидуальный ключ для API. Найти его можно в своем профиле.

Функция – у этого скрипта широкая функциональность:

— он ищет дропы по Whois: добавляет в таблицу подходящие домены из отрасли и информацию из Whois;

— выводит домены – из выдачи выбирает уникальные домены сообразно анализируемому направлениями. Полезно, если планируете с ними работать в дальнейшем;

— ищет тематические форумы;

— самостоятельно проводит кластеризацию;

Для проведения кластеризации нужно некоторое время. Например, чтобы собрать топ выдачи по 100 поисковым запросам, нужно больше минуты. Видим результат – 134 кластера, оформленных в таблице. В строках с желтым фоном выведена дополнительная часть кластера.

Вот самые интересные примеры:

Смотрим на кластер «Военный рюкзак». В его дополнительной части видим запрос «рюкзак тактический». Та же ситуация и с кластером «Тактические рюкзаки» — в дополнительной части есть фраза «военные рюкзаки».

Если вы захотите написать статью о военных рюкзаках, из основной части кластера вы найдете основные фразы для продвижения. А связь кластеров будет служить подсказкой, что в статью стоит добавить информацию о тактических рюкзаках. Формируя структуру сайта, можно использовать тот же подход.

Заключение

Если у вас есть свой профиль на Serpstat с АПИ-ключом, вы тоже можете обрабатывать с помощью этого скрипта выгруженные фразы уже сейчас, не дожидаясь, пока в этом сервисе появится функция кластеризации запросов.

Ниже – ссылка на исходный файл и веб-версия. Но веб-версия работает на самом простом хостинге и не факт, что справится с обработкой десятков тысяч фраз.

Вот онлайн-версия

Вот здесь можно загрузить исходник

Чтобы скрипт работал стабильно, лучше всего его скачать и запускать уже на своем сервере.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

//добавляем само поле //заполняем его текущей меткой времени через Javascript

Метки