Делюсь опытом, кейсами и инсайтами из мира SEO и digital
Всем привет!
Начинаю цикл статей как строить аналитику крупных проектов.
Список всех гипотез будет позже. А пока давайте научимся собирать данные с сайта для проверки гипотезы. Например, нам нужно понять какое идеальное количество отзывов на странице товаров, для этого нам надо пропарсить весь сайт и со страниц товаров получить информацию сколько отзывов на товаре есть. Для этого нам нужно понимать верстку и использовать xPath.
Не будет куча лирики про то что такое xPath, его историю, предназначение и тд и тп. Чисто есть задача и как ее решить через xPath пошагово. Ставим себе расширение для браузера Google Chrome, которое называется xPather. Идем на страницу товара и понимаем что именно нам надо спарсить.
Есть несколько вариантов.
Через xPather, просто правой кнопкой мыши и выбираем get unigue
Но этот вариант не идеален, так как если выбранный DIV будет комбинированный, то вы соберете кучу мусора.
Через браузер,
1 шаг: смотрим код элемента:
2 шаг: находим нужный DIV/SPAN и копируем его xPath прям из верстки:
Теперь у нас есть наш xPath данного элемента: //span[@class='summary-main-number-of-reviews__value']
Далее включаем тулзу xPather и проверяем, должно получится что он находит 1 элемент (правый верхний угол) и ниже должно быть указано соответствующее значение.
Если вы видите не такую картинку, значит вы взяли не правильно xPath.
Кстати, xPath может так же и вычислять, например, если вам нужно посчитать объемы текстов под каталогов, или в разделе FAQ, то можно использовать такую конструкцию: