25.10.2018

Netpeak Spider 3.0: обзор мощного инструмента для анализа сайта

SEO SEO самостоятельно

За созданием, наполнением и оптимизацией сайта, как правило, все еще стоит человек. А человеку, как известно, свойственно ошибаться. Поэтому важной частью работы seo-специалиста является поиск и устранение ошибок, мешающих продвижению сайта.

Сегодня мы рассмотрим возможности краулера Netpeak Spider для поиска ключевых ошибок внутренней оптимизации, подскажем как эффективно пользоваться настройками и правильно интерпретировать полученные данные для улучшения оптимизации Вашего сайта.

Содержание:

Что умеет Netpeak Spider

Netpeak Spider — это десктопная программа для сканирования сайтов и анализа основных параметров внутренней оптимизации на предмет ошибок. Инструмент отлично подходит для проведения комплексного seo-аудита, контроля внедрения изменений сайта с точки зрения seo, а также для анализа сайтов-конкурентов. С его помощью Вы легко найдете битые ссылки, некорректно заполненные метаданные, дубли страниц и массу других интересностей, влияющих на видимость Вашего сайта в выдаче поисковых систем.

Для более детального знакомства устанавливаем программу на свой ПК. Для этого переходим на официальный сайт и либо приобретаем, либо активируем бесплатную версию на 14 дней.
Бонус для наших читателей: по промокоду ccd4074c Вы получите скидку 10% сроком на один год!
После того, как программа установлена на Ваш компьютер, можем приступить к первому сканированию сайта. Укажите URL адрес и нажмите кнопку «Старт». При первом знакомстве рекомендуем оставить настройки «по умолчанию» и выбирать небольшой сайт для сокращения времени сканирования:

дашборд

Итак, приложение встречает нас довольно привлекательным интерфейсом: в левой части страницы открывается дашборд, помогающий обратить внимание на ключевые данные, а в правой части интерфейса — отчеты с обнаруженными ошибками. На сканирование сайта Q-SEO ушло меньше минуты:

Какие данные мы видим на дашборде?

- просканированные URL: все адреса страниц и документов, которые роботу удалось увидеть на сайте. Перейдя по ссылке, Вы увидите перечень просканированных URL и доступные данные их анализа. Адреса с критичными ошибками выделены красным цветом, средней критичности — желтым, с незначительной важностью — синим. Для получения подробных данных по определенному адресу просто кликните по нему — данные отобразятся в окне «информация»

- внутренние URL: в настройках по умолчанию внешние URL не сканируются, поэтому количество внутренних URL должно совпадать с количеством просканированных URL.
- URL с важными ошибками: отфильтрованные результаты сканирования с теми адресами страниц, где краулер обнаружил ошибки.
- индексируемые URL: адреса страниц, доступные для индексирования той поисковой системой, робота которой Вы используете для сканирования. То есть, если Вы сейчас используете бота Google для обхода сайта и результаты отчета «Индексируемые URL» Вас полностью устраивают, то это не значит, что эти же адреса страниц будут доступны, например, для Baidu или Bing. Изменить поискового бота можно в настройках User Agent.

Непосредственно во время сканирования сайта Вы можете отобразить анализируемые параметры, нажав на соответствующую ссылку:

По окончанию сканирования с помощью диаграмм будут визуализированы данные по соотношению индексируемых и неиндексируемых URL, по полученным кодам ответа сервера, по времени ответа сервера, типу контента и т. д. Все элементы диаграмм кликабельны и позволят Вам быстро перейти к необходимым данным.

сегменты

Принцип работы с сегментами схож на настройку сегментов в Google Analytics, хорошо знакомым многим seo-специалистам: по заданным параметрам выделяется определенная часть данных для дальнейшего изучения.

Очень удобно использовать сегменты для анализа ошибок на всех страницах определенной части сайта. Например, для нашего сайта мы выделили в отдельный сегмент все страницы блога:

Вы можете создавать сегменты исходя из своих задач: например, для интернет магазина будет полезны сегменты по конкретным категориям или сегмент, где будут представлены только страницы товаров.

Отчеты

Отчеты сгруппированы в правой части интерфейса, по умолчанию открыта вкладка «Ошибки», как наиболее важная для анализа. Данные отсортированы по степени важности — наиболее критичные ошибки расположены выше менее критичных, что удобно для восприятия. Клик по любому из пунктов отчета позволит увидеть отфильтрованные данные из URL, на которых и была обнаружена соответствующая ошибка.

Вкладка «Сводка» позволит Вам быстро обратиться к данным, касающимся определенного типа или статуса страницы. Частично эти же данные отображаются на странице «Дашборд»

Вкладка «Структура сайта» наглядно показывает какое количество документов относится к той или иной группе страниц (если структура URL сайта позволяет это сделать). Рекомендуем изучать данные этого отчета при анализе конкурентов для интернет-магазинов — можно легко узнать какое количество товаров представлено в той или иной категории.

Все отчеты легко экпортируются в .xls или .csv файлы, а также копируются в буфер обмена с помощью кнопки «Расширенное копирование».

Вы также можете сохранить полностью весь проект, если планируете продолжить анализ данных без повторного сканирования.

Настройка сканирования

Netpeak Spider — инструмент в первую очередь для профессионалов, поэтому разработчиками предусмотрена возможность настройки практически любых параметров сканирования:

основные настройки

В основных настройках Вы сможете установить язык программы, указать количество потоков сканирования, время ожидания ответа сервера на запрос программы. Кроме этого доступна опция «сканировать только внутри раздела» во избежание обхода роботом ненужных Вам страниц, а также выбор типа контента, который будет обрабатывать программа.

продвинутые настройки

Продвинутые настройки потому так и называются, поскольку требуют от пользователя понимания принципа директив для поисковых роботов. Смысл настройки сводится к учету или игнорированию определенных правил для поисковых ботов, используемых на Вашем сайте. Например, сканирование без учета директив robots.txt, canonical и Meta Robots, приведет к получению намного большего списка URL, нежели сканирование с их учетом (в большинстве случаев).

Условия остановки сканирования видимо авансом попали в «продвинутые», хотя логичнее было бы перенести их во вкладку «основные», где назначается количество потоков и максимальное время ожидания ответа сервера.

Также в продвинутых настройках Вы можете разрешить сканирование страниц, отдающих ответ сервера 4xx и файлы cookies.

визуальный robots.txt

В данном разделе Вы можете настроить сканирование сайта, учитывая Ваш собственный виртуальный файл robots.txt, а не реальный файл, расположенный на сервере. Очень удобная функция в случае, когда у Вас нет доступов к файлам сайта, либо когда Вы хотите проверить изменения в robots.txt до фактического обновления самого файла.

парсинг

Парсинг — это в принципе очень интересная функция, которую мы рекомендуем использовать на Ваших проектах. С его помощью, например, на большом сайте можно легко составить перечень страниц, на которых отсутствует код Google Analytics или атрибуты hreflang.
Кроме этого парсить можно и сайты конкурентов, например, с целью сравнения цен на товары.
Естественно, для эффективного использования этого инструмента нужно понимать что такое CSS селектор и регулярные выражения.

User Agent

С помощью выбора бота для мы можем «увидеть» сайт глазами разных поисковых систем и удостовериться в его корректном сканировании. Удостовериться, что Ваш сайт соответствует требованиям алгоритма «mobile first index» можно включив сканирование с помощью гуглбота для смартфонов.

ограничения

Любите длинные title и не хотите, чтобы краулер распознавал их как ошибку?
Просто измените данный параметр в разделе ограничения. Остальные настройки также интуитивно понятны и могут быть установлены в соответствии с Вашими требованиями.

правила

Если сегмент позволяет Вам выделить часть из всех данных сканирования, то с помощью правил Вы можете сразу направить сканирование только на нужные страницы, тем самым существенно уменьшите время для получения результатов.
Netpeak Spider позволяет создавать правила с помощью логических операторов «и» и «или». Первый используется для создания сложных правил, в которых для сканирования должно совпасть несколько условий. Оператор «или» используется, если для сканирования должно совпасть хотя бы одно из нужных Вам условий.
Для примера создадим правило, где исключим из сканирования все страницы блога и портфолио:

экспорт

В разделе экспорт Вы можете поменять дефолтные настройки для экспорта отчетов:

аутентификация

Настройки аутентификации необходимы когда исследуемый сайт недоступен по умолчанию для выбранного бота. Например, когда сайт находится на этапе разработки и прямой доступ к нему закрыт.

прокси

Нередко встречается ситуация, когда зарубежные хостинги блокируют украинские и российские IP адреса при парсинге сайта. Если Вы столкнулись с такой проблемой, то использование прокси серверов поможет с ее решением.

Важно знать

При работе с Netpeak Spider есть несколько «фишек», которые существенно облегчат Вам жизнь:

1. Вы всегда можете остановить сканирование и продолжить его в удобный момент.

Для этого нужно просто сохранить проект, а когда нужно будет продолжить сканирование открыть его и нажать кнопку «Старт»

2. Пересканирование отдельных URL или их списков.

Когда вы исправили ошибку на отдельной странице или группе страниц, то не нужно заново тратить время на сканирование всего сайта. Выберите эту ошибку в боковой панели и запустите пересканирование только тех страниц, где она была найдена. По аналогии можно запустить «перепробивку» любого нужного URL:

3. Изменение параметров в ходе сканирования

Довольно часто в процессе сканирования Вы будете понимать, что получаете ненужные Вам параметры в качестве данных. Теперь Вы можете просто остановить сканирование, изменить любые настройки (например выключить лишние параметры), а затем продолжить сканирование, только уже с учетом новых настроек.

Дополнительные инструменты

анализ исходного кода и HTPP-заголовков

С помощью этого инструмента Вы можете сохранить исходный код любой страницы, а также информацию из htttp заголовка ответа сервера. Также инструмент извлекает текстовый контент страницы:

расчет внутреннего PageRank

Данный инструмент позволит Вам наглядно оценить сколько «веса» получает та или иная страница благодаря внутренним ссылкам. Вы наглядно можете увидеть, какие страницы нуждаются в дополнительных ссылках и провести оптимизацию своей внутренней перелинковки.

валидатор XML Sitemap

Валидатор XML поможет быстро найти ошибки в существующей карте сайта. Просто укажите адрес, по которому находится XML карта сайта и сервис проверит ее содержимое на дубли и корректность заполнения.

генератор XML Sitemap

Позволяет в несколько кликов создать кастомную XML карту сайта, учитывая именно те параметры, которые Вы считаете необходимыми.

Резюме:

Netpeak Spider — довольно мощный краулер, позволяющий быстро проанализировать сайт на ключевые ошибки, однако рассчитан в первую очередь на опытных оптимизаторов, умеющих правильно анализировать полученную информацию и извлекать из отчетов действительно полезные данные.
Ряд вопросов вызывает юзабилити отчетов: например, не очень удобно посмотреть на каких же страницах размещены ссылки, идущие через 301 редирект, но разработчики постоянно совершенствуют продукт, что вселяет надежду на оптимизацию пути пользователя к нужной информации.
Благодаря отличным возможностям изменения настроек под свои нужды Netpeak Spider наверняка станет полезным инструментом в арсенале любого seo-специалиста.