НОВОСТИ ИНТЕРНЕТ-МАРКЕТИНГА

Google рассказал про краулинговый бюджет

Google выпустил новое видео SEO Mythbusting, в котором старший аккаунт-менеджер Merkle Алексис Сандерс смогла задать вопросы сотруднику поисковика Мартину Сплитту, касающиеся краулингового бюджета.

Ключевые моменты

Google вынужден разумно распоряжаться ресурсами при сканировании контента. Веб – огромен, поэтому приходится выбирать, что поисковик будет сканировать.

Контент новостных сайтов меняется часто и быстро, поэтому поисковик сканирует их чаще, чем сайты, которые обновляются редко.

Google пытается выяснить, нужно ли определенный сайт сканировать чаще или достаточно проверять его время от времени. Поисковик сохраняет фингерпринт контента, чтобы посмотреть, когда было последнее обновление.

Для отслеживания изменений сайта Google учитывает структурированные данные и элементы даты.

Etag, заголовки Last-Modified также могут быть полезны для понимания, как часто обновляется сайт, но Google их учитывает только как подсказки и может игнорировать. Изменение только даты на странице без обновления контента не приведет к тому, что сайт будет сканироваться чаще.

Беспокоиться о краулинговом бюджете следует только большим сайтам с миллионом URL. Например, с этим могут столкнуться сайты электронной коммерции или издатели.

Нередко владельцы сайтов говорят о краулинговом бюджете, если их ресурс не индексируется. Часто проблема бывает не в сканировании, а в плохом качестве контента, поэтому Google и игнорирует сайт.

Важно следить, чтобы серверы работали без сбоев и не выдавали коды ошибок, а редиректы были настроены корректно.

Если URL нет в Sitemap, Google может не сразу найти страницу. Для начала поисковику придется просканировать другую страницу и найти ссылку на этот URL.

Важные изменения на сайте нужно внедрять постепенно. Не стоит сразу переезжать на другой сервер, менять контент, URL, домен. Это «слишком много для одного проекта».

Google не кеширует POST-запросы, так как это быстро исчерпывает краулинговый бюджет. Следует использовать запросы GET.

Владельцы сайтов должны блокировать страницы, которые не нужно сканировать: внутреннюю аналитику, внутренние инструменты и т. п. Для этого следует использовать robots.txt.

Невозможно сделать так, чтобы Google сканировал сайт чаще. Если система обнаружит, что на странице много хорошего контента, а Sitemap будет содержать много URL, Google просканирует столько, сколько сможет, и будет продолжать это делать. В конечном итоге краулинговый бюджет может увеличиться до того параметра, который хочет видеть владелец сайта.
Напомним, ранее Мартин Сплитт рассказал, как Googlebot использует ссылки для обнаружения страниц в интернете, и как использовать JavaScript со ссылками без лишних проблем.