Как исправить ошибки сканирования в Google Webmaster Tools

Категории: Google

Просматривая список из 12 тысяч ошибок сканирования в Google Webmaster Tools, надежды на их исправление кажутся не такими светлыми, как хотелось бы. Больше это похоже на нескончаемый процесс, справиться с которым, не представляется возможным.

Однако ключевым моментом в этом вопросе является знание, какие из ошибок действительно нарушают целостность сайта, а какие являются обычными информационными огрехами, которые могут не восприниматься всерьез.

Причиной важности ознакомления с ошибками и скрупулёзным мониторингом за ними является их влияние на пользователей и поисковых роботов Google.

Наличие огромного количества 404 ошибок, особенно для URLов, которые уже проиндексированы или на которые ссылаются с других страниц, может негативно сказаться на отношении пользователей к сайту. Если человек за одну сессию несколько раз натыкается на подобные ошибки, доверие к ресурсу моментально пропадает, что может привести к обвалу и даже краху проекта.

Вы не должны упускать из вида внешние ссылки, которые ведут на мертвые страницы вашего сайта. Если вам удастся исправить ошибку сканирования и поставить редирект на рабочую страницу, то внешняя ссылка будет положительно влиять на поисковую выдачу.

Более того, стоит понимать, что Google выделяет определенный “бюджет сканирования” для каждого ресурса, поэтому если большую часть времени робот будет находиться на страницах с ошибками, он попросту не успеет копнуть глубже и обнаружить ценные, а главное рабочие страницы сайта.

Перевод картинки!

Ошибки при сканировании

Проблемы, с которыми столкнулся Google в процессе сканирования вашего сайта

Мы сосредоточимся на исправлении этих типов ошибок

Теперь настало перейти непосредственно к ошибкам сканирования Google Webmaster Tools:

HTTP

В этой секции обычно находятся страницы с 403 ошибкой, что считается не такой серьезной проблемой. Для более детального обзора списков кодов статуса HTTP познакомьтесь со справкой Google или великолепной инфографикой от SixRevisions.

Карта сайта

Ошибки в этом блоке часто вызваны старой картой сайта, или ссылками с ошибкой 404. Убедитесь, что все ссылки в вашем списке работают должным образом, потому что поисковый робот Google часто обращается к нему.

Одна очень неприятная вещь заключается в том, что Google будет продолжать сканировать старые карты сайта, которые вы уже удалили из Webmaster Tools, чтобы проверить, что сама карта и все ссылки на самом деле мертвы. Если вы уже удаляли старые карты сайта из инструмента для веб-мастеров, и вы не хотите, чтобы они сканировались, вам нужно убедиться, что по адресу появляется ошибка 404 и вы не поставили редирект на новое “содержание” сайта.

Перевод картинки!

Присвойте им 404 ошибку, если вы хотите полностью удалить старые URLы, которые уже перестали иметь значение

От работников Google:

Лучший способ остановить Googlebot-сканирование URLов, которые были обнаружены в прошлом – это присвоить страницам 404 ошибку. Когда бот несколько раз не может найти страницу, он перестает сканировать ее. После того, как карта сайта перестает проверяться, вам необходимо удалить ее из раздела “Все карты сайта” в Google Webmaster Tools.

Нерабочие ссылки

Ошибки подобного вида часто вызваны неправильно установленными редиректами. Постарайтесь минимизировать цепочку перенаправлений, установить наименьший таймер переадресации и не использовать мета-тег refresher в заголовке страниц.

Мэтт Каттс представил очень понятное видео, где он раскрывает суть правил редиректов, если вы хотите сразу преступить к делу, то начинайте просмотр с 2:45 мин.

Поисковый паук Google “устает” от длинной цепочки из редиректов.

На что стоит обратить внимание, при установке редиректов:

  • Когда вы устанавливаете перманентный редирект, убедитесь о правильном статусе кода 301, который сообщит боту о переезде страницы
  • Удостоверьтесь в отсутствии так называемых redirect loops, когда перенаправление происходит в исходную точку
  • Каждое звено цепочки должно представлять собой рабочую страницу. Настоятельно рекомендуется избавиться от 404 ошибки, а так же 503 (служба недоступна) и 403 (доступ запрещен).

Инструменты для реализации:

- Проверяйте установленные редиректы с помощью мощных сервисов, например URI Valet или Check Server Headers Tool.

- Screaming Frog – отличный инструмент, позволяющий находить 301 редиректы, а так же обнаруживать 404 и 500 ошибки. Бесплатная версия программы способна анализировать до 500 страниц, для большего необходимо приобретать лицензию.

- Специальный сервис по проверке поискового индексирования от SiteOpSys позволяет забить все URLы с редиректами и посмотреть все ли они правильно обрабатываются поисковым роботом. Если ваши первоначальные страницы больше не индексируется, это означает, что Google удалил их из индекса, увидев 301 редирект. После этого, вы можете убрать строчку из файла .htaccess с этой переадресацией.

Обязательно стоит протестировать сайт в его текстовой версии и убедиться, что вы можете видеть все ссылки, и они не спрятаны за Javascript, DHTML, Flash, ID сессий или куки.

Всегда используйте абсолютные, а не относительные ссылки. Если сайты-парсеры контента скопируют ваши изображения или ссылки относительные вашему сайту, то при неправильном парсинге бэклинки будут отображаться нерабочими ссылками. Совсем недавно как раз это произошло с нашим сайтом, найти источники таких бэклинков практически невозможно.

Страница не найдена

Чаще всего, 404 ошибка возникает в случае, если:

  • Вы удалили страницу с сайта и не поставили 301 редирект
  • Вы изменили название страницы и не поменяли 301 редирект
  • Вы сделали опечатку при указании внутренней ссылки
  • Кто-то на другом сайте указал ссылку на ваш ресурс, но неправильно напечатал адрес
  • Ваш сайт переехал на новый домен, в результате чего нарушилась структура подкаталогов

Хорошая практика: Если вы располагаете хорошей ссылкой, ведущей на 404 страницу, вам необходимо установить 301 редирект к нужной или похожим по смыслу страницам. Нет необходимости устанавливать редирект для всех 404 ошибок. На деле это может заметно снизить быстроту загрузки сайта. Если у вас огромное число старых страниц, которые вы бы хотели удалить, то 404 ошибка принесет вам только пользу. Google сам рекомендует использовать 404 ошибку, чтобы дать понять роботу о намерении избавиться от ненужных страниц.

Перевод картинки!

Проверенный метод: если ваша страница с 404 ошибкой проиндексирована поисковыми системами, или на нее стоит весомая ссылка на других сайтах, установите редирект. Если же она не проиндексирована и на нее не ссылаются, оставьте все как есть.

Страница 404 ошибки — - -301 редирект- — -> рабочая страница

Запрет robots.txt

Подобные ошибки носят больше информационный характер, в связи с тем, что они показывают какие URLы были заблокированы в robots.txt. Поэтому первым вашим шагом должна быть проверка этого файла, чтобы убедиться, что все указанные ссылки должны быть заблокированы.

Иногда, несмотря на указанные URLы в robots.txt, они не будут заблокированы полностью. В таком случае, вам придется рассматривать каждый случай в индивидуальном порядке, потому что причины такого результата могут быть совершенно разными. Используйте сервис URI valet, чтобы установить причину поведения, так же не забывайте проверять .htaccess. на наличие правил переадресации для отдельных URLов.

Ложное использование ошибки 404 (Soft 404)

Если у вас есть страницы с очень малым объемом контента или они вообще пустые, то они могут быть категорированы как страницы с ложными ошибками 404 (Soft 404). Эта классификация не идеальна, если вы хотите полностью убрать страницу и выдавать реальную ошибку 404. Если же такой тип 404 ошибки присвоен странице с основным контентом, то вам следует исправить ее.

Перевод картинки!

Код ответа 200 ОК + контент похожий на 404 ошибку: маленький объем текста, картинок и (или) дублированный контент = Soft 404

Если вы выдаете страницу 404 и ей присвоено ложное использование 404, то это означает, что HTTP ответ сервера в хэдере не выдает ошибку 404 Not Found (не найдено). Google рекомендует всегда выдавать в ответе сервера на несуществующую страницу ошибки 404 или 410.

С этой проблемой мы столкнулись, когда ставили редиректы с множества битых URL на временную страницу, которая содержала только одно изображение и несколько строк текста. Google распознал ее как страницу 404 с ложным использованием кода.

Тайм-аут запроса

Если страница требует слишком долгого времени для загрузки, Googlebot приостановит ее сканирование и не проиндексирует. Проверяйте логи сервера и скорость загрузки, чтобы избежать подобных ситуаций. Типы тайм-аутов:

  • DNS тайм-аут — Googlebot не может получить доступ к серверу домена. Проверьте настройки DNS. Иногда случается, так, что проблема возникает со стороны поисковой системы, в данном случае вам остается только ждать. Сервис Pingdom является отличным инструментом, чтобы отслеживать состояние DNS вашего домена.
  • URL тайм-аут – В данном случае ошибка связана с отдельно взятой страницей, а не всем доменом.
  • Robots.txt тайм-аут – Если у вас есть файл robots.txt, но доступ к нему по каким-либо причинам ограничен, Google откладывает анализ вашего сайта, чтобы не спровоцировать индексацию файлов, на которых наложен запрет.

Недоступный URL

Ошибки могут возникать в связи с внутренними проблемами сервера или неполадками с DNS. Так же страница может стать недоступной из-за правил, указанных в robots.txt.

Перевод картинки!

Нет ответа, ошибки сервера, проблемы с DNS, robots.txt недоступен

Причин возникновения недоступности огромное множество, с ними вы можете познакомиться в справке Google.

Заключение

Google Webmasters Tools далек от совершенства. Несмотря на огромный труд компании и активное общение с пользователями, поисковому гиганту еще много предстоит поменять и исправить. Google является лучшим поисковиком во всем мире, однако вы не можете произвести поиск по отчетам ошибок, чтобы найти URL, ошибки на котором появились еще месяц назад. Все что вам остается делать, это пролистать 20 страниц отчета, чтобы найти этот URL на 21 странице. Лучшим решением тут будет скачать и открыть файл отчета в Excel, где есть более широкие возможности для поиска.

Кроме этого, у владельца сайта должна появиться возможность полного удаления всех карт сайта, даже если их загрузил совершенно другой человек год назад. На данный момент вы можете удалить карту сайта из Webmaster Tools, если ее туда загрузили именно вы. Скажем, если Джимми из агентства Х загрузил карту изображений год назад перед тем, как передал вам сайт, она все равно будет показываться в списке всех карт вашего сайта. На данный момент главным решением этой проблемы является установка ошибки 404 на эту карту сайта и тогда она моментально выпадет из индекса.

Bing начинает вносить изменения в свой собственный раздел для вебмастеров и, думаю, нам будет интересно понаблюдать за конкуренцией данных продуктов от этих двух поисковиков.

Источник


Понравился пост? Подпишись на обновления блога по RSS email twitter
  • Геннадий Карпинский

    Так, что же всё таки делать, чтобы избежать всех ошибок? Удалить карты сайта? А потом как? 

    Вы извините меня. Я в оптимизации плохо разбираюсь. Google выдаёт, что у меня страницы заблокированы, двойные заголовки, повторяющиеся метаописания. Как это одним махом с наименьшими потерями и затратами исправить?

  • Антон

    Такая же ситуация возникала день назад, по непонятным причинам. Сайт новый, карта сайта сделана движком сайта и битых ссылок или вообще не на мой ресурс внутри небыло. Есть подозрение, что виноват шаблон сайта, который хоть и был полностью переработан, но внутри где то есть зацепка, которая и ведет Google Bot на левые страницы, которых у меня нету. скриптов незнакомых на страницах нету., только гугл реклама, и liveinternet счетчики. Есть несколько решений, — сменить шаблон сайта, либо залазить через phpMyAdmin на БД и методом поиска попробывать найти эти битые ссылки, далее можно будет узнать, где они установлены и какой (скрипт, фрейм,) сайта их штампует))). Так же проверьте CSS стили своих шаблонов, на предмет выявления этих ссылок, либо какого то перенаправления на другой сайт/имяфайла.php