Мы закрываем индексацию страниц в robots от гугла. Но Google индексирует сам файл robots

Robots.txt – это протокол, который помогает поисковым системам выявить, какие части сайта не должны попасть в индексацию. Согласно Википедии:

Стандарт исключений для роботов, так же известный, как протокол исключений для роботов или robots.txt – это договоренность для предотвращения взаимодействия поисковых роботов с сайтом или его частью, публичная видимость которой достигается иными средствами

Google бот не индексирует страницы, которые запрещены в файле robots.txt. Все это имеет смысл, но, что если сам файл robots.txt начнет появляться в поисковой выдаче?

Если честно, то сначала я думал, что это глупость. Это звучит совершенно нелогично. Я иногда читаю буржуев в твиттере — спецов в seo. Так вот, видел как-то один твит Питера Хэндли, более известного под ником @ismepete. И я понял, что это не прикол. Он один из моих самых уважаемых людей в индустрии поисковой оптимизации. И если он затронул эту тему, значит, что-то в этом есть

Google и файл robots

Шокированный и удивленный, я быстро обратился к Google, чтобы проверить этот феномен собственноручно и как вы думаете, что я обнаружил?

Google и файл robots

Как вы прекрасно видите, Питер не единственный человек, которого коснулась эта проблема, вот еще крупные сайты, которые испытывают подобный шок:

— Dailymail

— Webmasterworld

— Last.fm

И множество других. У всех у них файл robots.txt оказался проиндексированным в Google.

Согласитесь, что глупо и нелогично блокировать robots.txt от индексации в самом файле robots.txt. В этом нет никакого смысла:

Почему в действительности Google проиндексировал эти файлы и как собственно убрать их из поисковой выдачи?

Почему Google проиндексировал robots.txt?

Можно выдвинуть множество разных суждений, но я бы выделил две причины, и я объясню почему.

1. Линки: Как вы знаете, Google переходит по ссылкам, правильно? По одной ссылке он выходит на другую и эта цепочка продолжается. Когда ссылки приводят бота к файлу robots.txt c внешних ресурсов (различные веб-сайты, указывающие на ваш robots.txt) или внутренних (страницы, которые указывают на robots.txt), вероятно, что Google может проиндексировать этот файл.

2. Социальные сигналы: Один из самых быстрых способов привлечь внимание Google бота к странице — это делиться ссылкой в социальных сетях, например Twitter, Google+, Facebook. Когда по каким-либо причинам вы или кто-то другой делится вашим robots.txt в социальных сетях, то это подталкивает Google индексировать его

Google и файл robots

Один хороший человек, написал в своем robots.txt целое послание работникам Google. Он опубликовал свой креативный стандарт исключений для роботов в своем Twitter’е и вирус начал распространяться и, конечно же, оказался в поисковой выдаче. Согласно подсчетам, robots.txt Лакани (автор послания) получил:

— 21 лайк с Facebook

— 8 комментов с Facebook

— В Facebook материалом поделились 33 человека

— Ретвитнуло 1232 человека

Теперь, когда вы знаете, что ваш robots.txt может быть проиндексирован поисковиком, стоит задуматься, как этого избежать.

Как деиндексировать robots.txt?

— Не оставляйте ссылок, не делитесь:

К сожалению, невозможно полностью контролировать эту ситуацию, особенно сложно заставить людей не оставлять ссылки на крупные ресурсы, такие как Webmasterworld или Last.fm. Но, чисто теоретически, если это условие будет выполняться, и ссылки не будут появляться в социальных сетях, то Google проигнорирует ваш robots.txt.

Запрос на удаление URL:

Это единственная идея, которая пришла мне в голову. Она простая, надежная и действенная, именно она поможет удалить из индекса Google файл robots.txt. Хорошо то, что в панели вебмастера можно не только удалить файл из индекса, но и видеть статус своего запроса.

Я рассказал о двух способах борьбы с этими проблемами. Если у вас есть лучшее решение для проблемы индексирования файла robots.txt, тогда делитесь им в комментариях



Подпишитесь на рассылку блога
max1net.com: