FL.ru – фриланс сайт удаленной работы №1. Поиск удаленной работы, фрилансеры.

Мы закрываем индексацию страниц в robots от гугла. Но Google индексирует сам файл robots

Категории: Google

Robots.txt – это протокол, который помогает поисковым системам выявить, какие части сайта не должны попасть в индексацию. Согласно Википедии:

Стандарт исключений для роботов, так же известный, как протокол исключений для роботов или robots.txt – это договоренность для предотвращения взаимодействия поисковых роботов с сайтом или его частью, публичная видимость которой достигается иными средствами

Google бот не индексирует страницы, которые запрещены в файле robots.txt. Все это имеет смысл, но, что если сам файл robots.txt начнет появляться в поисковой выдаче?

Если честно, то сначала я думал, что это глупость. Это звучит совершенно нелогично. Я иногда читаю буржуев в твиттере — спецов в seo. Так вот, видел как-то один твит Питера Хэндли, более известного под ником @ismepete. И я понял, что это не прикол. Он один из моих самых уважаемых людей в индустрии поисковой оптимизации. И если он затронул эту тему, значит, что-то в этом есть

Google и файл robots

Шокированный и удивленный, я быстро обратился к Google, чтобы проверить этот феномен собственноручно и как вы думаете, что я обнаружил?

Google и файл robots

Как вы прекрасно видите, Питер не единственный человек, которого коснулась эта проблема, вот еще крупные сайты, которые испытывают подобный шок:

— Dailymail

— Webmasterworld

— Last.fm

И множество других. У всех у них файл robots.txt оказался проиндексированным в Google.

Согласитесь, что глупо и нелогично блокировать robots.txt от индексации в самом файле robots.txt. В этом нет никакого смысла:

Почему в действительности Google проиндексировал эти файлы и как собственно убрать их из поисковой выдачи?

Почему Google проиндексировал robots.txt?

Можно выдвинуть множество разных суждений, но я бы выделил две причины, и я объясню почему.

1. Линки: Как вы знаете, Google переходит по ссылкам, правильно? По одной ссылке он выходит на другую и эта цепочка продолжается. Когда ссылки приводят бота к файлу robots.txt c внешних ресурсов (различные веб-сайты, указывающие на ваш robots.txt) или внутренних (страницы, которые указывают на robots.txt), вероятно, что Google может проиндексировать этот файл.

2. Социальные сигналы: Один из самых быстрых способов привлечь внимание Google бота к странице — это делиться ссылкой в социальных сетях, например Twitter, Google+, Facebook. Когда по каким-либо причинам вы или кто-то другой делится вашим robots.txt в социальных сетях, то это подталкивает Google индексировать его

Google и файл robots

Один хороший человек, написал в своем robots.txt целое послание работникам Google. Он опубликовал свой креативный стандарт исключений для роботов в своем Twitter’е и вирус начал распространяться и, конечно же, оказался в поисковой выдаче. Согласно подсчетам, robots.txt Лакани (автор послания) получил:

— 21 лайк с Facebook

— 8 комментов с Facebook

— В Facebook материалом поделились 33 человека

— Ретвитнуло 1232 человека

Теперь, когда вы знаете, что ваш robots.txt может быть проиндексирован поисковиком, стоит задуматься, как этого избежать.

Как деиндексировать robots.txt?

— Не оставляйте ссылок, не делитесь:

К сожалению, невозможно полностью контролировать эту ситуацию, особенно сложно заставить людей не оставлять ссылки на крупные ресурсы, такие как Webmasterworld или Last.fm. Но, чисто теоретически, если это условие будет выполняться, и ссылки не будут появляться в социальных сетях, то Google проигнорирует ваш robots.txt.




Запрос на удаление URL:

Это единственная идея, которая пришла мне в голову. Она простая, надежная и действенная, именно она поможет удалить из индекса Google файл robots.txt. Хорошо то, что в панели вебмастера можно не только удалить файл из индекса, но и видеть статус своего запроса.

Я рассказал о двух способах борьбы с этими проблемами. Если у вас есть лучшее решение для проблемы индексирования файла robots.txt, тогда делитесь им в комментариях




  • Я уже как то обсуждал эту тему в http://twitter.com/SEO_Djon и пришли к выводу, что все дело в кодировке

  • А чем плоха индексация роботса?

  • Прописывая в robots.txt исключение на сам файл robots.txt можно не бояться ошибок, гуглбот правильно интерпретирует подобную команду. Все дело в том, что сначала этот файл просматривается как управляющий, а только потом индексируются страницы.

  • kulikovodessa

    Сережа, офигеть можно с твоих изысканий!!!!

     2800 подписчиков — 700 просмотров за день — и всего 3 коммента….
    О чем это говорит, не доросли мы пока до твоих интересов…..

     Ты поднимаешь такие вопросы, которые я не встречаю на сайтах других SEO- блогеров. 
    Может быть я просто не читаю тебе подобных…..?
     Все пишут SEO-банальщину, может быть у тебя для этого есть другой блог… потому что этот явно страдает…..

  • это дискус) он всех пугает)

  • Спасибо за теплые слова. Есть много популярных блогеров, у которых мало комментов. Не знаю, в чем дело. Может, пишу заумно, либо наоборот — занудно и не интересно. Но в статистике вижу, что читают все мои статьи очень основательно )

  • kulikovodessa

    Ну, если пишешь не банальные вещи, то уже, вопрос, как ты это пишешь уходит на второй план, и становится не таким важным….
    Если основательно читают, значит вопрос о поведенческих факторах наполовину решен.

    Устрой опрос своей аудитории, что им нравится в твоих статьях, почему не комментируют и т.д. — тут учить тебя я думаю не нужно……Макс Хигер давал хороший инструмент (сервис) для опросов, если не знаешь, скину ссылку.Успехов!

  • Комментов мало потому, что:
    1. Капча
    2. Не сохраняется имя, почтовый ящик и сайт на будущее
    3. Премодерация
    Второй фактор наверно самый важный

  • Не чистите куки, и будут сохраняться данные. Что касается премодерации, то проверенные люди оставляют комменты без нее.  А пропускать всякую шнягу, которую часто пишут, без премодерации — это утопия

  • Я не удаляю куки, но именно у тебя, почему то, данные слетают

  • Я считаю мало комментов из-за самой системы комментов, людям просто лень там регистрироваться, вводить пароли и так далее. А комментят только те кто уже там зарегистрирован

  • Sano

    Ну и что такого что сам файл Robots.txt индексируется? Главное, чтобы его содержание не индексировалось, такого не наблюдается, так что все ок.

  • Безусловно. Но интересен сам факт!

Подпишитесь на рассылку блога
max1net.com:
Уже подписались человек
Укажите свой e-mail