При каждом обращении к сайту поисковые роботы первым делом ищут и считывают файл robots.txt. В нем записаны специальные директивы, управляющие поведением робота. Скрытую опасность для любого сайта может нести как отсутствие этого файла, так и его некорректная настройка. Предлагаю детальнее изучить вопрос настройки robots.txt вообще и для CMS WordPress в частности, а также обратить внимание на частые ошибки.
- Файл robots.txt и стандарт исключений для роботов
- Директива User-agent
- Директива Disallow
- Директива Allow (неофициальная)
- Sitemap (неофициальная)
- Директива Host (только Яндекс)
- Другие директивы
- Роботы, директивы robots.txt и индекс поисковых систем
- Почему Google добавляет в индекс страницы, запрещенные в robots.txt?
- Индекс Google + некорректный robots.txt = ДУБЛИ
- Примеры robots.txt для WordPress
- Прежде чем изменять свой robots.txt…
- В двух словах о том, что закрывать в robots.txt
Файл robots.txt и стандарт исключений для роботов
Все поисковые системы понимают инструкции, написанные в специальном файле согласно стандарта исключений для роботов. В этих целях используется обычный текстовый файл с названием robots.txt, расположенный в корневом каталоге сайта. При корректном размещении содержимое этого файла можно посмотреть на любом сайте просто дописав после адреса домена /robots.txt
. Например, https://avovkdesign.com/robots.txt.
Инструкции для роботов позволяют запрещать к сканированию файлы/каталоги/страницы, ограничивать частоту доступа к сайту, указывать зеркало и XML карту. Каждую инструкцию пишут с новой строки в следующем формате:
[директива]: [значение]
Весь список директив разбивают на секции (записи), разделяя их одной или несколькими пустыми строками. Новую секцию начинают с одной или нескольких инструкций User-agent. Запись должна содержать как минимум одну директиву User-agent и одну Disallow.
Текст после символа # (решетка) считается комментарием и игнорируется поисковыми роботами.
к оглавлению ↑Директива User-agent
User-agent — первая директива в секции, сообщает имена роботов, для которых предназначены следующие за ней правила. Звездочка в значении обозначает любое имя, разрешается только одна секция с инструкциями для всех роботов. Пример:
# инструкции для всех роботов User-agent: * ... # инструкции для роботов Яндекса User-agent: Yandex ... # инструкции для роботов Google User-agent: Googlebot ...к оглавлению ↑
Директива Disallow
Disallow — основная директива, запрещающая сканирование URL/файлов/каталогов, имена которых полностью или частично совпадают с указанными после двоеточия.
Продвинутые поисковые роботы вроде Яндекса и Google понимают спецсимвол * (звездочка), обозначающий любую последовательность символов. Подстановку не желательно использовать в секции для всех роботов.
Примеры директивы Disallow:
# пустое значение разрешает индексировать все User-agent: * Disallow: # запрещает сканировать весь сайт User-agent: * Disallow: / # запрещает к сканированию все файлы и/или каталоги, начинающиеся из символов 'wp-' User-agent: * Disallow: /wp- # запрещает сканировать файлы page-1.php, page-vasya.php, page-news-345.php # вместо * может встречаться любая последовательность символов User-agent: * Disallow: /page-*.phpк оглавлению ↑
Директива Allow (неофициальная)
Allow разрешает сканирование указанных ресурсов. Официально этой директивы нету в стандарте исключений для роботов, поэтому не желательно использовать ее в секции для всех роботов (User-agent: *). Отличный пример использования — разрешить к сканированию ресурсы из каталога, который ранее запрещен к индексации директивой Disallow:
# запрещает сканировать ресурсы начинающиеся с /catalog # но разрешает сканировать страницу /catalog/page.html User-agent: Yandex Disallow: /catalog Allow: /catalog/page.htmlк оглавлению ↑
Sitemap (неофициальная)
Sitemap — директива, указывающая адрес карты сайта в формате XML. Эта директива так же не описана в стандарте исключений и поддерживается не всеми роботами (работает для Яндекс, Google, Ask, Bing и Yahoo). Можно указывать одну или несколько карт — все будут учтены. Может использоваться без User-agent после пустой строки. Пример:
# одна или несколько карт в формате XML, указывается полный URL Sitemap: http://sitename.com/sitemap.xml Sitemap: http://sitename.com/sitemap-1.xmlк оглавлению ↑
Директива Host (только Яндекс)
Host — директива для робота Яндекс, указывающая основное зеркало сайта. Вопрос о зеркалах детальнее можно изучить в справке Яндекса. Эту инструкцию можно указывать как в секции для роботов Яндекса, так и отдельной записью без User-agent (инструкция межсекционная и в любом случае будет учтена Яндексом, а остальные роботы ее проигнорируют). Если в одном файле Host указан несколько раз, то будет учтена только первая. Примеры:
# указываем главное зеркало в секции для Яндекса User-agent: Yandex Disallow: Host: sitename.com # главное зеркало для сайта с SSL сертификатом User-agent: Yandex Disallow: Host: https://sitename.com # или отдельно без User-agent после пустой строки Host: sitename.comк оглавлению ↑
Другие директивы
Роботы Яндекса также понимают директивы Crawl-delay и Clean-param. Детальнее об их использовании читайте в справочной документации.
к оглавлению ↑Роботы, директивы robots.txt и индекс поисковых систем
Ранее поисковые роботы следовали директивам robots.txt и не добавляли в индекс «запрещенных» там ресурсов.
Сегодня все обстоит иначе. Если Яндекс послушно исключит из индекса адреса, запрещенные в файле роботс, то Google поступит совершенно иначе. Он обязательно добавит их индекс, но в результатах поиска будет стоять надпись «Описание веб-страницы недоступно из-за ограничений в файле robots.txt».
к оглавлению ↑Почему Google добавляет в индекс страницы, запрещенные в robots.txt?
Ответ кроется в маленькой хитрости гугла. Если внимательно прочесть справку для вебмастера, то все становится более чем понятно:
Google без зазрения совести сообщает, что директивы в robots.txt являются рекомендацией, а не прямыми командами к действию.
Это означает, что робот директивы учитывает, но поступает все-же по-своему. И он может добавить в индекс страницу, запрещенную в robots.txt, если встретит на нее ссылку.
Индекс Google + некорректный robots.txt = ДУБЛИ
Практически каждое руководство в сети говорит о том, что закрытие страниц в robots.txt запрещает их индексацию.
Ранее так и было. Но мы уже знаем, что для Google такая схема сегодня не работает. А что еще хуже — каждый последовавший таким рекомендациям совершает огромную ошибку — закрытые URL попадают в индекс и помечаются как дубли, процент дублированного контента постоянно растет и рано или поздно сайт наказывается фильтром Панда.
Google предлагает два действительно рабочих варианта для исключения из индекса ресурсов веб-сайта:
- закрытие паролем (применяется для файлов вроде .doc, .pdf, .xls и других)
- добавление метатега robots с атрибутом noindex в <head> (применяется для веб-страниц):
<meta name="robots" content="noindex, nofollow">
Главное, что нужно учесть:
(поэтому он и пишет в результатах поиска, что описание ограничено в robots.txt)
Детальнее об этой проблеме можно почитать в справке Google. А решение здесь одно — открывать доступ в robots.txt и настраивать запрет на индексацию страниц метатегом (или паролем, если речь о файлах).
Примеры robots.txt для WordPress
Если внимательно ознакомиться с предыдущим разделом, то становится понятно, что сегодня не стоит практиковать чрезмерный запрет адресов в robots.txt, по крайне мере для Google. Управлять индексацией страниц лучше через метатег robots.
Вот самый банальный и при этом совершенно правильный robots.txt для WordPress:
User-agent: * Disallow: Host: sitename.com
Удивлены? Еще бы! Все гениальное просто 🙂 На западных ресурсах, где нету Яндекса, рекомендации по составлению robots.txt для WordPress сводятся к двум первым строчкам, как это показали авторы WordPress SEO by Yoast.
Правильно настроенный SEO-плагин позаботится о канонических ссылках и метатеге robots со значением noindex, а страницы админки под паролем и не нуждаются в запрете индексации (исключением могут быть только страницы входа и регистрации на сайта — убедитесь, что на них есть meta тег robots со значением noindex). Карту сайта правильнее добавить вручную в вебмастере поисковой системы и заодно проследить, чтобы она была корректно прочитана. Осталось единственное и важное для рунета — указать главное зеркало для Яндекса.
Еще один вариант, подойдет для менее смелых:
User-agent: * Disallow: /wp-admin Host: sitename.com Sitemap: http://sitename.com/sitemam.xml
В первой секции запрещается индексация для всех роботов каталога wp-admin
и его содержимого. В последних двух строках указанные зеркало сайта для робота Яндекса и карта сайта.
Прежде чем изменять свой robots.txt…
Если приняли решение о смене директив в robots.txt, то сначала позаботьтесь о трех вещах:
- Убедитесь, что в корне вашего сайта нету дополнительных файлов или каталогов, содержимое которых стоит скрыть от сканирования (это могут быть личные файлы или медиаресурсы);
- Включите канонические ссылки в своем SEO-плагине (это исключит из индекса URL c параметрами запроса вроде http://sitename.com/index.php?s=word)
- Настройте вывод метатега robots со значением noindex на страницах, которые хотите скрыть от индексации (для WordPress это архивы по дате, метке, автору и страницы пагинации). Сделать это можно для части страниц в настройках SEO-плагинов (в All In One SEO неполные настройки). Или специальным кодом вывести самостоятельно:
/* ========================================================================== * Добавляем свой <META name="robots" content="noindex,nofollow" > * ========================================================================== */ function my_meta_noindex () { if ( //is_archive() OR // любые страницы архивов - за месяц, за год, по рубрике, по авторам //is_category() OR // архивы рубрик is_author() OR // архивы статей по авторам is_time() OR // архивы статей по времени is_date() OR // архивы статей по любым датам is_day() OR // архивы статей по дням is_month() OR // архивы статей по месяцам is_year() OR // архивы статей по годам is_tag() OR // архивы статей по тегам is_tax() OR // архивы статей для пользовательской таксономии is_post_type_archive() OR // архивы для пользовательского типа записи //is_front_page() OR // статическая главная страница //is_home() OR // главная страница блога с последними записями //is_singular() OR // любые типы записей - одиночные посты, страницы, вложения и т.д. //is_single() OR // любой одиночный пост любого типа постов (кроме вложений и Страниц) //is_page() OR // любая одиночная Страница ("Страницы" в админке) is_attachment() OR // любая страница вложения is_paged() OR // все и любые страницы пагинации is_search() // страницы результатов поиска по сайту ) { echo "".'<meta name="robots" content="noindex,nofollow" />'."\n"; } } add_action('wp_head', 'my_meta_noindex', 3); /* ========================================================================== */
В строчках, начинающихся с
//
метатег не будет выводится (в каждой строке описано для какой страницы предназначено правило). Добавляя или удаляя в начале строки два слеша, можно контролировать будет ли выводиться мета-тег роботс или нет на определенной группе страниц.
В двух словах о том, что закрывать в robots.txt
С настройкой файла роботс и индексацией страниц нужно запомнить два важных момента, которые ставят все на свои места:
Помню, мне тоже попадалась парочка сайтов практически с пустым роботсом и дублей при этом вообще не было. Я тоже потом хотел попробовать удалить лишние директивы, но как-то все откладывал и откладывал на потом. Сейчас посмотрел у себя, в основном дубли из файлов темы и cms. Интересно, даже попалось несколько файлов от плагинов, которые я уже как год не использую.))
Но если использовать личные файлы на своем сервере, то это же по-любому в роботсе стоит закрыть каталог на эти файлы. Надо будет в выходной заняться роботсом.
Сергей, если есть каталог для хранения личных файлов (документы PDF/DOC, фото и пр.), то их обязательно нужно закрывать через роботс. А еще лучше — паролем на каталог
Александра, а как быть с Яндексом? Для Гугла согласен, лучше все ему открыть. Но с Яндексом тут немного по другому. В отличие от Гула он учитывает все правила в роботсе. К тому же сами работники Яндекса рекомендую закрывать ненужные страницы в роботсе. Это намного упрощает роботу процесс индексации. Ему в дальнейшем не придется тратить время, чтобы «прошерстить» абсолютно все файлы сайта. Поэтому если мы пропишем запреты для яндекса, то мы намного упростим роботу задачу.
В тексте поправьте ссылочку на показали авторы WordPress SEO by Yoast.
Сергей, правила в robots.txt учитывают все роботы, и Google тоже. Вот только ведут себя они по-разному.
Для Яндекса можно написать отдельную секцию с запретом индексации страниц поиска, постраничной навигации, архивов. В справке действительно есть заметка о том, что такой подход к закрытию от индексации страниц, способствует ускорению индексации сайта. Использовать этот подход или нет — решать владельцу сайта.
То, что запрет для Яндекса будет прописан метатегом, а не в robots.txt ошибкой не является и не повлечет за собой никаких негативных последствий. Ну а по скорости индексации роботом нужно экспериментировать.
Мне значительно легче в контроле и управлении индексацией страниц сайта использовать один метод — с использованием метатега. Многие популярные сайты также используют этот метод. Да и клиентам рекомендую так поступать, во избежание путаницы.
п.с. ссылку поправила, спасибо за подсказку!
Правда не все поняла из текста, но одним моментом из личной практики хочется поделиться… Незнаю как гугл отнесся, но яндекс одно время не индексировал мой контент — главное страницы шли в индекс, комментарии индексировались, а сами статьи нет. Долго искала причину этого, пока один человек не указал мне на ошибку — присутствующий тег на страницах: который запрещал индексирование контента. Поэтому надо быть очень внимательными на добавление таких тегов в шаблон….
Нина, я бы даже сказала, что нужно быть очень внимательным. Ну и время от времени наблюдать за сайтом в вебмастере — в Яндексе выводится полный список URL, исключенных по любой причине (закрытие в robots.txt или метатегом роботс). Если число исключенных страниц постоянно увеличивается, то обязательно выяснить какие страницы попадают под исключение, почему и нужно ли Вам этот или нет.
Александра, я не сказала наверно главный момент как я обнаружила это)) ведь страницы были в индексе…
А стала проверять через сервис мегаиндекс на проверку релевантности страницы, и вот там то в окне все было — заголовок, рубрики, комментарии … а самого основного — статьи, не было.
Благо потом тренерам школы блоггеров, в которой занимаюсь, написала, они и нашли эту ошибку…
Наверно вовремя заметила, с каких пор и откуда взялось неизвестно, но в пределах месяц-два (раньше проверяла все нормально было), по наблюдениям в статистике в выдаче были те страницы которые шли с комментариями.
Лишняя отмеченная галочка сделала свое дело. Много проблем возникают из-за очень мелких и, казалось бы, безобидных действий. Главное, что заметили и исправили
Уже многое выкинула из robots и дубли в 5 раз сократились, но надо будет еще поработать над ним. Для закрытия от индексации использую SEO by Yoast и код.
У меня прописана такая строка: Disallow: /cgi-bin, можно ли ее то же убрать?
Евгения, скорее всего у Вас она пустая и индексировать там роботу нечего, но если имеются форумы или скрипты, использующие каталог cgi-bin, то имеется риск попадания в индекс ненужных файлов. Так что эту строку лучше не убирать.
Спасибо, полезная статья. Я за три года ведения сайта, своими глазами увидел как изменяются требования и поведение поисковых роботов для файла роботс.
Вначале было следование указаниям из этого файла, а затем вступили в силу новые правила. В итоге, я изменял этот файл более 10 раз, пытаясь подстроиться под требования поисковых роботов.
В данный момент, у меня есть отличия в директивах: для все роботов и для Яндекса. Например, для того, чтобы соответствовать требованиям Google по мобильности, мне пришлось открыть доступ его роботу к некоторым файлам. После этого мой сайт сразу прошел тест на соответствие требованиям.
Василий, да — еще 3-4 года назад я тоже писала длиннющий роботс и это работало для запрета индексирования. Но ничто не стоит на месте )))
А для гугла сейчас очень актуален вопрос заблокированных ресурсов. Так же многим приходится прописывать разрешение на js, css, png, jpg и gif файлы.
Александра, а как прописать это разрешение?
Лариса, нужно указать директивы Allow:
Спасибо большое!
Александра, если я правильно поняла, то для Гугла вообще лучше ничего не писать, все-равно зайдет и прочтет. у меня в файле robots.txt он и не упоминается, значит, все правильно.
Вот такой я составила, только для Яндекса. Но у меня нет пробела, как у вас, перед Host, и это меня немного волнует, может нужно его сделать?
Галина, нет. Директиву Host в секции для Яндекса можно указывать так как у Вас.
Александра, отличная статья! Я все это, к сожалению, узнавала на своих ошибках… Зато теперь очень приятно осознавать, что все сделано правильно) Спасибо за подробную информацию!
И не по теме: у вас стоит очень заманчивый баннер по написанию продающих текстов, однако ссылка ведет в никуда.
Заряна, главное в итоге все правильно, без ошибок мало у кого бывает 🙂
Спасибо за подсказку! Исправила ссылочку — заходите, Елена отличные статьи пишет. У нас, кстати, есть ее гостевая статья об уникализации текста.
Прочла статью и …. ужаснулась, очень бы не хотелось прибегать к таким методам уникализации или по незнанию, помещать написанные таким образом статьи копирайтера для своего сайта. Благо этот прием легко проверить по правописанию, такое слово подчеркивается красной волнистой (по крайней мере у вас здесь при написании коммента). Я все же за честный труд в интернете:)
Заряна, о таких методах стоит говорить открыто, иначе как раз таки можно будет «погореть» по незнанию. Ну а в практике дорожащих репутацией и уважающих себя копирайтеров такие методы применяют крайне редко, осознанно и по согласованию с клиентом.
А еще в помощи Гугла на той же странице есть такая фраза: «Файл robots.txt нужен только для сайтов с контентом, который не нужно включать в индекс Google и других поисковых систем.» Мне кажется, это означает, что поисковый робот уже может определить, что файлы стилей, скриптов и .php — это не контент, а ненужная в поисковом индексе информация. Роботу нужна подсказка только в том случае, если владелец сайта хочет скрыть от поиска тексты, изображения, видео и аудио.
Жанна, все верно! Единственно, все-таки стоит учесть, что под словом «контент» имеется ввиду любая информация — веб-страницы, документы, фото- и видео-материалы.
Добрый день!Давно не слышно вас!
У меня вот загадка от яндекса появилась. И не могу понять откуда «ноги растут».
Дело в том, что Я.вебмастер занес ряд страниц в категорию
Исключённые страницы → Страницы запрещены к индексированию вебмастером или не существуют
Значит ли это что где-то метатегом роботс закрыты страницы?
Самое странное, что вид у них такой: http://howtostore.ru/about/http%3A%2F%2Fhowtostore.ru%2Fabout%2F
Как понять, почему яндекс так видит ссылки? Может где-то настройки вордпресса неверные?
Добрый день, Михаил. С такими страницами ничего делать не нужно — http://webmaster.ya.ru/replies.xml?item_no=14590
Другой вопрос откуда робот их взял. Единственное, что могу предположить — при каких-то работах на сайте ссылки начинались со слеша (/) или адрес дважды дублировался. Проанализируйте насколько много таких адресов и сравните даты их появления — может что-то прояснится
У меня проблема была — большая часть постов на сайте Гуглпейдж определял как не оптимизированные для мобильных девайсов. Чего только не делал, пока не обратил внимание на оф. инструкцию о том, что надо бы robots.txt подправить. Удалит запрет — Disallow: /wp-content/themes — и все сразу Гуглу понравилось.
Здравствуйте. Месяц назад обнаружила свой сайт в инструментах вебмастера гугл заблокированные ресурсы с расширением css и js. Блокировалось в robots. Внесла изменения в него, но с блокированием ситуация не изменилась.С начала просто прописала Allow: css и Allow: js. При проверке в инструментах это действие никак не изменяло ситуацию.Все равно писало, что ресурс блокируется именно в robots. Сейчас радикально изменила robots.Теперь при проверке не показывает,что это действие robots,но все-равно блокируется. Александра, а что еще может быть?
Nika, после открытия ресурсов должно пройти время, чтобы гугл снова попробовал получить к ним доступ. Со временем количество заблокированных ресурсов в панели будет уменьшаться.
Александра, а мне надо в инструментах вебмастера-заблокированные ресурсы-страница перейти по всем ссылкам просканировать и отправить в индекс? Или Гугл сделает это все сам? Я в аккаунте, читала, но у меня ощущения нет, что я все правильно поняла.
Google самостоятельно все сделает. При очередном сканировании сайта он получит доступ к нужным ресурсам и уберет их из этого списка
Там же есть кнопка, смотреть как гугл бот, при нажатии он моментально ее сканирует. Кое кто, так, страницы в индекс загоняет. У меня та же проблема, пока открыл папку аплоад.
У меня еще возник вопрос.Включение защиты от хотлинка может блокировать эти файлы?
Я только, что посмотрела у меня вчера еще добавилась одна страничка заблокированная
Нет, защита от хотлинка никак не связанна с заблокированными для робота ресурсами.
В вебмастере перейдите в Инструмент проверки файла robots.txt и введите в поле для URL адрес заблокированного ресурса (картинки, скрипта, стиля и пр.) — если робот подсветит зеленым строку в robots.txt и напишет справа доступен, то повода для беспокойства нету — нужно только время.
Добрый день, Александра. При проверке все подсвечивается зеленым и слово «доступен».Если же сканируешь и отражаешь.Пишет статус- «частично выполнено». Это нормально?
Если есть надпись Доступен, то вскоре заблокированные ресурсы начнут уменьшаться.
…вероятно, из-за этого и ругается у меня. Нужно сделать как у вас. Полностью открыть себя для гугла, а то и внутренние css файлы и скрипты, которые находятся в папках wp- , также скрыты от робота, и в оповещениях это упоминалось. Вот из-за этой директивы по всей видимости (скрин ниже)
Это я комментарии, беспорядочно уже пишу у вас. Читаю снизу вверх. Извиняйте! ))
…и всё равно ошибку показывает.
Денис, директивы правильные, может кодировка или опечатка
Да! Вот Вы подкинули идею. Точно же… ну я дурак )) Кодировка нужно было utf-8 (без bom) поставить. И всё теперь и для гугла всё правильно! Спасибо большое. Проблема решена.
Александра сравнила ваш скрин и то, что вижу в аккаунте .У меня не подсвечивает зеленым цветом. Вот эту строку Disallow: /cgi-bin . Она не правильная?
Ника, зеленым подсвечивается правило, которое срабатывает, а не все. Причин для беспокойства нету
Александра спасибо.Странички из заблокированных начали уходить.
Александра, извините у меня еще возник вопрос. У меня почему-то появилась ошибка странички /not_found. Гугл бот не может ее просканировать. Пишет статус Not found.
Ника, это битая ссылка. Возможно, у Вас на сайте она где-то есть или кто-то другой сослался на несуществующий адрес, робот его увидел и пытается сканировать. С такими ссылками или ничего не делают или перенаправляют на главную или другие (нужные) страницы сайта.
битые ссылки должны отдавать 404 not found
WordPress отдает 404 на любой некорректный адрес. Именно поэтому ссылка помечается как несуществующий адрес и называется «битой».
Вопрос в том, что таких ссылок может быть много и 404-е ошибки в вебмастере могут висеть годами. Если есть желание значительно сократить этот список, то самый просто способ — прописать правили редиректа на главную страницу, например, или на подходящую страницу сайта.
Согласен насчет вашего robots, сам использую такой же+ метатеги для robots от АлаичЪ’а Раньше использовал robots с большим количеством строк, но толку не было если Яндекс еще послушный в этом плане то гуглу вообще плевать на robots…
Александра большое спасибо! Очень полезная статья, — помогла решить вопрос. Есть к Вам огромная просьба: напишите пожалуйста статью по грамотной и самое главное актуальной настройке плагина WordPress SEO by Yoast. Заранее благодарю.
Дмитрий, подумаю над Вашей просьбой. Здесь еще важен вопрос выбора SEO-плагина, потому как WordPress SEO by Yoast не всегда лучший вариант.
Как скрыть рекламу на сайте tetradion.ru реклама Wmlink. Заранее спасибо!
Леонид, если речь о блоке текстовых ссылок в сайдбаре, то они добавляются у Вас динамически скриптом при загрузке страницы и нету смысла дополнительно их скрывать — робот не выполнит этот скрипт и не увидит ссылок.
В поисковике, на выдаче host:tetradion.ru, мне выдает мой сайт с текстом рекламы wmlink, это нормально? Это ведь скажеться на ТИЦ?! Спасибо, за ответ. Добавьте плагин смайликов. KamaSmiles
Весьма неожиданно, что реклама загружается через скрипт и про этом использует выполняемый поисковиками
document.writeln
. Вариант сокрытия — только загрузка .js файла рекламного скрипта через JavaScript.п.с. единственное, не совсем понятно как это связано с robots.txt 😉
Файл Роботс отвечает за индексацию сайта, в целом/отдельно. При проверки хостов, я обнаружил рекламу вмлинк. Теперь стоит ADSENCE и и в роботе прописал следующее :
User-agent: Mediapartners-Google
Disallow:
(http://tetradion.ru/robots.txt)
Леонид, такой код в robots.txt просто разрешит индексацию всех страниц сайта для робота Google AdSense. Преследуемая цель в данном случае — показ наиболее релевантных рекламных объявлений.
От рекламы wmlink просто отказались? Видимо, наилучшее решение 🙂
Александра, спасибо за полезную, а главное, нужную статью! У меня много времени стоить один и тот же файл роботс.тхт, видимо настало время уделить и этому свое внимание.
Я как понял из статьи, в файл функции можно добавить специальный код, который размещен у вас в статье и тогда все упомянутое в коде будет закрыто от индексации? После этого можно вставлять ваш роботс к себе на сайт?
Я как помню, что у меня в файле роботс указан длинный список, теперь понимаю, что это в корне не правильно. Много где читал, что все стоит открыть, но все никак руки не доходили.
Максим, да — все верно. Если добавите в functions.php указанную функцию, то на страницах, которые раньше скрывали через robots.txt, появится мета-тег robots с указанием не индексировать страницу. Этот метод идеален для Google.
А для Яндекса можно оставить отдельную секцию в robots.txt все с тем-же длинным списком — вроде как он более этот метод закрытия от индексации любит.
Александра, спасибо большое за ответ, нужно было перестраховаться перед тем как делать 🙂
Все сделал, вставил код и убрал в роботс-е условия для всех поисковых систем, кроме яндекса.
Надеюсь, что мои действия не повлекут за собой каких-то неприятных сюрпризов))
Я закрыл еще архивы рубрик и страниц. Думаю, что это не нужно индексировать поисковыми системами.
Еще раз спасибо за полезную статью!
Максим, главное условие — чтобы все страницы, которые ранее Вы пытались закрыть через роботс, сейчас были закрыты мета-тегом.
Ну и если имеются дубли страниц с feed, attachment или replytocom — то дополнительно нужно позаботиться о редиректе через
.htaccess
.Вот с .htaccess я к сожалению не знаком… Возможно нужно все вернуть, разобравшись с .htaccess вновь прийти к данной теме. Вы в вкратце не моглибы рассказать как это делаеться, в каком направлении двигаться с редиректом в .htaccess?
Максим, нет, хуже Вы не сделаете. Просто дубли этих страниц у Вас не уйдут из индекса.
По .htacces кратко не получится рассказать :). С его помощью в данной ситуации Вы просто сможете перенаправить многочисленные страницы с
/feed
в адресе на одну общую ленту RSS или на отдельные статьи.У нас на сайте есть пример для перенаправления страниц с replytocom (там буквально две строчки в способах указано).
Самое интересное, что я ещё в июне прошлого года начал убирать море дублей, а в сентябре все равно попал под Панду, так из под неё и не вышел, хотя гарантии, что именно за дубли улетел, конечно же нет…
Odessit, дубли медленно уходят, особенно если речь о 5-ти и более тысячах страниц. Есть примеры, когда 5-7 тыс. дублей только за год полностью выпадают из индекса Google.
Работайте над тем, что любит Google и дело пойдет быстрее 😉 В Google+ попробуйте публиковать анонсы, например, чтобы чаще и активнее индексировался сайт
Александра, спасибо большое за ссылку. Какой все же замечательный у вас сайт — все есть!))
Значит я так понимаю, что дубли они же replytocom, т.е. мое окончание урла на странице в браузерной строке bochki.html#comments, или -o-lete.html/comment-page-1#comments и есть те же самые дубли? У меня нет древовидных комментариев, но думаю в будущем сделать (потенциальные дубли). Вот эти окончания на сайте присутствуют… Буду значить в .htaccess по вашей рекомендации делать.
Это получается файл с названием .htaccess лежит в корне сайта (на хостинге под именем доменного имени), открываем файл и добавляем те две строчки из вашей статьи о replytocom?
Прошу прощение за назойливость, я просто не селен в тех знаниях, которыми вы Александра обладаете. Спасибо вам за доброжелательность и помощь новичкам таким как я 🙂
Максим,
#comments
не попадает под дубли. Это просто якорь и для роботов страницаbochki.html#comments
и простоbochki.html
— одна и та же.А вот
bochki.html?replytocom=1
иbochki.html
— это уже разные страницы, и чтобы избежать пометки одной их них как дубликата, нужно выполнить два условия:1) в robots.txt не запрещать индексацию ?replytocom;
2) на обоих страницах добавить мета-тег canonical с указанием адреса главной страницы (в нашем случае — bochki.html, и делает это обычно SEO-плагин самостоятельно)
Тогда уже и переадресация не понадобится.
Александра, спасибо большое за теплый прием у вас на блоге и за советы, что вы мне дали. На блоге не установлены SEO- плагины, стараюсь использовать минимум плагинов. Сделаю все по вашим рекомендациям. С тем что не понятно пока за это не буду браться, думаю, со временем разберусь 🙂
Максим, заходите ещё к нам 🙂 Скоро появятся новые интересные материалы, будем восстанавливаться после летнего перерыва
Хотел бы уточнить.
Прочитал комментарий Леонида, который пользуясь ADSENCE в роботе прописал следующее :
User-agent: Mediapartners-Google
Disallow:
Я так понимаю, что эти две строчки и надо дописать в начале, кто пользуется данной рекламой?
Забыл дописать.
User-agent: Mediapartners-Google действительно рекомендуется прописывать в конце после всех User-agent: по причине того, что сначала разрешаем индексировать всё, а потом запрещается кое-что в определенных директориях?
Александра, спасибо за нужную информацию. У меня такой вопрос. Недавно заметила, что в Яндексе появилось в два раза больше страниц. Оказалось, что отдельно проиндексировались страницы с картинками. Хотя в настройках у меня идет при добавлении картинки ссылка на медиафайл, а не на страницу вложения. Вы не подскажете, что надо прописать в роботс, чтобы запретить индексировать эти страницы?причем в Гугл у меня таких страниц нет, только в Яндексе появились…Заранее спасибо!
Александра, спасибо за статью. Очень познавательно. Даже подписался на Ваш блог (а где расположен закрытый контент, код к которому я получил?).
Я прошу прощения, но у меня дилетантский вопрос по теме: стоит ли закрывать папку themes на моем сайте http://text-center.ru?
То есть нужно ли мне прописывать в robots.txt строчку:
Disallow: /wp-content/themes ?
Заранее благодарю за ответ.
С уважением,
Сергей
Сергей, в некоторых статьях (например, здесь) есть текст, который виден только после ввода пароля.
Закрывать каталог themes не рекомендую, Google будет ругаться за заблокированные ресурсы (.js и .css файлы).
Александра, многие сеоспециалисты рекомендуют закрывать папку themes только для того если шаблон темы не адаптирован под мобильную версию, а если есть мобильная версия — тогда открывают. Все правильно?
Нина, мы с Владимиром не рекомендуем вовсе что-либо закрывать лишний раз. Да и файлы со скриптами, картинками и стилями есть не только в папке themes (они еще в wp-includes встречаются, и в wp-content/plugins).
Раньше нужно было это делать, сейчас — не стоит.
Александра, здравствуйте! Благодарю Вас за полезный совет. Так и сделаю.
P.S. Прошу прощения, почему-то не получил уведомления о Вашем ответе ранее.
Закрываете индексацию в случае если тема не уникальная, если вы её сами писали, зачем скрывать от индексации? Это не повлияет на ТИЦ. У меня сейчас ТИЦ 10. Тема уникальная. Поздравьте меня, как с днём рождения! =) tetradion.ru, если что. Удачи в сети, в семье, в пространстве! Всё будет чики-пики!
Ой, как много комментариев! Все даже не смогла осилить. Здравствуйте! Брожу вот по сети в поисках ответа на вопрос, что делать с роботами Bing. Смотрю, на всех сайтах каждое посещение с этой поисковой системы дает 100-процентный отказ. Наверное, стоит его не пускать? Или есть другие мнения? Буду благодарна за ответ.
Можно прикрыть доступ бингу, если сильно бесит. Обычно с него переходов ничтожно мало, чтобы они сильно влияли на общую статистику. Решать Вам.
добрый день! в корне сайта есть папка, в которой находятся php файлы( в них спрятаны партнерские ссылки)! благодаря чему, сылка на партнерку имеет вид: сайт.ру/партнерка.php. гугл добавил все такие ссылки в индекс. как их скрыть от робота? в эти php файлы же никак не прописать метатег robots
Алексей, если в php-файлах нету
html
разметки с тегомhead
, то может тогда переименовать файлы что-то служебное, что не увидят поисковые системы (и убрать запрет изrobots.txt
). Например, назвать файлы как.reflink-1
,.reflink-2
— это обычный ведь текстовый файл у вас и скрипт, который читает данные из этих файлов, не должен испытывать трудностей (просто имена замените на нужные).Здрасвтвуйте, почитал ваши статьи, очень даже неплохо написано. И на этой ноте решил перенести сайт с джумлы на вордпрес, но вот интересует такой вопрос, как мне сделать правильно переадресацию страниц, чтобы не потерять ту не большую посещаемость которая накопилась.
Александр, Вам обязательно нужно делать перенаправление со старых адресов на новые с помощью
.htaccess
, используяRedirect
/RedirectMatch
илиRewriteRule
со статусом 301.В
robots.txt
при корректно настроенном перенаправлении, дополнительно писать ничего не придется (связанного со сменой адресов).Здравствуйте, почти всё изучил, спасибо за работу.
Индексация страниц в Гугле растёт и уже в 10 раз больше рабочих страниц.
Решил заменить роботс, и поставил рекомендованный Вами
User-agent:*
Disallow:/wp-admin
Host:site.ru
Sitemap:http://site/ru/sitemap.xml
О результатах доложу. Хочу спросить что изменится если вместо Disallow:/wp-admin
поставить Disallow:/wp- Может это то что мне надо? У меня сайт информационный -услуги. Всего 17 страниц, только информация и фотки.
Спасибо, Василий.
Ещё , забыл. Сейчас очень актуально, WP-json что это? Яндекс у меня уже 10стр нашёл.
Disallow:/wp-admin эта строка не защитит, а эта Disallow:/wp-
А может только для Яндекса оставить Disallow:/wp-
Мне бы определиться уже с роботс, а то боюсь наиндексирует Яндекс всякого мусора пока буду думать.
Спасибо, Василий.
Василий, да — для Яндекса можно прописать вот так:
А Гугл вообще не упоминать?
Если запретить Google индексировать стили и скрипты, то он будет ругаться на заблокированные ресурсы. Поэтому да — для него ничего не нужно указывать
WP-json — это скрипты недавно вышедшего в свет WP RESP API, с помощью которого можно считывать данные сайта и управлять ими по HTTP. Это актуально для сайта, если Вы подключаетесь к своей админке не только с браузера, а еще и с мобильного приложения или недавно вышедшего WordPress под Windows 10
А если я подключаюсь только с браузера, то мне нужно этот WP REST API как то ликвидировать или обезвредить?
Василий, да — если Вы уверенны, что во включенном WP REST API нет необходимости, то можно отключить этот функционал:
…не увидел!
— тоже лишний мусор, который полез после обновления вордпресс. Уже писал видео на эту тему. Добавляется несколько строк, также как и для запрета индексации. В тот же файл, функции, вашей темы.
Денис, да — актуальный вопрос после обновления. Добавила в статью по этой теме.
Дельная статья! Вероятно, я заметил ошибку. Поправьте, если так: «Если в одном файле Host указан несколько раз, то будет учтена только последняя. » …. Дело в том, что сам яндекс говорит обратное: «Примечание. Для каждого файла robots.txt обрабатывается только одна директива Host. Если в файле указано несколько директив, робот использует первую.»
Также, актуален вопрос, на который не мог найти ответ ))… По поводу директивы: User-agent: * …. актуальна ли она для гугла, елси он на неё ругается? «Синтаксис не распознается». А у яндекса всё правильно!
Денис, да — действительно опечатка! Сейчас поправим. Конечно же, Яндекс учитывает только первую директиву Host
Александра, в коде для вывода метатегов, вы случайно, наверное, забыли дописать OR после is_search()?
Василий, нет — после последнего условия внутри
if
оператор не ставится.Здравствуйте, Александра.
Спасибо что помогаете и словом и делом.
По Вашим рекомендациям сменил Роботс на сайте.
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-
Disallow: /feed/
Disallow: /tag
Host: site.ru
Sitemap: http://site.ru/sitemap.xml
User-agent: YandexImages
Allow: /wp-content/uploads/
Так долго Яндекс работает, что ничего не понятно с результатами изменений. При анализе Роботс в Вебмастере, пишет что используется 7 строк, т.е. для YandexImages разрешение не работает? Чтобы разрешить картинки из wp я правильно сделал? Для Гугла вообще ничего, мне кажется ему стало легче.
Спасибо.
Василий, при проверке robots.txt в Яндекс.Вебмастере проверка производится для робота с именем Yandex. Именно поэтому и пишется, что использует 7 строк. В целом у Вас всё корректно прописано.
Попробуйте включить логи на сервере (в панели хостинга это можно сделать, или запросить в техподдержке) и через время поискать заходы от
Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)
Спасибо, что то никак не получается угостить Вас чашечкой кофе, буду пробовать ещё.
Василий, проверили сейчас — все работает. А куда пытаетесь платить, на WebMoney?
Каким образом вы это проверили?
Через google developer tools можно посмотреть заголовки (headers)
Вы заблуждаетесь. Worpress не проставляет автоматом X-Robots-Tag. Вот проверка: http://joxi.ru/823lDau6MNbYAO
11 строчка пустая.
А как раза там и должен быть X-Robots-Tag: noindex
Вот в так это должно выглядеть:
http://joxi.ru/DrlZJ8f45W6q2P
Nikolay, да, действительно. Возможно, при написании статьи и проверке этиx данных X-Robots-Tag добавлялся моим .htacces. Исправила этот момент в статье, дабы не вводить в заблуждение.
Мы ведь и так знаем, что внутренние страницы админки под паролем и робот никак не сможет их проиндексировать 🙂
Вот теперь согласен с вами 🙂
Но лично я всё же предпочитаю прописывать запрещающие директивы. Хуже не будет, во всяком случае в данное время. Робот сразу видит куда ему есть доступ через эти правила и думаю ему так проще 🙂
Александра, подскажите как правильно указать страницу открытую для индексации в robots.txt и при этом закрыть все остальные. сайт сделан на ворд пресс. url адреса формируются автоматически из названия страниц. Например:
Allow: /xn——6cdchdlffbbdbbag7amb4alualdhubewh5c6csl7h2dzgh.xn--90ais/mezhkomnatnye-dveri-iz-massiva/
Вопрос — должна ли данная строчка заканчиваться слешем? или его убрать или дописать .html
Таким образом я собираюсь указать все страницы требующие индексации и закрыть весь сайт Disallow: /
И еще вопрос — как правильно указать главную страницу открытой для индексации
Allow: /xn——6cdchdlffbbdbbag7amb4alualdhubewh5c6csl7h2dzgh.xn--90ais/
Так? нужен слеш? или дописать .html
За ответ — Большое спасибо!
Алексей, для Google закрывать от индексации нужно мета тегом robots, а не файлом robots.txt, иначе будете иметь проблемы с дублями
сделал следующее правило.
User-agent:*
Disallow: /*1*
Disallow: /*2*
Disallow: /*3*
Disallow: /*4*
Disallow: /*5*
Disallow: /*6*
Disallow: /*7*
Disallow: /*8*
Disallow: /*9* Все страницы которые нужно было закрыть содержат цифры, поэтому данное правило работает и вроде подходит.
Александра, большое спасибо за статью, особенная благодарность за параграф «Индекс Google + некорректный robots.txt = ДУБЛИ» . Надеюсь с этой информацией вылезу из ручных санкций Гугли. Успехов Вам!
Зашёл совсем случайно!! …но с пользой !! увидел строку кода о которой совсем подзабыл поправить…
Вот вить как бывает!! Спасибо…
Подскажи а этот робот для вордпрес нормальный или что добавит или убрать? Подскажите плиз!
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Sitemap: http://сайт.ru/sitemap.xml
Нет, ерунда. Нельзя закрывать в роботе страницы, они потом в сопли (дополнительный индекс) посыпятся с пометкой «Описание веб-страницы недоступно из-за ограничений в файле robots.txt»

Вот так, к примеру, будут выглядеть ваши trackback:
Если хотите закрыть от индексации страницы, делайте это через
<meta name=»robots» content=»noindex,nofollow» />
Добрый день. Хотелось бы узнать работает ли данная функция в данное время, актуально ли ее использования для борьбы с дублями WP, судя по вашему файлу роботс то вы все еще пользуетесь ей? И куда устанавливать данную функцию?
Денис, функция рабочая. Ставьте в functions.php (желательно вашей личной дочерней темы ил вообще в свой специальный плагин вроде FunctionsPHP)
для тех кто в танке, в частности для меня. Если я начал делать новый блог на вордпрессе, мне не надо париться, а просто вставить
User-agent: *
Disallow:
Host: sitename.com
и настроить yost? просто я сперва all in seo поставил. Если yost настроен мета-тег robots не надо прописывать отдельно? я извиняюсь, если чет глупое спросил, просто вчера только начал разбираться.
У меня примерно так и было настроено, но ваш метатег более полный, переставлю ваш и сделаю плагин функций, по вашей рекомендации.
Скажите пожалуйста а первую строчку тоже можно в плагин добавить, с этим текстом? / Добавляем свой /.
можно ли закрывать битые ссылки в файле Роботс? как их убрать в пром.юа?
Здравствуйте, установила ваш плагин функций, а в нем полностью ваш мета-тег . Буквально через 3 дня в Яндексе перестала индексироваться половина нормальных статей. Написала в тех. помощь Яндекса, оттуда пришел ответ, что необходимо убрать мета -тег.
Как-то я не очень поняла в отношении 2 слешей и все их из кода мета- тега убрала. Может быть в этом дело.
Чуть раньше стоял подробный robots.txt, тогда в Гугле появилась масса заблокированных ресурсов. Записала несколько директорий, в файл роботс, как Гугл предлагает. Гуглу понравилось, а Яндекс поставил напротив сайта красный восклицательный знак — критическая ошибка. Уже месяц мучаюсь с этими запретами, не могу найти золотую середину. Сейчас просто в замешательстве.
Ксения, если вы в коде убрали все слеши — вы автоматически запретили индексацию всего сайта! Использовать этот код нужно было в исходном виде и менять что-то только если понимаете, что делаете.
здравствуйте, У меня сейчас продолжаются проблемы в Яндексе из-за мета-тега robots. Вставила ваш код и пол сайта вылетело в течение 3 дней из индекса. Вот эта первая строка в коде является шлагбаумом для робота, дальше он никуда не идет и что ниже написано не читает, а просто все выбрасывает .
Это не домыслы, а факты, которые сейчас происходят с моими сайтами.
Выше ответила в чем проблема. Вам нужно вернуть код в то состояние, в котором я его опубликовала в статье. И в дальнейшем не советую вносить какие-либо изменения или дополнения, связанные с PHP кодом. Без точного понимания что именно в коде написано, вы рискуете нанести непоправимый вред своему сайту.
Да уж! С мета тегом у меня промашечка получилась, но ничего, как раз сегодня сайты настраиваться начали опять. Вы там сами что-то такое написали про слеши, я так поняла, что их лучше убрать.
Вы большая умница и вам большое искреннее спасибо!
Александра, на сайте генерируются ссылки типа с окончанием /linked , показаны как битые с кодом 404 , подскажите, пж, как их закрыть , и вообще откуда они берутся, ставила плагин, не помогло, спасибо
Ольга, пробуйте отключить все плагины и проверить останутся ли ссылки. Закрыть можно редиректом в .htaccess, но причину появления их это не решит
Здравствуйте, Обращаюсь к вам на блог потому что не могу войти на форум, появляется вот такое сообщение: «Сайт wp-puzzle.com неожиданно разорвал соединение. Так несколько раз, перед этим сделала сброс пароля, но опять пароль не принимается. У меня была хорошая связь с вашей тех поддержкой на почте mail. ru, но похоже что я им надоела, они меня на форум отправляют, а там не получается связи.
Спасибо Вам за статью и за сайт в целом. Присел на него. пятый час читаю. Скажите а статья про настройку плагина Yoast Seo есть? Я новичок. Хочется все правильно в начале сделать.
По настройке SEO плагинов нету
Здравствуйте подскажите как открыть для индекса рубрики?
Павел, по-умолчанию они не закрываются. Проверьте настройки SEO плагина. В коде со статьи должна быть закомментирована (или удалена) строка
//is_category() OR // архивы рубрик
Добрый день! На моем сайте Гугл заблокировал более 200 страниц. С каждым днем их количество возрастает. В robots для Гугла разрешено почти все, кроме /wp-admin/. Я не знаю, что делать. Некоторые советуют убрать все счетчики или не обращать внимание на блокировку посторонних robots, что со временем все пройдет. Пожалуйста, подскажите.
Светлана, скриншот очень маленького размера, но я рассмотрела там файлы скриптов. А значит, блокируются ресурсы (стили, скрипты, изображения темы) и само не пройдет. Попробуйте эту опцию добавить
Александра, большое спасибо за помощь. Я попробую так сделать и надеюсь, что все образуется.
Александра, большое спасибо за советы! Блокировка уменьшилась от 250 до 40 и постепенно падает. Вы очень мудрая 🙂
Добрый вечер! Пишу комментарий на свой комментарий! После того, как в robots-е Гугл получил доступ ко всему, я сегодня посмотрела на функционирование сайта в Поиске и ужаснулась. Какая-то белиберда, все картинки пропали, выдает все что попало. Возвращаюсь к старому robots-у, пусть что будет, то и будет :((
Доброго времени суток.
Очень полезная статья, много нужного почерпнул.
Подскажите пожалуйста, есть такой вопрос. С тем, что страницы сайта закрывать для гугла нельзя — понятно. А что делать с каталогами /wp-admin, /wp-includes, /wp-conten, /cgi-bin и др. (и файлами /wp-login.php и т.д.) не совсем понятно: их стоит закрывать для гугла и яндекса? и можно ли это сделать в плагине, или все-таки (если нужно) закрывать в файле robots.txt?
Заранее спасибо.
Сергей, в закрытии этих файлов нет необходимости
….небольшая поправка: «С тем, что страницы сайта закрывать для гугла нельзя — понятно.» — имел ввиду средствами файла robots.txt. Убедился, что это однозначно в случае с Google лучше делать мета-тегом.
Мне не совсем понятно как можно тогда правильно и корректно для google закрыть от индексации каталоги и файлы сайта.
И здесь два вопроса:
1 Вообще нужно ли закрывать каталоги /wp-admin, /wp-includes, /wp-conten, /cgi-bin и файлы /wp-login.php и другие системные? И если нужно, то как?
2. Как закрыть другие каталоги и файлы сайта, добавленные мной, содержащие личную информацию? Закрывать паролем в моем случае не совсем подходит. Можно ли их закрыть посредством плагинов (например того же All In One SEO Pack) или такое не будет ошибкой закрыть файлом robots.txt?
Если в корень сайта добавляли свои каталоги и их нельзя индексировать — тогда их нужно закрывать именно в robots.txt, через All In One SEO вы их не сможете закрыть, т.к. к CMS созданные вручную каталоги не имеют отношения
Мне нужно удалить 4000 страниц которые появились не понять откуда. Уже сломала голову как избавиться от этих страниц. Подскажите, если мне нужно удалить из индексации станицы которые начинаются с адреса recipesdays.ru/yeezy- и заканчивающиеся .htm Правильна ли следующая запись в файле робот text :
User-agent: *
Disallow: /yeezy-*.htm
Да, такой шаблон подойдет под все адреса. Аналогичный пример был в статье:
Добрый день, Александра!
Я где-то читала, что в таком случае рекомендуют ставить знак доллара ($), который обозначает конец строки. То есть — Disallow: /page-*.php$
Есть ли в этом действительно необходимость? Или нет?
Спасибо.
можно, но по факту не обязательно
Здравствуйте, Александра!
Подскажите, пожалуйста, такая запись в robots.txt :
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Можно заменить на такую?:
Disallow: /wp-
На сайте же все что начинается на wp не должно попадать в индекс, я правильно понимаю?
Да, верно. Именно такой пример я приводила в статье и уточняла, что он будет делать.
Но добавлять его в robots.txt я не советую, так как сразу же станут запрещенными к индексации:
— все изображения в каталоге
/wp-content/uploads/...
(т.е. все фото-материалы сайта)— все стили/скрипты/картинки плагинов
/wp-content/plugins/...
— стили/скрипты/картинки шаблонов
/wp-content/themes/...
В итоге в Google вебмастере появятся уведомления о заблокированных ресурсах.
User-agent: *
Disallow: /wp-admin
User-agent: Yandex
Disallow: /wp-admin
Извините вот так пойдет
Не подскажете, а как удалить страницы из Гугла из Яндекса страницы удалились, когда я прописала их в robots.txt, а Гугл на этот файл не реагирует.
Добрый день! Помогите, пожалуйста, разобраться. Ситуация такая: сначала в вебмастере пришло сообщение «Отсутствуют мета-теги «, начала искать, поняла, что картинки (attachments) проиндексировались и открываются отдельными страницами. Сделала редирект следующим образом: вставила код в image.php post_parent));
?> . Теперь при переходе на ссылку изображения, попадаю на нужную статью. Вроде как, так и правильно. НО, оповещение в вебмастере все также висит. Нужно ли предпринять еще какие-либо действия, или страницы с фото по-тихоньку сами будут удаляться? И как долго это может происходить?
Заранее спасибо за ответ!!! Все перерыла, не могу найти нужную инфо.
post_parent));
?>
этот код вставила в image.php
Для кода нужно использовать тег, он так и не загрузился 😉
Юлия, процесс затягивается на несколько месяцев — все зависит от скорости повторного обхода роботами этих же страниц
Здравствуйте. Мучаюсь с этими robots.txt. Скажите, пожалуйста. Вот есть сайт http://rusnarkolog.ru . В нем вот такой robots. Не подскажите, что нужно убрать? 6-ой месяц идет, на посещаемости нет( Все уникально, составлял СЯ, под ключи статьи писал по наркологической тематике… Вот думаю, может в robots.txt дело…
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: rusnarkolog.ru
Sitemap: http://rusnarkolog.ru/sitemap.xml
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
Убрать можно почти все из первой секции, такой роботс как раз и приводит к дублям в гугле — в статье я делала акцент на этот момент
Люди подскажите, вот что я делаю не так, состав моего робот.тхт следущий:
User-agent: *
Disallow:
Sitemap: https://in-heat.kiev.ua/sitemap.xml
Host: https://in-heat.kiev.ua
Добавляю в гугл серч консоль 4 страницы, индексируется только одна, на остальные пишет что запрет в робот.тхт., при этом при проверке в гугл панели, пишет что доступ к страницам есть.
Пришлось удалять полностью робот.тхт, только тогда ошибка предупреждения исчезают.
Александра, огромнейшее спасибо!!! Ваша информация и её подача многое разъяснила. Будем дерзать!
Добрый день,
У меня sitemap очень большой и пришлось разбить его на несколько файлов
— был создан sitemap-index.xml в котором прописаны файлы на которые разбит (sitemap-pages-1.xml, sitemap-pages-2.xml ….)
— созданы сами файлы — sitemap-pages-1.xml …
Такой вопрос — В robots прописывать все эти файлы т.е. sitemap-index.xml и sitemap-pages-1.xml … sitemap-pages-2.xml … sitemap-pages-3.xml
или достаточно только индекс — sitemap-index.xml
Денис, достаточно прописать только sitemap-index.xml
Так как у меня были вписаны все файлы — могло ли это повлиять на то что страницы стали выпадать из индекса?
Денис, нет — в роботс можно указывать как одну карту, так и несколько. Но их количество точно не влияет на выпадение из индекса.
Спасибо! А можно у вас заказать анализ сайта с советами по оптимизации? Как свами можно связаться (viber, watsapp, skype)?
Денис, анализ можно заказать, конечно же. Пишите на обратную связь здесь, мы ответим по email, вышлем примеры анализа.
Спасибо вам за ответ!
Благодаря вашей статье пересмотрел подход к формированию файла роботс. Спасибо за доходчивый материал.
Здравствуйте.
А как закрыть страницы с # в адресе?
Ссылки с # в адресе — это якоря. Т.е. это два идентичных адреса:
Эти «якоря» индексируются и появляются как дубли страниц в поиске яндекса, сейчас как раз ищу информацию как в роботсе или htacess. закрыть их от идексации…в роботсе проблема…
не слышала о таком, чтобы якоря индексировались как отдельная страница, но Яндекс конечно может все. В любом случае, если у Вас на странице прописан canonical без якоря, то страница не станет помечаться как дубль. Canonical прописывают тот же SEO Yoast или All In One SEO
Спасибо полезная информация
Александра на блоге стоит плагин WP fastest cache. Кэшированные страницы он помещает в папку /wp-content/cache. Вы пишите что роботу не надо ограничивать доступ в эту папку. Но ведь там полная копия страниц сайта, и в них конечно же никак не указано что это копия. Как быть?
Сергей, пропишите отдельный запрет именно на каталог
/wp-content/cache
. Нельзя закрывать весь/wp-content
У меня стали появляться в индексе вот такие страницы https://olgushka1971.ru/kulinariya/mannik-na-kefire-retsept-klassicheskij/1955672, с одной только статьи, их уже около 3000. Яндекс сказал, что нужно закрыть их в роботсе, а как сделать? подскажите?
Ольга, для начала нужно разобраться откуда такие страницы появляются. Они не типичны для WordPress, или некорректный код где-то есть, или вирусы.
Здравствуйте. Подскажите пожалуйста, если одна и та же запись помещена в две рубрики (категории) одновременно, но в robot.txt прописано Disallow: /category будет ли это дублем?
Адреса рубрик: http://ecoplanet777.com/category/poleznye-sovety/
http://ecoplanet777.com/category/video/
Или надо добавить Disallow: /category/video ???
Спасибо!
Степан,
если одна запись помещена в две или более рубрик, адрес у нее все равно будет неизменный.
А
Disallow: /category
вообще запретит роботу индексировать страницы любой категории.Может я неверно поняла вопрос?
Добрый день. Я применила советы из статьи.Заблокированные ресурсы стали уменьшаться.
Но Яндекс ведет себя страно, он без конца индексирует какие-то sitemap-misc.html, а потом исключает их из индекса.
Не могу понять, нужно, чтобы они были проиндексированы (все-таки файлы карты сайта от плагина Google Sitemap Generator Plugin) или нет.
Мета-тег копировала из статьи, слеши не трогала.
Ольга,
sitemap-misc.html
не похоже на файлы Google Sitemap Generator Plugin, у тех должно быть.xml
в концеДобрый день!
А почему на вашем сайте такой простой robots.txt?
User-Agent: *
Disallow:
Host: avovkdesign.com
Sitemap: https://avovkdesign.com/sitemap.xml
Или вся информация уже не актуальна?
Вся информация актуальна. Такого robots.txt вполне достаточно, если корректно настроен SEO плагин, добавляющий мета тег robots на страницы сайта.
Здравствуйте! Подскажите у меня стоит плагин All in one Seo pack с помощью него создавался файл robots.txt после оновления плагина в редакторе файлов исчезла опция редактирования файла robots.txt осталсь только функция редктора htacces. Как мне редактировать файл robots физически в корне сайта нет файла,нписно,что он только в базе данных есть. Нахрен мне такой плагин нужен,подскажите пожалуйста как мне отредактировать файл robots
Сергей, насколько помню в All In One SEO есть меню Управления модулями, где можно включить/выключить модуль для robots.txt. Если в корне сайта robots.txt нету — просто создайте его сами.
Здравствуйте, Александра. Подскажите пожалуйста: страница сайта http://site.com/o-nas/otzyivyi/ дорабатывается, поэтому в индексе не нужна. Прописали в роботсе директиву Disallow: /otzyivyi/, но страничка все равно попадает в индекс. Где ошибка?
Для гугл корректнее для этой страницы прописать мета-тег robots. Если решили через robots.txt, тогда
Disallow: /o-nas/otzyivyi/
прописать. Запрет на индексацию робот увидит при следующем обходе сайта (т.е. это не сразу сработает, а после переиндексации поисковой системой)Отличная статья, спасибо!
Добрый день!
Я заказывал платно сайт на WordPress.
Прошло более года,, индексация в Google есть, а Yandex не признает мой сайт нив какую.
robots.txt следующего содержания.
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Если не в нем дело, то где мне искать блокировку Яндекса?
скорее всего блокировка Яндекса не связана с роботс