seo Сканирование и Индексирование - какая разница, зачем нужен Robots.txt что он запрещает, а что нет

Сканирование и Индексирование - какая разница

Сканирование - процесс обхода страниц поисоковым ботом, на этом этапе бот качает страницы, то что скачал, еще не означает, что страница будет проиндексирована и окажется в поисковой выдаче

Индексирование - можно понимать как "помещение в поисковую выдачу", т.е. по какому-то запросу в поисковике эта страница может быть показана

Как связаны сканирование и индексирование

Без сканирования проиндексировать страницу не получится, но и для выбрасывания из индекса уже проидексированных страниц просто запретить их сканирование не получится, ведь, чтобы узнать, что страница теперь закрыта, боту нужно на нее зайти (и увидеть обновления о запрете, подробнее см. ниже), а с запретом на сканирование это не выйдет

Robots.txt - зачем нужен, за что отвечает

Файл robots.txt отвечает именно за настройки сканирования, что само по себе не влияет на индексацию.

Поисковый бот, прежде чем качать страницы, должен проверить разрешено ли качать эту страницу, если да - то от может выкачать её ("обойти") и только после выкачивания понять - подходит/разрешена ли она для индексации или нет

Как управлять сканированием - напр. как запретить

Через Robots.txt можно запретить сканирование разделов или конкретных страниц (по-умолчанию поисковики индексируют контент), в правилах также доступно разрешение сканирования (побробнее см. в Сети)

Как запретить индексацию

Чтобы запретить индексацию, нужно, чтобы страница отдавала каким-то образом признак того, что ее не стоит индексировать, отдавать в поисковой выдаче, делать это можно напр. для всей страницы в том числе так:

Также можно запретить индексацию некоторых фрагметов страницы

Как убрать из поисковой выдачи страницы

Если у вас были страницы, которые показывались в поиске, но теперь вы хотите скрыть их, то действуем так:

  1. Начнем отдавать для них noindex тем или иным способом
  2. Только когда бот обойдет их (а это займет время) можно добавить раздел/страницу как запрещенную к сканированию в robots.txt

-- важно: начинать с robots.txt нельзя, т.к. иначе бот наоборот не станет заходить на эти страницы и не узнает, что их нужно убрать их выдаче.

Запрет на сканирование сам по себе не является указанием к удалению из поисковой выдачи!