Очень больная тема для любого специалиста, связанного с SEO - правильная индексация сайт поисковыми системами. Постоянно в индекс залетает большое количество ненужных страниц, даже если вы запрещаете что-то в robots.txt.
Для своего файла robots.txt я взял за основу рекомендации wp-kama и дополнил их некоторыми своими директивами.
Мой robots.txt:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp/
Disallow: /?
Disallow: *?s=
Disallow: *&s=
Disallow: /search
Disallow: /author/
Disallow: */embed
Disallow: */page/
Disallow: */xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Disallow: /*.pdf$
Disallow: /*.doc$
Disallow: /*.docs$
Disallow: /*.xls$
Disallow: */wp-*/*.pdf
Disallow: /wp-
Allow: */wp-*/*ajax*.php
Allow: */wp-sitemap
Allow: */uploads
Allow: */wp-*/*.js
Allow: */wp-*/*.css
Allow: */wp-*/*.png
Allow: */wp-*/*.jpg
Allow: */wp-*/*.jpeg
Allow: */wp-*/*.gif
Allow: */wp-*/*.svg
Allow: */wp-*/*.webp
Host: https://site.ru
Sitemap: https://site.ru/sitemap_index.xml
Основной проблемой до недавнего времени было наличие в индексе большого количества файлов из wp-content, которые не нужны в индексе поисковиков.
Недавно поменял директивы на всех своих сайтах по аналогии с тем, что привел выше. Буду наблюдать за ситуацией и за тем как быстро из индекса удалятся ненужные файлы и папки.
Опыт подсказывает, что у качественных проектов количество страниц в индексе Google и Yandex должно совпадать или быть очень близким.