robots.txt

Очень больная тема для любого специалиста, связанного с SEO — правильная индексация сайт поисковыми системами. Постоянно в индекс залетает большое количество ненужных страниц, даже если вы запрещаете что-то в robots.txt.

Для своего файла robots.txt я взял за основу рекомендации wp-kama и дополнил их некоторыми своими директивами.

Мой robots.txt:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp/
Disallow: /?
Disallow: *?s=
Disallow: *&s=
Disallow: /search
Disallow: /author/
Disallow: */embed
Disallow: */page/
Disallow: */xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Disallow: /*.pdf$
Disallow: /*.doc$
Disallow: /*.docs$
Disallow: /*.xls$
Disallow: */wp-*/*.pdf
Disallow: /wp-
Allow:    */wp-*/*ajax*.php
Allow:    */wp-sitemap
Allow:    */uploads
Allow:    */wp-*/*.js
Allow:    */wp-*/*.css
Allow:    */wp-*/*.png
Allow:    */wp-*/*.jpg
Allow:    */wp-*/*.jpeg
Allow:    */wp-*/*.gif
Allow:    */wp-*/*.svg
Allow:    */wp-*/*.webp

Host: https://site.ru
Sitemap: https://site.ru/sitemap_index.xml

Основной проблемой до недавнего времени было наличие в индексе большого количества файлов из wp-content, которые не нужны в индексе поисковиков.

Недавно поменял директивы на всех своих сайтах по аналогии с тем, что привел выше. Буду наблюдать за ситуацией и за тем как быстро из индекса удалятся ненужные файлы и папки.

Опыт подсказывает, что у качественных проектов количество страниц в индексе Google и Yandex должно совпадать или быть очень близким.

Была ли эта страница полезной?