Файл robots.txt для блога

Сегодня хотел поговорить с вами об очень актуальной теме для всех начинающих блогеров. Речь пойдет о неком файле, который называется Robots.txt. В начале создания сайта или блога, начинающие вебмастера либо совершенно не знают о его существовании, либо забывают о нем, либо просто составляют его неправильно. В сегодняшнем посте я постараюсь представить полную картину о том, что такое файл robots.txt. Как его правильно составить? И как его скормить поисковым системам? Итак, начнем!

robots.txt

Это файл, который располагается в основной папке вашего блога (например, в папке /public_html). Он содержит в себе инструкции (рекомендации) для роботов поисковых систем ( \например, инструкцию для робота Googlebot от Гугла). С помощью этого значимого файла можно, как запретить, так и разрешить индексацию как всего блога, так и определенных страниц и разделов, указать основное (главное) зеркало, а также прописать путь к Sitemap (карте сайта). Полезность Robots.txt можно наблюдать на примере закрытия от индексации технических разделов. Если технические или служебные страницы открыть для индексации, то поисковая система исключит из индекса эти страницы.

Файл robots.txt cлучайно может закрыть и полезные страницы вашего блога, что вполне негативно может сказаться его на дальнейшем продвижении.

Как создать файл robots.txt?

Создать файл Robots.txt можно с помощью обычного блокнота, разрешите по рекомендовать вам Notepad++, либо Akelpad, которые имеют ряд преимуществ перед обычным блокнотом. Далее его нужно переместить в корень вашего блога, а конкретнее в папку «/public_html», которая располагается на хостинге. Первое, что делает робот, который приходит от поисковой системы (например, Googlebot), когда приходит на ваш ресурс, то начинает чтение этого файла.

Как настроить robots.txt

Для того, чтобы настроить Robots.txt, мы будем использовать 3-и основные директивы.

  1. User-agent.
    При помощи этой директивы, мы будем давать указания на то, какая поисковая системы может индексировать наш ресурс.
    Например:

    User-agent:Yandex.

Либо, при помощи значка «*», можем разрешить индексацию для все возможных роботов. Например:

User-agent:*

  1. Dissalow.
    Dissalow — это команда, которая указывает роботу, который пришел от поисковика, какие страницы закрыты от него для индексации. Например, если мы пропишем следующие строки:

User-agent:*
Dissalow:/

то, мы запретим индексацию абсолютно всех страниц, разделов, папок и категорий ресурса. А если немного изменить эти строки, например:

User-agent:*
Dissalow:

то мы автоматически разрешим, чтобы в индекс попали абсолютно все страницы, разделы, папки и категории блога.

  1.  Allow.
    Это директива, которая разрешит индексацию всех элементов, которые в ней указаны. А вот теперь поговори о том, что же нам необходимо запретить, а что разрешить для сканирования роботом. Страницы, которые в будущем могут навредить нашему блогу, создавая дубляж и скапливая мусор должны попасть под запрет. В первую очередь в их число попадут служебные, технические и системные файлы. А конкретнее:

— wp-content/
— wp-admin/
— wp-includes/
— wp-pass.php
— wp-login.php
— wp-register.php

Естественно, все что находится в папках «wp-content», «wp-admin», «wp-includes» можно и не запрещать, то есть делать исключение, на какую-нибудь вложенную папку ли файл. Например, у нас имеется папка «wp-content», в ней вложена папка «uploads», в которой в свою очередь содержатся все картинки и изображения, которые присутствуют на вашем ресурсе. Большинство из этих изображений оригинальны. А для того, чтобы на ваш сайт приходили посетители не только по поиску статей, но и по поиску изображений, то я советую добавить эту папку в список разрешенных для проверки роботом. Как это сделать?

При закрытие каталогов от проверки, нужно указать все файлики, которые в нем содержатся, например:

Disallow: /wp-content/languages
Disallow: /wp-content/upgrade
Disallow: /wp-content/themes

Ту папку, которая не будет указана для закрытия, будет автоматически проверена и проиндексирована. Либо можем использовать директиву Allow, например:

Allow: /wp-content/uploads

Важным моментом является запрет дублей страниц, который осуществляется следующим образом:

В ленте RSS:

Disallow: /feed/
Disallow: */feed

В Трэкбэках:

Disallow: /trackback
Disallow: */trackback

Для комментариев:

Disallow: */comments

Для результатов поиска:

Disallow: /*?*
Disallow: /*?

Для категорий:

Disallow: /category/*/*

Приведу вам в пример готовый robots.txt, который уже сейчас можно смело ставить на сайт и пользоваться. Ах да, я совсем забыл вам сказать об одной вещи. Как сделать так, чтобы поисковая система нашла файл robots.txt? Для этого, вам нужно составить собственный роботс.тхт или можете скопировать готовый, который находится чуть ниже.

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/cache
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/cache
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: zarabotok11.ru
Sitemap: https://zarabotok11.ru/sitemap.xml
Sitemap: https://zarabotok11.ru/sitemap.xml.gz

Не забудьте вместо моего блога, указать свой.

Далее следует переместить файл в главную папку вашего ресурса. У меня это «/public_html» и отдать на съедение Яндексу, Гуглу и им подобным, путем добавления его в Инструментах вебмастера.

На этом у меня все!

Понравилась статья? Поделиться с друзьями:
Заработок в интернете
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: