Создание robots.txt и его непосредственная настройка. | ProstoNeiz

Создание robots.txt и его корректная настройка.

Robots.txt- это текстовый файл, который располагается в корне вашего веб-ресурса. Его основная задача это запрет (или разрешение) индексирования отдельных страниц вашего сайта. Можно обойтись и без него, в этом случае все страницы веб-ресурса будут доступны в поиске, даже черновик с записями, но это не самое страшное.

Чтобы этого не допустить нужно создать и правильно настроить текстовый файл robots.txt

Конечно создать его можно с помощью различных сервисов которые предоставляет интернет, даже через тот же All in One SEO Pack можно преобразовать его, но мы и сами попробуем справиться и разобраться с ним.

Как создать файл robots.txt

Создать его можно с любого текстового редактора (например notepad++, блокнот).Файл должен называться robots.txt вес файла (размер) не должен превышать 32кб, кодировка должна быть ASCII или UTF-8. Располагаться данный файл должен в корне вашего сайта (/public_html/robots.txt).

Формат robots.txt

Файл должен содержать основной набор директив, которые должны располагаться с новой строчки выглядеть должно так: директива: значение. Каждый блок правил должен начинаться с директивы User-agent. Новый блок будет отделять пустой строкой.

Правильное название файла должно быть robots.txt , распространённые ошибки: Robots.txt или ROBOTS.TXT (Это не правильно).

Специальные символы:

# – символ используется для комментирования, всё что будет располагаться после # будет игнорироваться поисковыми роботами. С новой строки он не будет учитываться, если она не будет начинаться с #.

* – символ обозначает любую последовательно символов (дальше будет понятнее)

$ – символ указывает на конец строки.

Список директив:

User-agent” Все блоки должны начинаться именно с этой директивы, оно указывает для какого робота будут применяться следующие правила. Таких директив может быть несколько.

Disallow и Allow” директивы используются для разрешения (“Allow“) и запрета(“Disallow“) индексирования файлов. Значения должны начинаться с /. По умолчанию в конце проставляется *

Обычно директива “Allow” используется вместе с директивой “Disallow” чтобы разрешить индексировать какую-то страницу которые запрещены.

Sitemap” если у вас имеется карта сайта, то можно роботам указать её нахождение с помощью директивы.

Host” используются для указания роботам основного зеркала сайта.

Crawl-delay” устанавливает минимальный интервал (в секундах) между обращениями робота к сайту, полезен для снижения нагрузки сайта.

Clean-param” используется если на сайте страница с динамическими параметрами в URL-адресах (в URL отображается после знака ?)

Примеры robots.txt

Давайте попробуем разобрать то что вы прочитали на конкретных примерах. Ведь не всё так ясно и понятно.

Примеры User-agent :

User-agent: * # Указывает директивы для всех роботов 

User-agent: Yandex # Указывает директивы для всех роботов Яндекса

User-agent: Googlebot # Указывает директивы для всех роботов Google

Примеры с Disallow и Allow:

Укажем всем роботам (User-agent: *) запретить к индексированию все страницы сайта(Disallow: /), но разрешим индексировать определённый каталог (Allow: /catalog)

User-agent: *
Disallow: /
Allow: /catalog

Запретим индексировать все страницы начинающиеся с “/catalog”, но разрешим индексацию страниц которые начинаются с “/catalog/music” и “/catalog/games”

User-agent: *
Disallow: /catalog
Allow: /catalog/music
Allow: /catalog/games

Также можно запретить к индексированию весь сайт:

User-agent: *
Disallow: /

Запретить роботам посещать определенную страницу:

User-agent: *

Disallow: /games/ti-videl-eto.html

А теперь попробуем использовать * для страниц вида “/page*“. Этот параметр удовлетворяет всем страница вида “/page“, ” /page1“, “/page-kto-tyt“, “/page/gde-tyt

User-agent: Yandex
Disallow: /page*

Но в этом случае можно было не указывать символ *, всё это заменит “/page“.

Давайте теперь посмотрим что из себя представляет параметр с $. Используем те же условия:

User-agent: Yandex
Disallow: /page$

Теперь директива Disallow будет запрещать именно страницу “/page$”, но к индексации всё также будут доступны “/page“, ” /page1” и так далее.

Также можно указать директиву для запрета к индексированию определённых типов файлов (например .pdf и .png):

User-agent: *

Disallow: /images/image-site.png 
Disallow: /*.pdf$

Пример c Sitemap:

Допустим у нас уже есть прописанный robots.txt осталось прописать туда где находится карта вашего сайта вот так:

User-agent: *
Disallow: /catalog
Allow: /catalog/music
Allow: /catalog/games

Sitemap: https://my-site.ru/sitemap.xml

Не обращайте внимания на то что у меня пропущена строка, роботы всё равно её не заметят, этот отступ я сделал для визуального эффекта, чтоб не запутаться.

Пример c Host:

Теперь попробуем указать роботам яндекса где находится основное зеркало нашего сайта:

User-agent: Yandex
Disallow: /catalog
Allow: /catalog/music
Allow: /catalog/games

Host: https://my-site.ru

Примеры с Crawl-delay:

Попробуем установить роботу яндекса минимальный интервал времени проверки индексирования страниц сайта:

User-agent: Yandex
Disallow: /catalog
Allow: /catalog/music
Allow: /catalog/games

Crawl-delay: 2.0 #задает тайм-аут в 2 секунды

Примеры с Clean-param:

Давайте попробуем в ней разобраться. Возьмём пример что на нашем сайте имеются есть страницы вида:

www.my-site.ru/music/get_books.pl?ref=site_1&books_id=254
www.my-site.ru/music/get_books.pl?ref=site_2&books_id=254
www.my-site.ru/music/get_books.pl?ref=site_3&books_id=254

Но если мы укажем роботу правила:

User-agent: Yandex
Disallow:
Clean-param: ref /music/get_books.pl

робот сведет все адреса страницы к одному URL:

www.my-site.ru/music/get_books.pl?books_id=123

Проверка robots.txt

Если вы не уверены что правильно создали и настроили robots.txt, вы можете проверить его через инструменты которые предоставляют поисковые системы например Google:

Здесь вы можете проверить url адресы которые может просматривать роботы, ну в данном случае от google.

В поисковой системе Яндекс тоже имеется подобный интрумент для проверки robots.txt:

С их помощью вы можете сразу найти ошибки исправить и выгрузить готовый robot.txt в корень вашего веб-ресурса.

А на этом пожалуй всё. Не забудьте подписать на нашу email рассылку что получать уведомления в виде письма о новых статьях.

Создание robots.txt и его корректная настройка.: 1 комментарий

  • 05.05.2020 в 06:14
    Permalink

    Скажите а как вы с этой темы колор-маг убрали поле сайт в комментах? Я как только не прообовал-разными плагинами и не получилось….

    Ответ

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *