5 1 1 1 1 1 1 1 1 1 1 Рейтинг 5.00 (1 Голос)
Правильный robots txt для joomla

   После создания проекта, вебмастера активно начинают оптимизировать структуру сайта, упуская из вида маленький незаметный файл robots, который играет важную роль в поисковом продвижении. Ни секрет, что после размещения веб-проекта в интернете, первым делом его посещают боты поисковиков, которые обойдя сайт, индексируют все элементы, от картинок до файлов управляющих работой ресурса, делая их доступными по определенным ссылкам. Что категорически запрещено в целях безопасности.

   Поэтому для поисковиков разработан файл robots.txt своего рода «путеводитель», указывающий какие страницы и компоненты сайта, разрешается добавлять в поиск, а какие нет.

sayt s robots txt

   Данный текстовый документ располагается в корне сайта, по адресу http://site.com/robots.txt и содержит блоки правил, «командные операторы» для поисковых систем.
   Для корректной работы операторы размещаются стандартным образом: печатается название оператора, ставится двоеточие, делается пробел указывается параметр или команда. Далее с новой строки, аналогично прописывается директива оператору два.

Оператор1: команда 
Оператор2: команда

   Каждый роботс txt начинается оператором «User-Agent», с указанием имени поисковой системы, к которой будут предъявляться требования, таких блоков может присутствовать несколько.

   Ниже представлена таблица с корректными названиями поисковых роботов сопоставимых с этим оператором.

Яндекс User-Agent: Yandex 
Гугл User-Agent: GoogleBot
Маил.ру User-Agent: Mail.Ru
Рамблер User-Agent: StackRambler

   Но также блок может быть один, с общими требованиями для всех поисковиков, тогда имя обозначается звездочкой.

User-Agent: *

  Под директивой агент, следует оператор «disallow» robots, который запрещает индексацию перечисленных разделов, страниц и компонентов. Обязательный элемент в структуре команды наклонный слеш, указывающий каталог, запрещенный для обхода ботом. 

Disallow: /components/

   Если в директиве «disallow» указан один наклонный слеш, то сайт полностью закрыт от индексации.

Disallow: / 

   Отсутствие черточки дает команду на отображение всех компонентов и страниц проекта.

 Disallow: 

   Противоположное действие представленной выше директиве производит оператор «Allow», разрешающий обработку указанных после наклонного слеша каталогов. Правило применяют в качестве исключения, если например, нужно открыть для поисковиков только одну папку «images», расположенную внутри закрытого от индексации раздела «components».

User-Agent: *
Allow: /components/images/ 
Disallow: /components/

   Когда robots прописывается для Яндекса то обязательно должна присутствовать директива «host», в которой указывается главное зеркало сайта:

с «www»

Host: www.site.com

или без.

Host: site.com 

   Что б поисковые роботы, не заблудились исследуя сайт, применяется директива «Sitemap», указывающая путь к xml карте сайта.

Sitemap: http://site.com/sitemap.xml 

   Каждый конструктор сайтов, при установке на сервер, в файле робот прописывает индивидуальные правила.

Стандартный robots txt для joomla 3 выглядит вот так.

Стандартный robots txt пример для joomla

   Разработчики сильно не побеспокоились о функциональном потенциале документа. Вследствие чего дубли страниц джумла, и невозможность индексации картинок, становятся основной проблемой вебмастера после перемещения сайта на виртуальный хостинг.

   С данными неприятностями столкнулся и автор статьи, когда провел ручной seo аудит сайта, удивился проиндексированных страниц в поиске оказалось 400 шт., хотя фактически их было 50–60 шт. После досконального изучения ссылок обнаружилось, что кроме добавленных мной страниц, появились еще дублирующие с одинаковым смыслом, но видоизмененным адресом. Что не очень нравилось поисковикам. Оперативно проблему решила корректная настройка robots txt joomla.

   Ниже подробно описаны какие преобразования были внесены в базовый роботс.

   Операторы входящие в изначальный файл остались без изменений, единственное удалена команда.

 Disallow: /images/ 

   Дающая запрет на индексацию картинок на сайте из-за чего те отображаются в поисковой выдаче.

   Добавлены новые правила, закрывающие от индексации следующие директивы.

  • Дубли главной страницы «index»

   CMS джумла имеет как массу преимуществ, так и недостатков, ключевым из которых, является повторения адреса главной страницы в разных форматах, с использованием команд /index.php, /index.html, если любую из этих приставок прописать к URL http://site.com, то все равно запустится главная страница сайта. Восстанавливаем справедливость запретом.

Disallow: /index.php 
Disallow: /index.html
  • Компонент поиска по сайту «search»

   Ссылок с таким слешем яндекс вебмастер выявил множество,

joomla robots txt настройка компонента search

перейдя по каждой, увидел форму поиска, с запросом который ввел пользователь. Странно конечно, почему джумла отдает на индексацию каждое поисковое слово, ну да ладно исправляется вот таким правилом.

Disallow: /*search
  • Стартовая страница «?start=»

   Долго решал откуда берутся ссылки с номерами

?start= joomla robots

оказывается, любая начальная страница раздела нумеровалась и также отправлялась в индекс,

 joomla 3 настроить robots txt

пока не последовал запрет.

Disallow: /*start
  • Е-маил рассылка «mailto»

   Базовый Robots для Joomla совсем не знает о такой команде, которая плодит неимоверное количество дублей площадки. А ножки растут, с простого компонента с кнопкой на сайте «Отправить материал", позволяющая пересылать понравившийся контент, друзьям и знакомым.

Robots txt в joomla где есть компонент mailto

 

   Проблему решал в два приема, сначала отключил опцию в настройках административной панели  /Система/ Общие настройки/ Материалы/, (по желанию можете оставить).

otklyuchenie ikonki pochta v joomla

и командой в роботекст.

Disallow: /*mailto*
  • Печать «print=1»

Стандартный компонент «Онлайн-печать» страниц с материалом,

otklyuchenie ikonki pechat v joomla

блокировался аналогичным с е-мейл способом, сначала отключил функцию потом прописал запрет.

Disallow: /*print* 
  • Файлы административной части

bin — вспомогательные сценарии оболочки, cli — сборка мусора, logs — журналы событий, swf — флеш составляющие.

Disallow: /bin/
Disallow: /cli/
Disallow: /logs/
Disallow: /*.swf

  Выше перечисленные команды, были внесены в файл и продублированы для Яндекса, с указание адреса основного зеркала проекта.
В результате получился

корректный robots txt для сайта joomla

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: *&template=*
Disallow: /xmlrpc/
Disallow: /index.php
Disallow: /index.html
Disallow: /*?
Disallow: /*mailto*
Disallow: /*start*
Disallow: /*print*
Disallow: /*feed*
Disallow: /*search*
Disallow: /*users*
Sitemap: http://site.com/sitemap.xml

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: *&template=*
Disallow: /xmlrpc/
Disallow: /index.php
Disallow: /index.html
Disallow: /*?
Disallow: /*mailto*
Disallow: /*start*
Disallow: /*print*
Disallow: /*feed*
Disallow: /*search*
Disallow: /*users*
Host: site.com 
Sitemap: http://site.com/sitemap.xml

   Который можете скопировать к себе на ресурс тем самым удалите дубли страниц джумла тормозящие продвижение сайта. Только не забудьте указать настоящий адрес в директивах «host» и «Sitemap» вместо site.com.

   Проведя повторный сео анализ сайта через неделю, мусорных ссылок на проекте замечено не было. Значит новые настройки сделали своё дело — повысили качество индексации.
   Надеюсь вебмастер полученная информация будет полезной для вас. Буду благодарен если поделитесь ей с друзьями в соц. сетях, нажав кнопочку репоста ниже статьи.Уникальность данного текста проверена через TEXT.RU. Копирование запрещено!

Понравилась статья? Поделись ей с друзьями!

Комментарии   

+1 # Сергей 17.02.2017 10:35
Disallow: /index.php
Disallow: /index.html
если закрыть главную страницу, то и и все страницы сайта будут недоступны для индексации
Ответить | Ответить с цитатой | Цитировать
0 # Сергей 26.03.2017 07:00
Спасибо за статью очень помогла особенно когда сайт:heway.ru был индексирован яндексом выдавало проблему в директиве Host после того как как скопировал отсюда в свой robotx txt весь код, избавился от ошибок
Ответить | Ответить с цитатой | Цитировать

Добавить комментарий


Защитный код
Обновить

Наверх