Дубли страниц – одна из множества причин понижения позиций в поисковой выдаче и даже попадания под фильтр. Чтобы этого не допустить, нужно предупредить попадание их в индекс поисковых систем.
Определить наличие дублей на сайте и избавиться от них можно различными способами, но серьезность проблемы в том, что дубли не всегда бывают бесполезными страницами, просто они не должны находиться в индексе.
Эту проблему мы сейчас и будем решать, только для начала выясним, что такое дубли и как они возникают.
Что такое дубли страниц
Дубли страниц – это копия контента канонической (основной) страницы, но с другим url. Здесь важно отметить, что они могут быть как полными, так и частичными.
Полное дублирование является точной копией, но со своим адресом, отличие которого может проявляться в слеше, аббревиатуре www, подмене параметров index.php?, page=1, page/1 и др.
Частичное дублирование проявляется в неполном копировании контента и связанно со структурой сайта, когда индексируются анонсы каталога статей, архивы, контент из сайдбара, страницы пагинации и прочие сквозные элементы ресурса, содержащиеся на канонической странице. Это присуще большинству CMS и интернет-магазинов, в которых наличие каталога является неотъемлемой частью структуры.
О последствиях возникновения дублей мы уже говорили, а происходит это вследствие распределения ссылочной массы между дубликатами, подмены страниц в индексе, потери уникальности контента и пр.
Как найти дубли страниц на сайте
Для поиска дублей можно использовать следующие методы:
- поисковая строка Google. С помощью конструкции site:myblog.ru, где myblog.ru – ваш url, выявляются страницы из основного индекса. Чтобы увидеть дубли, нужно перейти на последнюю страницу поисковой выдачи и кликнуть по строке «показать скрытые результаты»;
- команда «Расширенный поиск» в Яндексе. Указав в специальном окне адрес своего сайта и вписывая в кавычках одно из предложений проиндексированной статьи, подвергающейся проверке, мы должны получить только один результат. Если их больше – это дубли;
- панель инструментов для веб-мастеров в ПС;
- вручную, подставляя в адресную строку слеш, www, html, asp, php, буквы верхнего и нижнего регистров. Во всех случаях переадресация должна происходить на страницу с основным адресом;
- специальные программы и сервисы: Xenu, MegaIndex и др.
Удаление дублей страниц
Способов устранения дублей также есть несколько. Каждый из них имеет свое воздействие и последствия, поэтому говорить о наиболее эффективном не приходится. Следует помнить, что физическое уничтожение проиндексированного дубликата не является выходом: поисковики о нем все равно будут помнить. Поэтому лучший метод борьбы с дублями – предотвращение их появления с помощью правильных настроек работы сайта.
Вот некоторые из способов устранения дублей:
- Настройка Robots.txt. Это позволит закрыть от индексации определенные страницы. Но если роботы Яндекса восприимчивы к данному файлу, то Google захватывает даже закрытые ним страницы, не особо учитывая его рекомендаций. Кроме того, с помощью Robots.txt удалить проиндексированные дубли очень сложно;
- 301 редирект. Он способствует склеиванию дублей с канонической страницей. Метод действующий, но не всегда полезный. Его нельзя применять в случае, когда дубликаты должны оставаться самостоятельными страницами, но не должны подвергаться индексации;
- Присвоение 404 ошибки проиндексированным дублям. Метод очень хорош для их удаления, но потребует некоторого времени прежде, чем проявится эффект.
Когда же ничего склеивать и удалять ничего нельзя, а терять вес страницы и получать наказание от поисковиков не хочется, то используется атрибут rel canonical href.
Атрибут rel canonical на борьбе с дублями
Начну с примера. В интернет-магазине есть две страницы с карточками товаров идентичного содержания, но на одной товары расположены в алфавитном порядке, а на другой по стоимости. Обе нужны и перенаправление не допускается. При этом для поисковиков это явный дубль.
В этом случае рационально использование тега link rel canonical, указывающего на каноническую страницу, которая индексируется, но при этом не основная страница остается доступной пользователям.
Делается это следующим образом: в блоке head кода страниц-дубликатов указывается ссылка «link rel=”canonical” href=”http://site.ru/osnovnaya stranitsa”/», где stranitsa — адрес канонической страницы.
С таким подходом пользователь может беспрепятственно посещать любую страницу сайта, а вот робот, прочитав в коде атрибут rel canonical, отправится индексировать только ту, адрес которой указан в ссылке.
Данный атрибут может быть полезен и для страниц с пагинацией. В этом случае создают страницу «Показать все» (этакую «портянку») и принимают за каноническую, а страницы пагинации отправляют робота на нее через rel canonical.
Таким образом, выбор метода борьбы с дублированием страниц зависит от характера их возникновения и необходимости присутствия на сайте.