Правильные методы удаления дублей страниц

Дубли страниц – одна из множества причин понижения позиций в поисковой выдаче и даже попадания под фильтр. Чтобы этого не допустить, нужно предупредить попадание их в индекс поисковых систем.

Определить наличие дублей на сайте и избавиться от них можно различными способами, но серьезность проблемы в том, что дубли не всегда бывают бесполезными страницами, просто они не должны находиться в индексе.

Эту проблему мы сейчас и будем решать, только для начала выясним, что такое дубли и как они возникают.

Что такое дубли страниц

Дубли страниц – это копия контента канонической (основной) страницы, но с другим url. Здесь важно отметить, что они могут быть как полными, так и частичными.

Полное дублирование является точной копией, но со своим адресом, отличие которого может проявляться в слеше, аббревиатуре www, подмене параметров index.php?, page=1, page/1 и др.

Частичное дублирование проявляется в неполном копировании контента и связанно со структурой сайта, когда индексируются анонсы каталога статей, архивы, контент из сайдбара, страницы пагинации и прочие сквозные элементы ресурса, содержащиеся на канонической странице. Это присуще большинству CMS и интернет-магазинов, в которых наличие каталога является неотъемлемой частью структуры.

q1-396x500 Правильные методы  удаления дублей страниц

О последствиях возникновения дублей мы уже говорили, а происходит это вследствие распределения ссылочной массы между дубликатами, подмены страниц в индексе, потери уникальности контента и пр.

Как найти дубли страниц на сайте

Для поиска дублей можно использовать следующие методы:

  • поисковая строка Google. С помощью конструкции site:myblog.ru, где myblog.ru – ваш url, выявляются страницы из основного индекса. Чтобы увидеть дубли, нужно перейти на последнюю страницу поисковой выдачи и кликнуть по строке «показать скрытые результаты»;
  • команда «Расширенный поиск» в Яндексе. Указав в специальном окне адрес своего сайта и вписывая в кавычках одно из предложений проиндексированной статьи, подвергающейся проверке, мы должны получить только один результат. Если их больше – это дубли;
  • панель инструментов для веб-мастеров в ПС;
  • вручную, подставляя в адресную строку слеш, www, html, asp, php, буквы верхнего и нижнего регистров. Во всех случаях переадресация должна происходить на страницу с основным адресом;
  • специальные программы и сервисы: Xenu, MegaIndex и др.

Удаление дублей страниц

Способов устранения дублей также есть несколько. Каждый из них имеет свое воздействие и последствия, поэтому говорить о наиболее эффективном не приходится. Следует помнить, что физическое уничтожение проиндексированного дубликата не является выходом: поисковики о нем все равно будут помнить. Поэтому лучший метод борьбы с дублями – предотвращение их появления с помощью правильных настроек работы сайта.

01 Правильные методы  удаления дублей страниц

Вот некоторые из способов устранения дублей:

  • Настройка Robots.txt. Это позволит закрыть от индексации определенные страницы. Но если роботы Яндекса восприимчивы к данному файлу, то Google захватывает даже закрытые ним страницы, не особо учитывая его рекомендаций. Кроме того, с помощью Robots.txt удалить проиндексированные дубли очень сложно;
  • 301 редирект. Он способствует склеиванию дублей с канонической страницей. Метод действующий, но не всегда полезный. Его нельзя применять в случае, когда дубликаты должны оставаться самостоятельными страницами, но не должны подвергаться индексации;
  • Присвоение 404 ошибки проиндексированным дублям. Метод очень хорош для их удаления, но потребует некоторого времени прежде, чем проявится эффект.

Когда же ничего склеивать и удалять ничего нельзя, а терять вес страницы и получать наказание от поисковиков не хочется, то используется атрибут rel canonical href.

Атрибут rel canonical на борьбе с дублями

Начну с примера. В интернет-магазине есть две страницы с карточками товаров идентичного содержания, но на одной товары расположены в алфавитном порядке, а на другой по стоимости. Обе нужны и перенаправление не допускается. При этом для поисковиков это явный дубль.

В этом случае рационально использование тега link rel canonical, указывающего на каноническую страницу, которая индексируется, но при этом не основная страница остается доступной пользователям.

rel-canonical-500x239 Правильные методы  удаления дублей страниц

Делается это следующим образом: в блоке head кода страниц-дубликатов указывается ссылка «link rel=”canonical” href=”http://site.ru/osnovnaya stranitsa”/», где http://site.com/osnovnaya stranitsa — адрес канонической страницы.

С таким подходом пользователь может беспрепятственно посещать любую страницу сайта, а вот робот, прочитав в коде атрибут rel canonical, отправится индексировать только ту, адрес которой указан в ссылке.

Данный атрибут может быть полезен и для страниц с пагинацией. В этом случае создают страницу «Показать все» (этакую «портянку») и принимают за каноническую, а страницы пагинации отправляют робота на нее через rel canonical.

Таким образом, выбор метода борьбы с дублированием страниц зависит от характера их возникновения и необходимости присутствия на сайте.

Комментировать

КОММЕНТАРИИ