Правильные методы удаления дублей страниц

Дубли страниц – одна из множества причин понижения позиций в поисковой выдаче и даже попадания под фильтр. Чтобы этого не допустить, нужно предупредить попадание их в индекс поисковых систем.

Определить наличие дублей на сайте и избавиться от них можно различными способами, но серьезность проблемы в том, что дубли не всегда бывают бесполезными страницами, просто они не должны находиться в индексе.

Эту проблему мы сейчас и будем решать, только для начала выясним, что такое дубли и как они возникают.

Что такое дубли страниц

Дубли страниц – это копия контента канонической (основной) страницы, но с другим url. Здесь важно отметить, что они могут быть как полными, так и частичными.

Полное дублирование является точной копией, но со своим адресом, отличие которого может проявляться в слеше, аббревиатуре www, подмене параметров index.php?, page=1, page/1 и др.

Частичное дублирование проявляется в неполном копировании контента и связанно со структурой сайта, когда индексируются анонсы каталога статей, архивы, контент из сайдбара, страницы пагинации и прочие сквозные элементы ресурса, содержащиеся на канонической странице. Это присуще большинству CMS и интернет-магазинов, в которых наличие каталога является неотъемлемой частью структуры.

Правильные методы  удаления дублей страниц

О последствиях возникновения дублей мы уже говорили, а происходит это вследствие распределения ссылочной массы между дубликатами, подмены страниц в индексе, потери уникальности контента и пр.

Как найти дубли страниц на сайте

Для поиска дублей можно использовать следующие методы:

  • поисковая строка Google. С помощью конструкции site:myblog.ru, где myblog.ru – ваш url, выявляются страницы из основного индекса. Чтобы увидеть дубли, нужно перейти на последнюю страницу поисковой выдачи и кликнуть по строке «показать скрытые результаты»;
  • команда «Расширенный поиск» в Яндексе. Указав в специальном окне адрес своего сайта и вписывая в кавычках одно из предложений проиндексированной статьи, подвергающейся проверке, мы должны получить только один результат. Если их больше – это дубли;
  • панель инструментов для веб-мастеров в ПС;
  • вручную, подставляя в адресную строку слеш, www, html, asp, php, буквы верхнего и нижнего регистров. Во всех случаях переадресация должна происходить на страницу с основным адресом;
  • специальные программы и сервисы: Xenu, MegaIndex и др.

Удаление дублей страниц

Способов устранения дублей также есть несколько. Каждый из них имеет свое воздействие и последствия, поэтому говорить о наиболее эффективном не приходится. Следует помнить, что физическое уничтожение проиндексированного дубликата не является выходом: поисковики о нем все равно будут помнить. Поэтому лучший метод борьбы с дублями – предотвращение их появления с помощью правильных настроек работы сайта.

Правильные методы  удаления дублей страниц

Вот некоторые из способов устранения дублей:

  • Настройка Robots.txt. Это позволит закрыть от индексации определенные страницы. Но если роботы Яндекса восприимчивы к данному файлу, то Google захватывает даже закрытые ним страницы, не особо учитывая его рекомендаций. Кроме того, с помощью Robots.txt удалить проиндексированные дубли очень сложно;
  • 301 редирект. Он способствует склеиванию дублей с канонической страницей. Метод действующий, но не всегда полезный. Его нельзя применять в случае, когда дубликаты должны оставаться самостоятельными страницами, но не должны подвергаться индексации;
  • Присвоение 404 ошибки проиндексированным дублям. Метод очень хорош для их удаления, но потребует некоторого времени прежде, чем проявится эффект.

Когда же ничего склеивать и удалять ничего нельзя, а терять вес страницы и получать наказание от поисковиков не хочется, то используется атрибут rel canonical href.

Атрибут rel canonical на борьбе с дублями

Начну с примера. В интернет-магазине есть две страницы с карточками товаров идентичного содержания, но на одной товары расположены в алфавитном порядке, а на другой по стоимости. Обе нужны и перенаправление не допускается. При этом для поисковиков это явный дубль.

В этом случае рационально использование тега link rel canonical, указывающего на каноническую страницу, которая индексируется, но при этом не основная страница остается доступной пользователям.

Правильные методы  удаления дублей страниц

Делается это следующим образом: в блоке head кода страниц-дубликатов указывается ссылка «link rel=”canonical” href=”http://site.ru/osnovnaya stranitsa”/», где stranitsa — адрес канонической страницы.

С таким подходом пользователь может беспрепятственно посещать любую страницу сайта, а вот робот, прочитав в коде атрибут rel canonical, отправится индексировать только ту, адрес которой указан в ссылке.

Данный атрибут может быть полезен и для страниц с пагинацией. В этом случае создают страницу «Показать все» (этакую «портянку») и принимают за каноническую, а страницы пагинации отправляют робота на нее через rel canonical.

Таким образом, выбор метода борьбы с дублированием страниц зависит от характера их возникновения и необходимости присутствия на сайте.

Поделиться:
Telegram
ВКонтакте
Проекты

Новые статьи

Случайные статьи