Актуальной проблемой почти для каждого web-мастера является дублированный контент, точнее, дублирование страниц. Что это такое? Это когда один и тот же материал ресурса доступен в интернете по разным адресам. Этот вопрос мы сегодня и рассмотрим и, вдобавок научим вас как от этого избавиться. Следует отметить, что при наличии дублей страниц, контент в пределах одного сайта теряет свою уникальность.

С одной стороны, казалось бы, уникальность материала на сайте не должна сравниваться с уникальностью контента в сети. Но вот поисковым ботам так не кажется, и им совсем не хочется тратить свои силы на индексацию различного мусора, к которому как раз и относятся дубли страниц с одного проекта. И поэтому, как бы не хотелось, но поисковики за такие дубли наказывают ресурс понижением позиций, а также исключением страниц из поиска, и даже может быть наложен АГС, если таких дублей будет слишком много.

Следующим негативным последствием присутствия дублированного контента можно назвать подмену главной страницы сайта в выдаче ПС (поисковых систем) на страницу-дубликат с последующим понижением позиций. И кроме этого, перетекание статистического и ссылочного веса внутри проекта на дубли страниц сайта, и как итог – потеря этого веса.

Как могут возникнуть дубликаты страниц, и вообще, дубликат сайта

К главным причинам можно отнести несовершенство CMS проекта, поскольку все современные некоммерческие и коммерческие CMS автоматически генерируют дубликаты страниц. Следующей причиной является низкая подготовка разработчика проекта, вследствие чего произошло копирование контента.

Здесь мы добавим, что дубли подразделяются на полные и неполные. Судя по названию, вы уже догадались, что, например, полный дубль – это когда копия страницы полностью повторяет содержание другой. Такой вид дублированного контента зачастую появляется из-за того, что одна страница доступна по разным URL.

Встречаются и неполные дубли, в которых информация скопирована частично. К примеру, небольшие анонсы материала сайта в RSS-ленте и т.д, дублирование страниц происходит благодаря таким анонсам. То же можно сказать и о контенте из сайдбара, поскольку, он расположен на всех страницах проекта и т.д. Неполные дубли в основном характерны для интернет – магазинов и идентичных с ними проектов, за счет присутствия множества «сквозных» элементов в структуре ресурса.

Какие бывают дубли страниц сайта

1. Главная страница ресурса доступна с www и без них:

2. Динамическое содержание ресурса с идентификаторами:

3. Когда стоит слеш в конце URL и отсутствует:

4. Фильтры в Интернет — магазинах (пример: VirtueMart):

5. Страницы печати:

Дадим совет: одним из самых эффективных способов, как избавиться от дублей страниц – это не допускать попадание их под индексацию поисковыми ботами. Но такое, к сожалению, получается далеко не у всех владельцев сайтов, и не всегда. Зачастую, web-мастера обнаруживают дублированные страницы уже после занесения их в индекс поисковых систем.

Самые распространенные признаки (причины) появления дублей:

  1. Страницы проекта открываются по адресу со слешем в конце и без него;
  2. Страницы ресурса открываются по адресу без www и с www;
  3. В адресе сайта (блога) имеются такие параметры как:

Каким образом, можно обнаружить дубли контента

  1. Наберите в Гугле команду: site:mysite.ru (mysite.ru — адрес вашего сайта), это позволит проверить, какие именно дубли присутствуют в индексе ПС. Потом нажмите показать все страницы, страницы с одинаковыми заголовками и есть дубли.
  2. Можно ввести отрывок любой фразы из статьи в поиск, и посмотреть, какие страницы выдаст система, и где присутствует данная фраза.
  3. Можно воспользоваться инструментами для web-мастеров Гугла, в разделе «Вид в поиске → Оптимизация HTML» вы увидите страницы, в которых есть повторяющиеся заголовки, либо метаописание.

Дублирование страниц сайта. Как избавиться_1

Далее, мы представим вам 5 способов, как избавиться от дублей страниц

1. Используя настройки в файле robots.txt:

Пример:

Это дает знак поисковому боту, что страницы сайта, в которых содержаться параметры: index.php?,?, не должны попадать в индекс. Но тут есть одно «НО»: вообще файл robots.txt подразумевает только рекомендации, заданные web-мастером для поисковых роботов, но не правило, которого они (боты) должны беспрекословно выполнять. К примеру, если такая страница получила обратную ссылку, то она обязательно окажется в индексе.

2. Тайный файл: .htaccess, позволяет решить проблемы с возникновением дублей, но уже на уровне хостинга:

Вообще, файл .htaccess представляет собой конфигурацию сервера Apache и расположен в корневой папке ресурса. Он позволяет настроить конфигурацию сервера индивидуально для вашего проекта. Вот примеры:
Можно склеить страницы ресурса редиректом 301

Настраиваем доменное имя сайта с www и без www.
Пример с www:

без www:

Можно добавить слеш (/) в окончание URL

Но если на сайте уже довольно много проиндексированных страниц, то вам будет очень трудозатратно отыскивать и склеивать дубли страниц.

3. Инструменты для web-мастеров

Если воспользоваться функцией «Параметры URL», то это позволит запретить Гуглу сканировать страницы проекта, которые имеют определенные параметры:

Дублирование страниц сайта. Как избавиться_2

Дублирование страниц сайта. Как избавиться_1

Можно также дубли страниц удалить в ручном режиме:

Дублирование страниц сайта. Как избавиться_4

Но тут необходимо отметить, что удалять страницы можно в том случае если они:

  • Запрещены для индексирования в robots.txt;
  • Возвращают ответ сервера «404»;
  • Запрещены тегом «noindex».

4. Использование метатега noindex

Является одним из самых эффективных способов как избавиться от дублей страниц. Точнее, удаляем навсегда и даже бесповоротно!
Как отмечено в ПС Google, присутствие тега «noindex»полностью запрещает индексацию определенной страницы ресурса.
Например:

Обратите внимание, для того чтобы бот ПС смог удалить такую страницу, он изначально должен ее просканировать и поэтому ее не следует закрывать от индексации в robots.txt. Это можно реализовать с помощью функции preg_match().

5. Используем атрибут: rel=»canonical»

По сути, атрибут rel=»canonical» предоставляет возможность указать именно рекомендуемую страницу (каноническую), чтобы ее смогли проиндексировать поисковые боты и поэтому ее дубли в выдачу не попадают.
Атрибут rel=»canonical» можно указать двумя способами:

Используя атрибут «link» в HTTP-заголовка. Например:

Либо добавить его в раздел сайта (для неканонических страниц). Например:

Как отыскать дубли страниц в ПС Yandex

Для проверки, есть ли дублированный контент в ПС Яндекс, заходим в расширенный поиск:

Дублирование страниц сайта. Как избавиться_5

Берете одну фразу из уже проиндексированных страниц ресурса, заключаете ее в кавычки и вставляете в поле поиска, указываете адрес ресурса и кликаете «Найти». Но не следует брать фразы из первого абзаца, потому как в этом случае, перед вами предстанут странички с анонсами в разделах, в сайдбаре, на главной странице и т.д.

Дублирование страниц сайта. Как избавиться_6

Если ПС выдаст только одну страницу, то все О.К! – дубли отсутствуют. Если же перед вами откроется несколько страниц – это дубли! Таким образом, нужно перепроверить как можно больше статей на вашем сайте.

Дублирование страниц сайта. Как избавиться_7

Чтобы удалить дубли страниц сайта из ПС Яндекс, советуем воспользоваться следующим инструментом.

Как отыскать дубли страниц в ПС Google

В ПС Google все дубли контента отыскиваются почти идентично, как и в Yandex. Т.е. заключаете фразу в кавычки, но ограничиваете поиск тегом «site:mysite.ru»:

Дублирование страниц сайта. Как избавиться_8

Как вы видите, дулей контента не найдено. А в результатах выдачи – одна страница и правильный адрес. Хотя, иногда, случается и по-другому. Вот еще один вариант запроса для Google, чтобы произвести поиск дублей страниц сайта: site:mysite.ru-site:mysite.ru/&

После того как поиск завершен, необходимо нажать мышкой по надписи «Повторить поиск, не опуская упущенные результаты»:
Если вы нашли дублированные страницы, то далее избавляетесь от них, используя один из вышеперечисленных способов (можно несколько – для эффективности).

Если вы обнаружили больше одной страницы, то следует посмотреть адреса дубликатов, проанализировать, почему и откуда они взялись и принять соответствующие меры.

Если у вас открыты для индексирования архивы – то, конечно, и они будут пособниками образования дублей. Закрываются они в ручном режиме в robots.txt (пример: Disallow:/arch/). Можно также запретить индексацию в плагине All in SEO Pack. То же самое проделываете и с тегами:

Дублирование страниц сайта. Как избавиться_9

Помимо этого, вам нужно еще зайти в админку сайта → Настройки → Обсуждения и убираете флажок с «Разбивать комментарии верхнего уровня на страницы»:

Дублирование страниц сайта. Как избавиться_10

Еще добавим, что следует следить за числом страниц, которые находятся в выдаче ПС. Их количество можно посмотреть с помощью онлайн сервисов, благо их сейчас предостаточно. Если, например, вы опубликовали всего 150 статей, а в индексе их порядка 1000 – то это тревожный знак, следует заняться анализом своего проекта.

И скажем, что разрабатывая новый проект, всегда учитывайте тот факт, что есть возможность появления дубликатов страниц сайта и поэтому вам сразу нужно определять меры борьбы с этим явлением. Занимайтесь созданием правильной структуры, как сайта, так и файла robots.txt. Периодически занимайтесь проверкой числа страниц в выдаче ПС и пользуйтесь панелями инструментов для web-мастеров.

Правильная оптимизация своего проекта повышает его позиции в поисковой выдаче, уменьшает расходы на его продвижение и увеличивает доход с сайта. Поэтому, всем отличного развития и больших заработков в интернете!
До следующих встреч


1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)