Индексацию в Google на новый уровень, тег rel=“canonical”

Автор Yworld_garry, 26 февраля 2009, 20:03:15

« назад - далее »

0 Пользователи и 1 гость просматривают эту тему.

Yworld_garry

Провёл тесты и по предварительным результатам работает и работает как заявлено.
Немного копирну своего и копирну не своего.  angel

На днях тройка поисковиков Google, Yahoo и Microsoft. ввела новый тег rel="canonical" . Служит для исключения из индекса дублей страниц.
Не секрет что многие скрипты этим грешат и в частности форумы. А так как боты поисковиков не могут адекватно оценить ролевентность дублей, то и получаем не качественную индексацию.
Постоянная борьба с дублями путем написание сложных и больших robots.txt уходит в прошлое. Надеюсь что и Яндекс вскоре поддержит этот тег.
Суть его работы:
Если ваш сайт имеет идентичный или очень похожий контент, доступный по разным URL, тогда новый формат позволит указать тот URL, который должен возвращаться в поисковой системе. Также можно быть уверенным, что все характеристики, такие как ссылочный вес и т.д. передадутся на нужную версию адреса.

Теперь вы можете добавить этот тег, для указания вашей версии адреса, внутри тега <head> на страницах с дублированным контентом:

    <link rel="canonical" href="http://www.example.com/product.php?item=swedish-fish" />

Таким образом, Google поймет, что все дубликаты ссылаются на канонический адрес, указанный в теге. Дополнительные свойства адреса, такие как PageRank и связанные сигналы также перенесутся с дублированных страниц на указанную.

Подобный тег будет полезным в основном при использовании различных движков (phpBB, IPB, WordPress, и т.д., напр. сайту ipbskins.ru – разработка дизайна сайта на IPB, приходится использовать длинный robots.txt в целях избежания дублированного контента), создающих множество похожих страниц, например, это могут быть страницы:

печатной версии статьи:
http://site.ru/article01.html?print=true
текстовой версии статей для моб. телефонов:
http://site.ru/lofiversion/article01.html
дублированные из-за недостатка движка:
http://site.ru/articles/?id=1&category=new
http://site.ru/articles/?id=1&tag=keyword
и ряд других...

Этот стандарт может быть адаптирован любой поисковой машиной при индексации сайта.

Для популярного блог-движка WordPress уже разработан плагин canonical, вставляющий тег на нужные страницы. Другие популярные движки для блогов, форумов, интернет-магазинов и т.д. также в ближайшем будущем расширят свою функциональность (следите за обновлениями).

Ответы на некоторые популярные вопросы по тегу:

Является ли rel="canonical" подсказкой или директивой?
Это подсказка, которую мы берем во внимание и во взаимодействии с другими сигналами вычисляем наиболее релевантную страницу для отображения в поисковых результатах.

Могу ли я использовать относительный путь для указания canonical, например так: <link rel="canonical" href="product.php?item=swedish-fish" />?
Да, относительные пути распознаются также, как и в обычном теге <link>. Даже если вы введете тег <base> с ссылкой на документ, тогда относительные пути будут считаться в соответствии с базовым URL.

Это нормально, если канонические адреса содержат не полностью дублированный контент?
Мы позволяем небольшие различия, такие как порядок сортировки в таблице продуктов. Также мы понимаем, что канонические адреса могут парситься роботом в разное время, поэтому все это нормально.

Что если rel="canonical" возвращает 404 ошибку?
Мы продолжим индексировать ваш контент и использовать эвристический подход, для определения канонического адреса, однако, мы рекомендуем, чтобы вы использовали существующие URL в качестве канонических.

Что если rel="canonical" ещё не проиндексирован?
Мы стараемся достучаться до канонического URL быстро. Как только мы его проиндексируем, тогда сразу же перерассмотрим подсказку rel="canonical".

Может ли канонический урл содержать редирект?
Да, вы можете указать редирект, в этом случае поисковая машина обработает просесс перенаправления как обычно и попытается проиндексировать новый адрес.

Что если я имею противоречивые сигналы для rel="canonical"?
Наши алгоритмы мягкие: мы можем следовать по каноническим цепям, однако, мы настоятельно рекомендуем, чтобы вы на страницах указывали единственный канонический адрес, чтобы быть уверенным в оптимальном результате канонизации.

Может ли этот тег для ссылки предложить канонический адрес на совершенно другом домене?
Нет. Чтобы мигрировать на другой домен, 301 редирект более подходящ. В настоящее время Google поддерживает канонизацию внутри поддоменов или внутри одного домена. Таким образом, владельцы сайтов могут указать www.example.com вместо example.com или help.example.com, однако, не могут указать example.com вместо example-widgets.com.

Звучит интересно, но могу ли я увидеть пример?
Да, wikia.com помогла нам, как трастовый тестер. Например, вы замтетите, что исходный код по адресу http://starwars.wikia.com/wiki/Nelvana_Limited содержит rel=canonical http://starwars.wikia.com/wiki/Nelvana.

Два адреса почти идентичны, исключая то, что Nelvana_Limited, первый URL, содержит короткое сообщение возле заголовка. Это хороший пример использования тега в будущем. С rel=canonical, свойства двух адресов обьединяются и поисковые результаты отображают нужную версию.

Если у вас есть какие-либо вопросы по использованию нового тега, вы можете их задать в комментариях на официальном блоге Google для вебмастеров.

От автора блога: Теперь мы имеем ряд преимуществ, умея немного управлять индексацией сайта, а именно:

1. Помимо избавления от естественного дублированного контента (из-за недостатка движка), мы также избавляемся от дублированного контента искусственного, когда конкуренты нам пытаются насолить, добавляя в адурилку страницы с произвольными параметрами в URL.

2. Теперь нет надобности использовать robots.txt для запрета индексации таких страниц, как "печатная версия" и других дубликатов (напр. в WordPress нужно было закрывать путь /teg/) и угождать каждому поисковику отдельно (есть общие стандарты для robots.txt, но есть также и ряд особенностей работы каждого поисковика с этим файлом, поэтому мы раньше не могли предусмотреть запрет индексации некоторых страниц сразу для всех ботов).

3. Мы теперь имеем хороший инструмент для ускорения индексации сайта :)
http://devaka.ru/articles/link-rel-canonical


Вот механизм внедрения в форум SMF


Уже есть готовы мод внедрения этого тега  Мод http://custom.simplemachines.org/mods/index.php?mod=1644  Там есть косяк с местом вставки кода и кавычками(возможно пофиксили).
На самом деле очень просто поставить руками, что и привожу ниже.
Хотя в принципе нет особой разницы как вставлять этот тег. Главное что бы он находился в <head>, я думаю правильнее поставить ниже </title>.
Так сказать что бы были все теги в одном месте.

Ищем в index.template.php
<title>', $context['page_title'], '</title>';
Вставляем ниже
if (!empty($context['current_topic']))
echo '
<link rel="canonical" href="', $scripturl, '?topic=', $context['current_topic'] . (!empty($context['start']) ? '.' . $context['start'] : '.0') . '" />';
elseif (!empty($context['current_board']))
echo '
<link rel="canonical" href="', $scripturl, '?board=', $context['current_board'] . (!empty($context['start']) ? '.' . $context['start'] : '.0') . '" />';


И в итоге получаем нужный результат. Все дубли будут иметь в теге указание основную страницу. Что и требовалось.
Но это не отменяет пока роботс, так как Яндекс запаздывает.

Adept

#1
Yworld_garry, огромное спасибо за такую ценную информацию.
До конца не очень понял, надо ли ставить данный тег в версии для печати? Или это на любителя (кто считает, что версия для печати вредна, то ставить, а кто считает что не полезна - не ставить)?

Avdenago

Спасибо.

Интересно два вопроса.

1. Выходит, что указывая каноникал - ПР будет клеиться к основной странице?

2. Насколько это влияет на выдачу?   
2.1 Дубли на сайте выдачу снижали? Или просто были "не теми" страницами?

Yworld_garry

сразу сорри за синтаксис. сейчас с кпк.

версия для пеЧати вообще не полезна я выдачи. она имеет большую ролевентностЬ в глазах поисковиков. но писсимизируется как дубль и соответственно подвернается писсимизации весь проект.
скажу так она радует глаз только веб масТеру когла он видит в выдаче лишнюю тясячу страниц. а вот если немного проанализировать то сразу видно все негативное влияние. по этому я принты стараюсь убить на любом проекте и результАт естестВенно в выдаче все что нужно. использовать следовательно тем у кого выдача в яндухе основы ается на принтах на свое усмотрение. всмысле вставка в принт.
1 пр клеится к осНовной
2 выдача более адекватная и рост позиций. засчет ухода из под писсимизации.
3 снижали

еще раз сорри писать очень не удобно с кпк. вечером отвечу на другие воп осы если будут.

Plazik

Используя этот тег можно не использовать robots.txt? Или его оставить только для яндекса?

Yworld_garry

#5
Plazik, нужно использовать роботс. Так как он закрывает каталоги тоже. И яндекс пока запаздывает.
И канонизация страниц, дело не одной недели.

ren_13

#6
огромное спасибО!
Действительно, SMF (впрочем, как и любой другой форум) имеет кучу дублей (какие-то для меня не особо понятные параметры, передающиеся через URL )

Пофиксил с Вашей помощью! Надеюсь, вес оригинала каждой страницы теперь подымется, а копии поотпадают.

Но вот такие вопросы у меня, если позволите:
1. В принципе, как я предполагал, грамотно составленный "сайтмап" и скормленная гуглю XML его версия должны бы по идее решить те же вопросы, не так ли?
2. При всех <base>, <canonical>, host и пр.пр.пр все равно остается нерешенной одна проблема. Внешние ссылки на форум "/" и внутренние "/index.php" вобщем-то по прежнему никак не пересекаются и их ПР никак не суммируется. Как этот косяк-то исправить?

Спасибо!


Yworld_garry

ren_13,
1. Нет карта не является ни указанием , ни предписанием и запретом. Просто в удобной форме мы скармливаем урлы. Тем самым ускоряя индексацию.
2. Для гугла думаю есть только один путь, так как он .htaccess проигнорирует.
В robots.txt прописать: Disallow: /index.php
Все ссылки форума привести к виду  "/" ( в скрипте поменять)
В теге <header> прописать: <base href="http://www.проект.ru/">
"Поклеет" всё как надо. Хотя к гуглу "поклеет" не очень применимо.

Хотя я не вижу особого смысла в этой операции, теряется пиаристая страница. За индексную не писсимизирут насколько я знаю.

ren_13

1. Собственно равно как и директива "canonical" судя по Вашей же информации. Это подсказки. И одно, и другое. Где же тут НЕТ? ;)

2. >В robots.txt прописать: Disallow: /index.php
ок
>Все ссылки форума привести к виду  "/" ( в скрипте поменять)
а вот этого я просто не сделаю самостоятельно
В теге <header> прописать: <base href="http://www.проект.ru/">
ок

>Хотя я не вижу особого смысла в этой операции, теряется пЮиаристая страница. За индексную не писсимизирут насколько я знаю.

Мы общаемся на разных языках. У меня есть подозрение, что суммарный ПР мордыбудет 3. А пока он 2+1. Один извариантов объяснения ;)))

Спасибо

Yworld_garry

Нет директива имеет определённые и прописанные правила. Которым будет следовать бот.
А карта это всего лишь куча урлов которую мы подсовываем боту в надежде, что он всё таки по ним пройдёт. Но проходя по ним он зацепит и все остальные не разбирая какая страница имеет больший вес и тд. даже прописывая условия те что дает нам этот инструмент"карта", мы даем только рекомендации.

"Суммарный" PR штука не такая простая и будет он 2+1 или просто станет 1 не так просто сказать.

ren_13

oк. Тогда я просто неправильно трактовал эту фразу:
Является ли rel="canonical" подсказкой или директивой?
Это подсказка, которую мы берем во внимание и во взаимодействии с другими сигналами вычисляем наиболее релевантную страницу для отображения в поисковых результатах.
Впрочем, это совершенно неважно. Главное, что эта функциональность уже реализована.

Что касается ПР, то честно говоря слабо понимаю почему он суммарный может стать меньше, чем по отдельности. По крайней мере, случалось, ПР моей главной был 3. Сейчас, как я говорил, 2+1. Предполагаю, что изза разъединения морд. Но это опять таки не важно в свете того, что реализовать эту логику я просто не в состоянии самомстоятельно...

Yworld_garry

2+1 это не факт разделения PR. Он сам по себе не берётся и не пропадает, так же не меняет своё значение. На него влияют многие факторы. И проанализировав беки дававшие PR3 я думаю будет видно, что беки отвалились или получили значения ниже чем были.
А PR1 получился из за получения каких то беков или просто с внутренних пришёл. В общем нужен плотный анализ. Так как факторов достаточно.
К то муже насколько вы уверены в том, что получив PR 2 , не поднялся PR упавший до 1 этого вы просто могли не заметить и было в моменте. И PR перетёк уже из второй страницы которая сейчас имеетPR1.
Что то я тут намутил, но думаю суть понятна. 8)

ren_13

ничего не понял. Особенно непонимаю по каким причинам Вы отговариваете изменить перелинковку форума ;)
Предлагаю общаться аськой. Появлюсь гдето в 3 по МСК на полчасика

Yworld_garry

Я не отговариваю естественно. Просто некоторые доводы приводил по вариантам пр и его падению.
В асе я к сожалению на буднях очень поздно.

Mavn

кстати в smf 2.0 RC2 введут поддержку этого тэга по умолчанию.
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

BIOHAZARD

Сначала хотел сам код намудрить, но потом осознал, это ни к чему, если уже есть готовое.
Спасибо. Карма+
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

Avdenago

Yworld_garry, подскажи.

Тут до меня "дошло", что этот тег может пригодится в случае если контент куда либо транслируется...

То есть в тех местах, можно просто прописать этот тег, с указанием ссылки на оригинал?

BIOHAZARD

на сторонний ресурс врядли, таг изначально придуман для использования внутри одного домена и выдачи корректного адреса, а не адреса исходного текста
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

Yworld_garry

Нет прописать его на другом ресурсе не удастся, точнее я что то не нашёл инфы( по позже попробую у гугла покопаться на буржуйских форумах сеошников). А вот застолбить контент реально. Если твой контент кто то копирнул, то уникальным будет считаться именно тот что у тебя на сайте. Конечно при условии индексации. И ролевентнее в ПС соответственно.

BIOHAZARD

Цитата: Yworld_garry от 09 апреля 2009, 20:35:48
Если твой контент кто то копирнул, то уникальным будет считаться именно тот что у тебя на сайте.
Не факт.
Только если гога специально проверять таги на соответствие хоста реального и прописанного в таге, а гога про это ни слова ни полслова. Так что скорее всего он просто откинет таг как бракованный, хотя ... админ предполагает, а гога располагает
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

Avdenago

Так так так. стоп. я запутался.

что значит "застолбить контент реально"?   

ситуация.  Есть сайт. Есть дубли на сайте. Есть дубли на внешних сайтах.

На основных страницах ничего. На дублях на сайте прописан тег, на внешних страницах прописан тег.

Застолбили?

А если есть сайт, на нем ничего, а на стороннем прописан тег - застолбили?

или вы вложили другой смысл в фразу "Если твой контент кто то копирнул, то уникальным будет считаться именно тот что у тебя на сайте" - на основании чего?

Yworld_garry

На основании первоисточника, но это всё относиться только к тем материалам которые будут проиндексированы после введения этого тега. Всё что было до так и останется. Этот тег внутридоменный. Он указывает на первоисточник.

BIOHAZARD

Цитата: Yworld_garry от 10 апреля 2009, 22:47:48
Этот тег внутридоменный.
В связи с этим возможность застолбить свою информацию в сети сомнительна.
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

Avdenago

Yworld_garry, еще раз. для полной ясности.

Если на домене с дубликата стоит тег на оригинал - то оригинал будет считатся первоисточник по отношению всего что будет проиндексировано позже, даже на других сайтах? - Звучит неправдоподобно...

Yworld_garry

Нет на домене дубликата стоит тег на материал на дубликате. И толку нет ставить на дубле в теге первоисточник на другом сайте. По крайней мере другой инфы я не нашёл пока.
Только канонизация материала внутри одного домена.
Я написал статью "Вася самый крутой", канонизировал её на своём сайте. При нормальном проекте гугл ест статьи примерно от 2-5 часов.
1) У меня скопировали статью и разместили на других сайтах, но гугл уже привязал её к моему проекту и отстальные копии из выдачи убираются или понижаются, со всеми вытекающими.
2) У меня скопировали статью но по какой-то причине гугл её не успел привязать ко мне. Остаеться все как и было и получает приз тот у кого раньше гугл съел. Конечно есть у гугла ещё всякие способы определения, но далеко не всегда они работают.

Avdenago

Понятно. Исходя из этого.

1. Делается предположение что тег каноникал - только для одного домена (предположение, так как до конца неизветсно, я так понял...)

2. Оригинал - чаще всего то, что гугл быстрее проиндексировал.

Gnostis

#26
На днях, совершенно случайно, нашел плагин SMF Canonical Tag который как раз эту возможность и вносит.
Живет он тут: http://custom.simplemachines.org/mods/index.php?mod=1644

Для версий движка: 1.1.8, 2.0 RC1

Yworld_garry

Gnostis, если бы вы прочитали первый пост, то не пришлось бы искать и тем более случайно натыкаться.
Немного про этот мод написано уже выше.

Gnostis

Цитата: Yworld_garry от 28 апреля 2009, 21:07:46
Gnostis, если бы вы прочитали первый пост, то не пришлось бы искать и тем более случайно натыкаться.
Немного про этот мод написано уже выше.
извините не внимательно прочитал... вообще я не его...  просто он в результатах оказался

Макар

Цитата: Mavn от 05 марта 2009, 15:31:36
кстати в smf 2.0 RC2 введут поддержку этого тэга по умолчанию.

кстати  ввели

глянул код страницы , тег есть , или его установили ручками/модом ?
Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

TXT

Год простояла эта хрень.
Но Гугл все равно упорно индексировал принты, а не нормальные страницы с canonical.
Сношу теперь, и буду больше внимания уделять роботс.тхт