Индексация сайта (странно)

Автор Travys, 04 января 2013, 06:38:18

« назад - далее »

0 Пользователи и 1 гость просматривают эту тему.

Travys

День добрый. Такая ситуация. Посмотрел в индексе 1000 страниц, а на форуме всего 350 тем.
Т.е индексирует всякие архивы, вложения, сообщения и прочий муссор. Подскажите нормально ли это? или лучше закрыть от индексации такие вещи?

Yworld_garry

Экстросенсорные способности после празднования НГ отключены и не сказать что там у вас на мифическом форуме без указания урлов.

Slavegirl

Скорее всего это нормально. Поисковые системы, кроме страниц с сообщениями индексируют списки тем, профили пользователей (если не закрыт доступ для гостей), список созданных пользователем сообщений. То есть, в ПС могут попасть все ссылки вида:

http://domain.com/board/topic1/
http://domain.com/board/topic2/
http://domain.com/board/10/
http://domain.com/board/20/
http://domain.com/profile/?u=1
http://domain.com/profile/?u=2
http://domain.com/profile/?area=showposts;u=1
http://domain.com/profile/?area=showposts;u=2
http://domain.com/profile/?area=showposts;u=1;start=10
http://domain.com/profile/?area=showposts;u=1;start=20
и т.д.

Пример с simplemachines.org:





У меня тоже в индексе Google находится больше страниц, чем создано сообщений на форуме. Волноваться стоит начинать, когда все наоборот.

Yworld_garry

В общем, просто закройте весь не нужный мусор из индекса и будет норм.
В индекс не должны попадать технические страницы, дубли и тому подобное, да и профили не нужны в индексе.
Собственно прочитайте, возможно найдете для себя полезное.
http://www.simplemachines.ru/index.php?topic=5089.0

Цитата: Slavegirl от 04 января 2013, 16:36:27У меня тоже в индексе Google находится больше страниц, чем создано сообщений на форуме. Волноваться стоит начинать, когда все наоборот.
Стоит волноваться, точнее стоит задуматься, а что надо закрыть дабы не гадить свою же выдачу, понижая релевантность и загоняя кучу в сопли. да и заставляя бота индексить то что заведомо не нужно в индексе и не будет в выдаче, только увеличивает время и тд и тп.

Travys

Да вот давно уже так и сделал. закрыл все ненужное, но все равно. Вот и удивляюсь. проверил в вебмастере. Не индексирует. Но в индексе все равно в несколько раз больше, чрм должно быть)

Travys

День добрый! uglystupid
Сегодня яндекс исключил почти все страницы из индекса.
я не могу понять в чем дело. Подскажите, пожалуйста.
User-agent: Googlebot-Image
Disallow: /

User-agent: YandexImages
Disallow: /

User-agent: msnbot-MM
Disallow: /

User-agent: Googlebot-Mobile
Allow: /*wap
Disallow: /

User-agent: YandexImageResizer
Allow: /*wap
Disallow: /

User-agent: MediaPartners-Google
Allow: /

User-agent: Baiduspider
Disallow: /

User-agent: *
Allow: /*action=live
Allow: /*action=forum
Allow: /*live
Allow: /$
Allow: /*board
Allow: /*topic
Allow: /*forum$
Allow: /*page
Allow: /*action=.xml
Disallow: /share42
Disallow: /*wap
Disallow: /*board=*wap
Disallow: /*topic=*wap
Disallow: /*topic=*.msg
Disallow: /*topic=*.new
Disallow: /*PHPSESSID
Disallow: /*profile
Disallow: /*action
Disallow: /
Disallow: /*;
Disallow: /
Sitemap: ............/sitemap.xml
Sitemap: http://........../index.php?action=kitsitemap
Crawl-delay: 5
Clean-param: PHPSESSID /index.php
Host: .......

Вот, что пишет

Документ содержит мета-тег meta name="robots" со значением content="noindex" или content="none". Если вы намеренно запретили доступ к этим страницам, то исправлять ничего не требуется.

Если вы самостоятельно не размещали мета-тег и считаете, что эти страницы должны индексироваться, то рекомендуем вам обратиться к разработчикам вашего сайта или к хостеру.

Дату наличия запрещающего мета-тега в документе вы можете видеть напротив каждой исключенной страницы в графе «Последнее посещение». Если с момента последнего обращения робота страницы стали доступными, то они автоматически будут проиндексированы по мере обхода сайта, после чего появятся в поиске с обновлениями поисковых баз.

В коде документа в тэге <link> содержится параметр rel="canonical", содержащий канонический адрес страницы, по которому она индексируется роботом. Как правило, тег <link> с атрибутом rel="canonical" прописывают на дублирующих страницах сайта, в этом случае ничего исправлять не требуется.

Если страницы дублями не являются и должны индексироваться роботом, то вам необходимо убрать атрибут из их исходного кода.

Travys

#6
У меня исключен Disallow: /*PHPSESSID
Но в то же время попадаются страницы с этим тегом нужные, которые я бы хотел в индексе оставить.
И почему в адресе одной темы есть Disallow: /*PHPSESSID, а в другой теме нет?
http://beautyforum.by/index.php?topic=567.0
http://beautyforum.by/index.php?PHPSESSID=7d190brrs6950immcpa7fd42m6&topic=192.msg374
И от куда яндекс вообще рисует такие адреса.
Захожу через форум в эту же тему, адрес нормальный без PHPSESSID, яндекс добавляет эту балду и исключает из индекса.

ВладимирК

Открой исходный код страницы, искать noindex и увидишь где и чего. По умолчанию Форум запрещён к индексации - его index
Вообще то Яндекс здорово выпендривается.

Travys

Прошло пару часов и почти все страницы исключены из поиска.
Не понимаю, что за ошибка. :facepalm:
Почти все страницы яндекс сейчас видет с PHPSESSID. А он запрещен роботсом.

Yworld_garry

#9
Travys, поставьте более понятный ботам роботс. У вас там нагорожено и нет логики, половина вообще исключает друг друга и не правильно, не  работает. В общем ваш надо сносить он кривой и не правильный.
Посмотрите в одноименной теме.

content="noindex" - автоматически закрываются дубли, все так и должно быть.

PHPSESSID - выдается всем в первый раз, инфы море на форуме и мало того, в интернете)))


Цитата: ВладимирК от 06 января 2013, 07:56:41По умолчанию Форум запрещён к индексации - его index
Уважаемый, вы подумав написали?
Или опять исходя из своих личных экспериментов?
Хотя лучше не отвечайте, я помню все ваши темы и ответы, а сегодня выходной)))

Travys

Цитата: Yworld_garry от 06 января 2013, 10:51:13Travys, поставьте более понятный ботам роботс. У вас там нагорожено и нет логики, половина вообще исключает друг друга и не правильно, не  работает. В общем ваш надо сносить он кривой и не правильный.
Посмотрите в одноименной теме.

content="noindex" - автоматически закрываются дубли, все так и должно быть.

PHPSESSID - выдается всем в первый раз, инфы море на форуме и мало того, в интернете)))

User-agent: Googlebot-Image
Disallow: /

User-agent: YandexImages
Disallow: /

User-agent: msnbot-MM
Disallow: /

User-agent: Googlebot-Mobile
Allow: /*wap
Disallow: /

User-agent: YandexImageResizer
Allow: /*wap
Disallow: /

User-agent: MediaPartners-Google
Allow: /

User-agent: Baiduspider
Disallow: /

User-agent: *
Allow: /$
Allow: /*action=.xml
Allow: /*sitemap
Disallow: /*action
Disallow: /*wap
Disallow: /*board=*wap
Disallow: /*topic=*wap
Disallow: /*topic=*.msg
Disallow: /*topic=*.new
Disallow: /*;
Disallow: /*PHPSESSID
Allow: /*board
Allow: /*topic
Disallow: /
Sitemap: http://сайт/sitemap.xml
Crawl-delay: 5
Clean-param: PHPSESSID /index.php
Host: сайт

Этот ничего?

Yworld_garry

Пишу еще раз.
Цитата: Yworld_garry от 06 января 2013, 10:51:13Travys, поставьте более понятный ботам роботс. У вас там нагорожено и нет логики, половина вообще исключает друг друга и не правильно, не  работает. В общем ваш надо сносить он кривой и не правильный.
Посмотрите в одноименной теме.

ВладимирК

Yworld_garry Я Вас слушаюсь. У меня этот, тот какой велено.
------------------
User-agent: *
Allow: /*sitemap
Allow: /*rss
Allow: /*type=rss
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /Games/
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action
Disallow: /*prev_next
Disallow: /*all
Disallow: /*go.php
Host: БЕЗ WWW ВАШ САЙТ

User-agent: Slurp
Crawl-delay: 100

Yworld_garry

ВладимирК, надеюсь у вас теперь будет все ок с проектом, а то ваши эксперименты мягко выражаясь могли загнать в тупик даже уже раскрученный проект.

Slavegirl

#14
Цитата: Slavegirl от 04 января 2013, 16:36:27У меня тоже в индексе Google находится больше страниц, чем создано сообщений на форуме. Волноваться стоит начинать, когда все наоборот.

Цитата: Travys от 06 января 2013, 07:33:58День добрый! uglystupid
Сегодня яндекс исключил почти все страницы из индекса. я не могу понять в чем дело.

Именно то, о чем я писала выше. Теперь действительно стоит начинать волноваться. Любые неосознанные действия с robots.txt могут на многие месяцы выкинуть ресурс из индекса ПС.

Travys, у Вас же было все ОК. Я наблюдаю за многими форумами в Интернете, у них в индексе всегда на ~10-20% больше ссылок, чем создано сообщений. Это нормально (см. ссылки в моем примере, чтобы понять, почему это так).

Не стоит также забывать что параметры типа:
Disallow: /*all
Disallow: /*sort

блокируют все полезные ссылки вида:
http://domain.com/board/all-i-need-is-here/
http://domain.com/board/my-best-sorted-pictures/

И еще не совсем понятно наличие в предлагаемом здесь robots.txt правил:
Disallow: /Packages/
Disallow: /Sources/

Ни одна из страниц, генерируемых index.template.php, BoardIndex.template.php и Display.template.php не выводят для гостей (которыми также являются и ПС) подобных ссылок.

Travys

Цитата: Slavegirl от 06 января 2013, 15:24:05Travys, у Вас же было все ОК. Я наблюдаю за многими форумами в Интернете, у них в индексе всегда на ~10-20% больше ссылок, чем создано сообщений. Это нормально (см. ссылки в моем примере, чтобы понять, почему это так).
10-20% Это не 300% как в моем случае. Поставил правильный роботс. Теперь 2500 роботом загружено. и 2400 роботом исключено.

Yworld_garry

Slavegirl, изучите вопрос и хотя бы гляньте в тему роботс. А просто бла бла не стоит, или ваше чпу распространяется на все форумы, да даже в вашем случаи, весь мусор не нужен в выдаче. Сначала все же стоит подумать перед тем как написать. Продолжать дтискусиию на эту тему не буду, есть под 1000 ответов и вопросов в теме где уже все перетерто.

Travys, вы посмотрите свой индекс, на сколько я вижу он с последнего апа вырос. В гугле 1200 стр, но в соплях море. Это логично так как тем живых не много и уникальных не так много, я например сразу на какой то копипаст наткнулся.
Посмотрите какие страницы загружены и какие исключены.
На самом деле проблем с индексацией быть не должно если все правильно в часть того же роботс, нет моря копипаста, форум живой и ботам вообще есть что индексировать кроме картинок копипаста и пары фраз.

Travys

Да. Вырос он конкретно. Но страницы исключены. Копипаста в принципе быть недолжно. Я контролирую этот момент срого.
Написано , что исключены роботсом страницы. 2837
Поставил только что такой роботс:
User-Agent: *

Allow: /*sitemap
Allow: /*rss
Allow: /*type=rss
Allow: /*board
Allow: /*topic
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action
Disallow: /*prev_next
Disallow: /*all
Disallow: /*PHPSESSID
Disallow: /*go.php
Disallow: /index.php$
Host:  www.сайт
Sitemap: http://сайт/index.php?action=sitemap;xml

User-agent: Slurp
Crawl-delay: 100

User-agent: Twiceler
Disallow: /

User-agent: Baiduspider
Disallow: /

User-Agent: W3C-checklink
Disallow: /

Уникальность контанта 90%. Только что проверил

Yworld_garry

Еще раз напишу, проверьте какие страницы исключены из индекса, там же есть урлы. И если это дубли и мусор, значит не переживайте и все будет ок.
Упоминаний о вашем форуме в яндексе всего 25, есть смысл задуматься о внешних факторах.
Трансляцию например ленты, постинг или автопостинг в твиттер и фейсбук и контакт и майл.
Тут тема есть как сделать, индексирует темы в течении 10-15 минут.

remingtone

Цитата: Slavegirl от 06 января 2013, 15:24:05блокируют все полезные ссылки вида:
http://domain.com/board/all-i-need-is-here/
http://domain.com/board/my-best-sorted-pictures/
sort уберите из роботс, т.к. на таких страницах в коде есть <meta name="robots" content="noindex, nofollow"/>
а all у вас вроде вообще отключено - тоже можно убрать из роботс

Yworld_garry

Да на самом деле во всех дублях этот тег, кроме не нужных в индексе экшенах.
Но во первых это не запрет, а рекомендация и успешно индексится всеми пс и находится в том же гугле. Лишняя нагрузка на сервак, абсолютно не нужная и не несущая смысловой нагрузки. Отвлечение ботов от нужных страниц и тд и тп. Хотя да все ок в этом плане, но хуже не будет. Карта и роботс, но и конечно не косячить с контентом и перебором всякими тегами выделяющими, как некоторые любят.
По этому стоит грамотно настроить роботс и не парится в дальнейшем. Две рекомендации лучше одной.