Первая версия robots.txt , для более полной индексации.

Автор Yworld_garry, 04 октября 2008, 23:59:13

« назад - далее »

0 Пользователи и 3 гостей просматривают эту тему.

millioner85


Yworld_garry

User-agent: Googlebot-Mobile
User-agent: YandexImageResizer

Так работать не будет, каждому боту свой блок.
Собственно как и внизу у вас с ограничениями ботов.
Первый блок поставьте тот что для всех.

millioner85

Т.е. так:


User-agent: *
Allow: /*sitemap
Allow: /*action=forum
Allow: /*rss
Allow: /$
Allow: /*board*.0$
Allow: /*topic*.0$
Disallow: /Sources/
Disallow: /cgi-bin/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /cache/
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Themes/
Disallow: /*action
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*prev_next
Disallow: /*all
Disallow: /*PHPSESSID
Disallow: /index.php$
Disallow: /*theme
Disallow: /*start
Disallow: /*;
Clean-param: PHPSESSID/index.php

User-agent: Googlebot-Mobile
Allow: /*wap
Allow: /*imode
Disallow: /

User-agent: YandexImageResizer
Allow: /*wap
Allow: /*imode
Disallow: /

User-agent: Mediapartners-Google
Allow: /*action
Allow: /*.new
Allow: /*.msg
Allow: /*.topicseen

User-agent: Twiceler
Disallow: /

User-agent: Baiduspider
Disallow: /

User-agent: W3C-checklink
Disallow: /

User-agent: slurp
User-agent: msnbot
Crawl-delay: 120

Host:
Sitemap:

Yworld_garry

Host:
Sitemap:
Добавить в основной блок.
Это для чего?
Disallow: /*; # такое яндекс врят ли поддерживает.

millioner85


millioner85

Еще вопрос (не в тему, но спрошу):
На сколько положительно отразится редирект с /index.php на / на индексации в поисковиках и на продвижении форума в целом?

Yworld_garry

Если имеете в виду только главную, то думаю все будет ок. Но не стоит ставить именно редирект. Точнее я не люблю таких лишних конструкций попусту напрягающих и по мне так абсолютно не нужных. Просто закройте в роботс.
Что то типо того
Disallow: /index.php$
Если собрались убрать из всех урлов, то ждите сюрпризов.

millioner85


Yworld_garry


Xansen

я так понимаю идет обсуждение убирания дубля морды...

подскажите как мне сделать тоже самое для версии 1.1.15

сейчас в выдаче вижу вот что:

Yworld_garry

То что приведено выше, работать будет на чем угодно и на какой угодно версии.

Xansen

а может быть лучше делать редирект(с передачей ссылочного) с index.php на / ибо как я понимаю в противном случае я просто запрещаю индексацию, но вес то от ссылок которые идут на index.php не передаю на /

remingtone

не в первый раз замечаю, что в ошибках сканирования появляются страницы, не запрещенные к сканированию, и к ним приписка: URL, запрещенный файлом robots.txt. захожу в "посмотреть как гуглбот", проверяю страницу - все отлично. причем такие страницы добавляются с каждым заходом гугла. что бы это могло быть и как с ним бороться?

millioner85

Загрузил, проверил яндексом,
вот такое он написал

30: Clean-param: PHPSESSID/index.php   Некорректный формат директивы Clean-param

Как правильно?

Yworld_garry

Цитата: okk от 12 октября 2011, 13:53:14
не в первый раз замечаю, что в ошибках сканирования появляются страницы, не запрещенные к сканированию, и к ним приписка: URL, запрещенный файлом robots.txt. захожу в "посмотреть как гуглбот", проверяю страницу - все отлично. причем такие страницы добавляются с каждым заходом гугла. что бы это могло быть и как с ним бороться?
Пример в студию, несколько урлов. В телепатическом шлеме кончились батарейки.
Цитата: millioner85 от 12 октября 2011, 17:07:18
Загрузил, проверил яндексом,
вот такое он написал

30: Clean-param: PHPSESSID/index.php   Некорректный формат директивы Clean-param

Как правильно?
Disallow: /*PHPSESSID
Или вы хотите каждому боту объяснять про сессии. Директива Clean-param годится для блока конкретно яндексу.
Правила ниписания могу конечно привести, но в мане яндекса и так все описано подробно.
http://help.yandex.ru/webmaster/?id=996567#1041216

millioner85

Т.е. надо после основного блока добавить это:

User-agent: Yandex
Disallow:
Clean-param: PHPSESSID/index.php

ЗЫ: Disallow: /*PHPSESSID стоит для всех.

Yworld_garry

Посмотрите первый пост, там приведен файл и можно увидеть где стоит эта строка.
Clean-param - в основном блоке не надо использовать

Yworld_garry

Цитата: millioner85 от 12 октября 2011, 18:41:37
Т.е. надо после основного блока добавить это:

User-agent: Yandex
Disallow:
Clean-param: PHPSESSID/index.php

Если так сделаете, то бот яндекса будет руководствоваться только своим не самым радостным блоком. Нужно делать отдельный блок со всеми правилами.

Bugo

Цитата: millioner85 от 12 октября 2011, 17:07:18
Загрузил, проверил яндексом,
вот такое он написал

30: Clean-param: PHPSESSID/index.php   Некорректный формат директивы Clean-param

Как правильно?
Не надо на пробелах экономить.

millioner85

Цитата: Bugo от 12 октября 2011, 18:51:20
Не надо на пробелах экономить.

А конкретней? я чет не догоняю, как правильно параметр Clean-param: прописать!  wallbash

Yworld_garry


remingtone

делюсь наблюдениями по своей проблеме с ошибками сканирования. та же страница, что попала вчера в ошибки, как запрещенная, вчера же оказалась и в индексе, и все нормально. так что получается, это гуглоглюк :)

Bugo


remingtone

несколько страниц проверил, это не сложно. кстати, ошибки только по одному разделу, который в pretty вначале назывался иначе, потом (давно) был переименован. тем не менее, гугл в свежих ошибках выдает его старое название (в урл). а редирект с индекса гугла прекрасно работает и отправляет со старого на новое название. вот такая путаница. Вы не согласны, что это гуглоглюк?

Yworld_garry

Мы своими руками запутываем поисковики, различными редиректами, заменой названий и тд и тп. В кеше пс одно, а мы хотим что бы все это махом удалилось и обновилось.

remingtone

а редирект для ботов ПС не работает? или работает, но они все равно фиксируют отсутствующую страницу?
и еще: в ошибке выдает "URL, запрещенный файлом robots.txt", а раздел был просто переименован и он не запрещен. в том-то и дело, что ошибка не 404

Yworld_garry

Редирект работает конечно, но не моментально меняет все в кеше ПС.
По второму вопросу нужно смотреть что там у вас. Конкретные урлы ...

remingtone

я ж давал. была рекомендация по х-трекеру и типа бить хостера. но не пойму причем тут хостер к "URL, запрещенный файлом robots.txt"....

Yworld_garry

Вы писали о выдаваемой 500 ошибке боту и проблемами DNS
В общем вечерком гляну. У вас там стоит какой то мод ЧПУ, роботс нужно делать исходя из генерируемых урлов, могут быть сюрпризы. возможно в правилах конфликт или...

remingtone

а, да, была одна и 500. а по ЧПУ - стоит pretty, но в принципе сканерами-то все отлично пробивается и индексируется вроде ок, просто ошибки висят в панели вебмастера и это слегка напрягает. запрещено только то, что не нужно: стандартный набор и скрытый раздел. в общем, спасибо, жду вечера

Yworld_garry

Пишу для всех в 100500 раз.
Смотрим первый пост. Есть время и желание, смотрим всю тему.

Для тех кто по разным причинам пишет отличный от представленного файл:

Если делаете свой файл robots.txt , проверяйте в панелях вебмастера и в гугле и в яндексе. Делайте его логичным, а не беспорядочное использование директив.
Не перегружайте ни кому не нужными и правилами, если нет крайней необходимости закрыть какой то единственный параметр ссылки.

Не лепите в начале файла :
User-agent: Googlebot
User-agent: Yahoo! Slurp
User-agent: MSNBot
User-agent: StackRambler
User-agent: Aport

Это не работает, каждому боту свой блок.

Либо
User-agent: *
Это универсально.
Если нужен конкретно блок для одного бота, то делаем так
User-agent: Googlebot
бла
бал
бла


Если вводим директиву поддерживаемую конкретным ботом, делаем отдельный блок, ПОЛНЫЙ.
User-agent: Yandex
бла
бла
бла
Clean-param


Директива
Host:
Пишется в блоке, а не через строку, поддерживает яндекс. Для гугла работает только редирект.

Если пишем правила для ограничения сканирования, то для каждого бота отдельно и отступаем строку
User-agent: *
бла
бла
бла
Clean-param

User-Agent: MJ12bot
Crawl-Delay: 5


remingtone

ну вот смотрите. было:

user-agent: *
bla
bla
bla

user-agent: Yandex
bla
bla
bla


при этом ни с кем не было проблем, кроме яндекса, который игнорировал запреты, ссылаясь на *
получается, из-за одного яндекса надо делать отдельные, полные блоки для каждого бота? схема user-agent: * + user-agent: Yandex не проходит. кстати, сейчас все работает нормально, а вы смотрели наверно с телефона, т.к. строка 115 - для User-agent: Googlebot-Mobile :) для него у меня открыто только wap и imode :)

вот скриншот по именно этой ссылке. об этом и был мой вопрос: в доступе для сканера все ок, в индексе все ок, а в ошибках сканирования - по этим ссылкам ошибки... о! может быть в ошибки сканирования попадает статистика и по гуглботу и по гуглмобайл? такой вариант все объясняет. текущий robots.txt я проверял по целой куче страниц с различными параметрами и яндексом и гуглом. и все работает

Yworld_garry

Дык да, в логи идут все запреты.
Насчет отдельного блока. Рекомендую делать для яндекса отдельный, если стоят его директивы, да и удобнее управлять им из отдельного блока. Делов на 1 минуту, скопировать и добавить то что нужно яндуху.

remingtone

Цитата: Yworld_garry от 14 октября 2011, 22:32:30
Дык да, в логи идут все запреты.
Насчет отдельного блока. Рекомендую делать для яндекса отдельный, если стоят его директивы, да и удобнее управлять им из отдельного блока. Делов на 1 минуту, скопировать и добавить то что нужно яндуху.
спасибо, я уже проанализировал ошибки по роботс, устранил, все проверил - все класс. ну так если все запреты идут в логи - все понятно, блин хоть бы как-то помечали их, а то я месяц мучался вопросом lol

Yworld_garry

Это у гугла такой метод обучения вебмастеров.
Добровольно-принудительный  2funny

Если покапаться в тех функциях которые он предоставляет для улучшения сайта, то думаю и до суицида вебмастера не далеко 2funny


Xansen

а насчет моего то вопроса будут какие нить мысли?!

вроде всем должно быть интересно не терять вес главной...
Цитировать
а может быть лучше делать редирект(с передачей ссылочного) с index.php на / ибо как я понимаю в противном случае я просто запрещаю индексацию, но вес то от ссылок которые идут на index.php не передаю на /

Yworld_garry

Есть необходимость, делайте редирект. Со временем должно сработать. Но как правило на главную форума идет мизерное количество ссылок.
Все ссылки, если их и ставят, идут на темы, посты.
И это логично.

Xansen

Да я за каждый бэк линк на мой сайт готов футболку на себе разорвать, а Вы такие вещи говорите)))

а типовое решение для этого не подскажете?!

Yworld_garry

Проверьте урлы форума

RewriteCond %{THE_REQUEST} ^[A-Z]{3,9}\ /index\.php\ HTTP/
RewriteRule ^index\.php$ http://ваш_сайт/ [R=301,L]

Xansen

Спасибо огроменное!!! Счастья Вам, жены хорошей:)
а ничего что у меня форум на поддомене? от этого код не меняется?

Yworld_garry

Дык введите адрес в указанном месте и попробуйте. Не заработат, значит нужно переделывать. :)

Xansen

ёперный театр, всё работает)))

еще вопрос, у меня в htaccess есть запись:
RewriteEngine on
RewriteRule ^[^.]*[^./](\.(msg)?[0-9.]+|\.new)?$ /index.php [L]

Что она значит можете расшифровать и сверху или снизу мне вставлять Ваш код?!

remingtone

#643
несложный для спецов вопрос по clean-param и pretty urls. каким образом правильнее прописать clean-param для адресов типа /forum/ххххх/хххххххх/msg8407/#msg8407... и там дальше еще мусор. чтобы обрезалась вся правая часть, начиная от msg8407 ?
на знак * яндекс ругается, хотя у них же в хелпе написано, что "При этом * трактуется так же, как в robots.txt"
вот такая штука Clean-param: msg* /forum/* не работает

Drakonsa

Цитата: okk от 15 октября 2011, 23:40:50
несложный для спецов вопрос по clean-param и pretty urls. каким образом правильнее прописать clean-param для адресов типа /forum/ххххх/хххххххх/msg8407/#msg8407... и там дальше еще мусор. чтобы обрезалась вся правая часть, начиная от msg8407 ?
на знак * яндекс ругается, хотя у них же в хелпе написано, что "При этом * трактуется так же, как в robots.txt"
вот такая штука Clean-param: msg* /forum/* не работает
Clean-param: /forum/*/*/msg*/*

А если двигать примерно в этом направлении?

Bugo

* можно использовать только для префиксов, но не для параметров. В конце префиксов * указывать не обязательно, она подразумевается.
Параметр — это то, что в адресе идет после ? или & (но не после #):

remingtone

#646
Цитата: Drakonsa от 16 октября 2011, 01:46:34
Clean-param: /forum/*/*/msg*/*

А если двигать примерно в этом направлении?
спасибо, но получается "Некорректный формат директивы Clean-param"///

upd

а подскажите плз, для вот такого url

http://хххххх.ххх/forum/ххх/хххх/msg2319/#msg2319?хххх=ххх&ххххх=ххх

вот такой

Clean-param: msg /forum/*/*/

корректен? в смысле, он отрежет полностью msg2319/#msg2319?хххх=ххх&ххххх=ххх или надо через & указывать и #msg*, и хххх=ххх, и ххххх=ххх...? яндекс перестал выдавать ошибку и при проверке вышеуказанного url пишет "разрешено".

alexvod

Добрый день!

Как правильно закрыть от индексации профили пользователей? Поставил Disallow: /profile/ , но часть адресов все равно индексируется. Пример



Хотя все эти адреса содержат /profile/, часть из них разрешена для индексации

Yworld_garry


alexvod

#649
Цитата: Yworld_garry от 25 октября 2011, 12:02:50Что панель яндекса и гугла говорит?

Яндекс говорит, что некоторые профили индексировать можно. Пример


Но до меня не доходит, почему закрыв от индексации /profile/ , часть профилей все равно остаются открытыми для индексации. Может это просто глюк Яндекса?