Первая версия robots.txt , для более полной индексации.

Автор Yworld_garry, 04 октября 2008, 23:59:13

« назад - далее »

0 Пользователи и 13 гостей просматривают эту тему.

Yworld_garry

С 18 февраля был всего один ап в яндексе 27 числа.
Так что пока просто ничего и не могло нового у вас в индекс попасть.
Пока стоит подождать.

STAS

Цитата: Yworld_garry от 02 марта 2011, 08:36:34
С 18 февраля был всего один ап в яндексе 27 числа.
Так что пока просто ничего и не могло нового у вас в индекс попасть.
Пока стоит подождать.
Оно всегда так редко или это мне так "повезло"?
http://krasmoda.com Первый форум о моде в Красноярске.
Здесь мы делимся не только информацией, но и мнениями.

Yworld_garry

Обычно гораздо чаще апы, но в этот раз яндух мутит с алгоритмами и думаю нас всех ждут разные сюрпризы.

nash17

Цитата: STAS от 02 марта 2011, 09:03:46
Оно всегда так редко или это мне так "повезло"?
http://pr-cy.ru/updates - посмотрите статистику апов
Вам повезло, собственно как и мне.
Я не внес изменения в файле Themes\index.template.php за что и поплатился вылетом с индекса Яши (-400 посетителей в сутки) и как на зло 10 дней пришлось ждать апа, хотя обычно он каждые 3-4 дня. После апа ситуация поправилась, но на прежний уровень еще не вернулся.

STAS

Цитата: STAS от 02 марта 2011, 06:39:13
Добавил в роботс строчку
Disallow: /*PHPSESSID
Так как в яндексе многие страницы через пхпсессид индексировались. В итоге выкинуло большую часть страниц, а новые не добавляются. Контент уникальный, да и вообще странно яндекс определяет уникальность контента, иногда такую фигню индексирует...
Я уже и ноиндекс в коде заменил как тут описано и сайтмэп добавил, сайтмэп яндекс определил отлично, прошла неделя - толку нет. Помогите советом, основной трафик с яндекса шел (любит он мой форум), теперь посещаемость упала сильно. (((
До сих пор в Яндексе 33 страницы всего! Причем сайтмэп он регулярно смотрит и определяет с него 280 страниц. В чем дело может быть? Может яндекс запомнил те страницы и не хочет мои нормальные индексировать чтоб не было задвоений?
http://krasmoda.com Первый форум о моде в Красноярске.
Здесь мы делимся не только информацией, но и мнениями.

Ломака

Все в порядке, просто... просто яндекс эту неделю неадекватен. У меня страницы то появляются в выдаче, то отпадают. Думаю, что прогон по социалкам вам пошел--бы на пользу ^-^ Напомните вечером, прогоню.
Зы. А че на сайтмап линка нет? или я его просто не увидел? и...

Allow: /*sitemap
Allow: /*rss
Allow: /*type=rss
Allow: /*feed

STAS

Цитата: Ломака от 07 марта 2011, 11:45:03
Все в порядке, просто... просто яндекс эту неделю неадекватен. У меня страницы то появляются в выдаче, то отпадают. Думаю, что прогон по социалкам вам пошел--бы на пользу ^-^ Напомните вечером, прогоню.
Зы. А че на сайтмап линка нет? или я его просто не увидел? и...

Allow: /*sitemap
Allow: /*rss
Allow: /*type=rss
Allow: /*feed
Ну это добавлю, но раньше и без этих строчек работало. А сайтмэп есть, просто я не делал ссылку на главной. http://krasmoda.com/sitemap.xml

Что значит прогон по социалкам? Это как делается?
http://krasmoda.com Первый форум о моде в Красноярске.
Здесь мы делимся не только информацией, но и мнениями.

Ломака

Прогон по доскам социальных закладок. Это делается для ускорения индексации страниц. Ну и еще, как вариант можно подключить публикацию в твиттер.

STAS

Цитата: Ломака от 07 марта 2011, 12:19:59
Прогон по доскам социальных закладок. Это делается для ускорения индексации страниц. Ну и еще, как вариант можно подключить публикацию в твиттер.
Роботс поправил. То есть это пишутся объявления в каких-то разделах соцсетей?
http://krasmoda.com Первый форум о моде в Красноярске.
Здесь мы делимся не только информацией, но и мнениями.

Ломака

Да, именно. Но вручную рутинно, я софтом загоняю. Делается ради ускорения индексации. Софт покупал для гс, хочу потренироваться с сапой. Ну и форум свой иногда гоняю.

Yworld_garry

#510
Все что не по топику в личку или другую тему.

STAS, у вас форум лежит не в корне, а robots.txt частично настроен на корень. По этому он и не работает.

Не хватает директории /forum/

Отодвинуть на одну строку вниз, это новый блок
User-agent: Slurp
Crawl-delay: 100

Уберите верхний бегун, или при 50 униках у вас есть доход?
Собственно вообще пока реклама не нужна, создается впечатление что форум сделан для открутки рекламы. Яндекс далеко не тот даун что был пяток лет назад и сечет это все на раз у молодых проектов.

STAS

Цитата: Yworld_garry от 07 марта 2011, 12:58:53
Все что не по топику в личку или другую тему.

STAS, у вас форум лежит не в корне, а robots.txt частично настроен на корень. По этому он и не работает.

Не хватает директории /forum/

Отодвинуть на одну строку вниз, это новый блок
User-agent: Slurp
Crawl-delay: 100

Уберите верхний бегун, или при 50 униках у вас есть доход?
Собственно вообще пока реклама не нужна, создается впечатление что форум сделан для открутки рекламы. Яндекс далеко не тот даун что был пяток лет назад и сечет это все на раз у молодых проектов.
Исправил. Хотя реклама там уже давно висит и раньше никак не влияла.


Disallow: /*PHPSESSID
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action
Disallow: /*all
Disallow: /*go.php
Disallow: /*prev_next
Disallow: /*all

В этой части не хватает директории /forum/ ?
http://krasmoda.com Первый форум о моде в Красноярске.
Здесь мы делимся не только информацией, но и мнениями.

Yworld_garry

И раньше весела, это конечно гут. Но индекса то нет.
Да добавить в приведенные строки.

STAS

Цитата: Yworld_garry от 07 марта 2011, 13:36:12
И раньше весела, это конечно гут. Но индекса то нет.
Да добавить в приведенные строки.
Спасибо, попробую. Реклама в основном для того чтоб попробовать как это, поучиться с ней работать и статистику кликов посмотреть.
Вот вроде в теме смотрел предлагаемый роботс много раз, а директорию форум пропустил. Надо же.
http://krasmoda.com Первый форум о моде в Красноярске.
Здесь мы делимся не только информацией, но и мнениями.

Cx2

Цитата: STAS от 02 марта 2011, 06:39:13
Добавил в роботс строчку
Disallow: /*PHPSESSID
Так как в яндексе многие страницы через пхпсессид индексировались. В итоге выкинуло большую часть страниц, а новые не добавляются. Контент уникальный, да и вообще странно яндекс определяет уникальность контента, иногда такую фигню индексирует...
Я уже и ноиндекс в коде заменил как тут описано и сайтмэп добавил, сайтмэп яндекс определил отлично, прошла неделя - толку нет. Помогите советом, основной трафик с яндекса шел (любит он мой форум), теперь посещаемость упала сильно. (((

И не проиндексирует, т.к. движок создает сессии для Яндекса и добавляет их в адреса, т.к. Яндекс их не сохраняет в куки.
Правильнее так:
Clean-param: PHPSESSID /forum/index.php

Yworld_garry

Сессия генерится один раз, потом все идет как надо.
Можно и так, но это не запрет, а склейка страниц с одинаковым параметром. Нет время на это, да и смысл разрешить к индексу, а потом клеить.
Как сейчас сделано, оно изначально закрыто и работает у всех ПС.
Обсуждать и спорить не буду, так как хуже не будет. Но ни в коем случаи как отдельное условие.
Clean-param: можно добавить как вариант для яндекса.
Собственно с Clean-param: можно было наворотить изначально правил, но в данном случаи нужна универсальность и простота, для управления и понятия всеми ПС.

Добавить нужных ботов в админке и сессии им не будут генерится. Но это вторично.

STAS

Цитата: Yworld_garry от 07 марта 2011, 16:37:32
Сессия генерится один раз, потом все идет как надо.
Можно и так, но это не запрет, а склейка страниц с одинаковым параметром. Нет время на это, да и смысл разрешить к индексу, а потом клеить.
Как сейчас сделано, оно изначально закрыто и работает у всех ПС.
Обсуждать и спорить не буду, так как хуже не будет. Но ни в коем случаи как отдельное условие.
Clean-param: можно добавить как вариант для яндекса.
Собственно с Clean-param: можно было наворотить изначально правил, но в данном случаи нужна универсальность и простота, для управления и понятия всеми ПС.

Добавить нужных ботов в админке и сессии им не будут генерится. Но это вторично.

Тогда вопрос как ботов добавить? Как и обычного пользователя завести? А где их айпишники взять?
http://krasmoda.com Первый форум о моде в Красноярске.
Здесь мы делимся не только информацией, но и мнениями.

STAS

Цитата: Yworld_garry от 07 марта 2011, 13:36:12
И раньше весела, это конечно гут. Но индекса то нет.
Да добавить в приведенные строки.
Что-то пока не изменилось ничего. Вижу что яндекс обрабатывает мой роботс корректно, видит и каждый день обновляет сайтмэп, ссылки с других сайтов, а вот количество проиндексированных страниц будто замерзло на отметке 33! wallbash
http://krasmoda.com Первый форум о моде в Красноярске.
Здесь мы делимся не только информацией, но и мнениями.

nash17

потому что выдачи не было
будет выдача яндекса - будет и изменения количества страниц

STAS

Цитата: nash17 от 11 марта 2011, 09:10:05
потому что выдачи не было
будет выдача яндекса - будет и изменения количества страниц
wallbash д....ный тормозной яндекс! Будет выдача - обязательно напишу об изменениях, до этого у меня неплохо индексировал именно яндекс с немного другим роботсом.
http://krasmoda.com Первый форум о моде в Красноярске.
Здесь мы делимся не только информацией, но и мнениями.

STAS

Роботс заработал. Начал добавлять но медленно. С 33 до 60, теперь до 80... Вопрос: количество проиндексированных страниц в идеале должно совпадать с количеством записей в сайтмэпе?
А для домена 3 уровня я так понимаю нужен свой роботс и в корень той папки? И если у меня папка домена 3 уровня лежит в корне, где и роботс, лучше запретить ее индексацию в основном роботсе и сделать отдельный для домена 3 уровня? Сейчас я так понимаю у меня боты индексируют домен 3 уровня, но вроде понимают что это другой сайт.
http://krasmoda.com Первый форум о моде в Красноярске.
Здесь мы делимся не только информацией, но и мнениями.

Yworld_garry

1) Если сайт в три странички, то да.
2) Для каждого домена должен быть свой в корне. Не важно какого уровня.
3) Нет закрывать не надо, так как в любом случаи они при переходе видят сайт.
4) Видят как сайт если все правильно настроено на хосте.

Солярис

Всех приветствую!

Яндекс странным образом стал индексировать сайт. Индексирует вот такие адреса: http://www.сайт.ru/index.php?PHPSESSID=24c03629b4d2cfcd3b70fdb1d57570e3&action=printpage;topic=3849.0

Как с этим бороться? Запрет на индексацию принтпейджа установлена. Но под этот запрет подобный адрес не подпадает.

Заранее спасибо.

mdm

Солярис, добавте строчку Disallow: /*PHPSESSID

У меня вопросик, нужно ли для НОВОГО форума закрывать разделы от индексации? Например так
Disallow: /forum/*board

Солярис

Я об этом уже думал. Но вот почему-то в размещенных здесь примерах файла роботс.тхт не содержится такой строчки.

mdm


Yworld_garry

По топику обсуждали PHPSESSID , но так как искать и читать не всегда удобно в не маленькой теме.
Добавил в шапку файл включающий в себя.
Disallow: /*PHPSESSID

Удалил не актуальные версии.

Фисташка

Цитата: mdm от 28 марта 2011, 13:44:54
У меня вопросик, нужно ли для НОВОГО форума закрывать разделы от индексации? Например так
Disallow: /forum/*board
На ваше усмотрение. Если хотите, что бы в индекс попадали описания и названия разделов, то закрывать не нужно.

Но, если юзер пришёл по поисковому запросу, который совпал с названием топика и попал не в сам топик, а в раздел с названием этого топика, который, уже может быть не на этой странице, а на следующей, какова вероятность что он будет продолжать поиск на вашем форуме?

Солярис

Цитата: mdm от 28 марта 2011, 13:52:49
Поставте мод _http://dragomano.ru/page/optimus-brave очень полезная вещь
Спасибо за информацию. Но мне не нужен такой обширный доп. функционал у данного мода.

Цитата: Yworld_garry от 28 марта 2011, 14:31:27
По топику обсуждали PHPSESSID , но так как искать и читать не всегда удобно в не маленькой теме.
Добавил в шапку файл включающий в себя.
Disallow: /*PHPSESSID

Удалил не актуальные версии.
Понятно, спасибо.

Но не скажется ли это в худшую сторону на индексации? Ведь форум очень часто отображает для гостей адрес с сессией. А бот для форума - это гость.
Как бы получается палка о двух концах. С одной стороны удаляются из индекса повторы, с другой бот может проиндексировать только адрес с сессией, когда иного ему форум что называется не представляет.

Макар

Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

Солярис

Кстати, сейчас глянул в проге сайтаудитор, к примеру, у данного форума проиндексировано 24000 адресов, что 2,5 раза большее, чем данный форум содержит реальных тем и других урлов. То есть в индексе присутствует какие-то явно лишние страницы. Быть может, те же самые страницы с сессией, ведь в роботс у этого сайта они не запрещены для индексации.

Солярис

Цитата: Макар от 28 марта 2011, 16:29:13
Нет не скажется :)
Извините, но я залез на Ваш форум и глянул ваш роботс. У Вас сессии запрещены к индексации. :)

И вот, что интересует. Допустим бот зашел на форум и был выдан движком адрес с сессией. Он этот адрес НЕ индексирует, но проиндексирует ли он ПОСЛЕ ЭТОГО этот же адрес без сессии?! Вот в чем вопрос?

Ведь для того, чтобы робот проиндексировал этот же адрес, но без сессии, надо, чтобы роботу был такой адрес предоставлен. А мы не знаем сподобится ли форум отобразить в следующий раз этот же адрес в нормальном виде.

Или поисковик все равно выудит нормальный адрес из сайтмэпа?!

Yworld_garry

1) посмотрите вот так site:тут сайт. А через сайт аудитор можно общий индекс словить, не тот что в выдаче.
2) Добавьте ботов яндекса в админке форума и не будет им сессий.
3) Проиндексирует без сессий, будет все ок.
4) Выудит из мапы, внутренних ссылок и тд.

Файл robots.txt это не запрет, но рекомендации, коим следуют боты. Не всегда сразу, но следуют.
В индексе гугла может очень долго висеть мусор наиндексенный до установки или по другим причинам.
Например проставленные внешние ссылки на страницу с сессиями.....

Макар

Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

Фисташка

Цитата: Солярис от 28 марта 2011, 16:45:39
Кстати, сейчас глянул в проге сайтаудитор, к примеру, у данного форума проиндексировано 24000 адресов, что 2,5 раза большее, чем данный форум содержит реальных тем и других урлов. То есть в индексе присутствует какие-то явно лишние страницы. Быть может, те же самые страницы с сессией, ведь в роботс у этого сайта они не запрещены для индексации.
Кстати, http://www.simplemachines.ru:
В индексе гугла 13000 страниц сайта simplemachines.ru
Из них в основном индексе 598 страниц;
В дополнительном индексе 12402 страниц.

Качество сайта simplemachines.ru 5%


Качество (трастовость) сайта можно навскидку оценить, посмотрев, какая часть от общего числа проиндексированных Гуглом документов этого сайта избежала попадания в дополнительный индекс (Supplemental Index) Гугла.

Чем больший процент страниц сидит в основном индексе, тем качественнее сам сайт в понимании Гугла. Залезание сайта преимущественно в дополнительный индекс говорит о неуважении Гуглом этого ресурса вследствие низкого качества материалов сайта. А потому и поискового трафика Вы оттуда не дождётесь.


Итак, основной индекс гугла site:site.ru/* -> покажет страницы, которые гугл ценит
дополнительный индекс+основной site:site.ru

Данные динамические, с каждым апом меняются.

Yworld_garry

Не хочу разводить тут разговор насчет Supplemental, ну не все так просто и абсолютно, даже когда это было свежо и актуально, не так было. Точнее абсолютно не так работало, как представлялось это появившимся как грибы сервисам. И не будем делать шаг в прошлое.
Тема можно сказать давно себя изжила и не актуальна. Кому интересно что это было и к какому мнению народ пришел/не пришел, покапайтесь в архивах серча.

Солярис

#536
Цитата: Yworld_garry от 28 марта 2011, 17:48:43
1) посмотрите вот так site:тут сайт. А через сайт аудитор можно общий индекс словить, не тот что в выдаче.
2) Добавьте ботов яндекса в админке форума и не будет им сессий.
1. Указанным Вами способом количество проиндексированных яндексом адресов данного форума показывается таким же - 24000.

2. Дело в том, что в форуме версии 1.1.13 нет подобного функционала и внести ботов не представляется возможным.

valday666

Не подскажите, почему у яндекса и гугла может быть разное количество страниц в поиске?

В вебмастере Гугл:
Sitemap   Статус   URL в интернет-индексе
/xmap.html?sitemap=1&view=xml  58
/forums/index.php?action=sitemap;xml  367

А в яндексе:
Загружено роботом   Страниц в поиске
24175   1811

Может sitemap для форума неправильный?



PR гугла упал с 1 до 0 и траффик гугловский тоже сильно сократился
Использую моды: Custom Board Icons, Users Online Today, Aeva Media, Auto Email Inactive Users, Thank-O-Matic, Karma Description Mod, Global Headers Footers, Sitemap, Add Favicon.ico Support, Watermark.light, Watermark.light for AEVA

Yworld_garry

Это разные поисковики и разные технологии.
Ни когда не будут одинаковы данные из панелей.

valday666

Цитата: Yworld_garry от 06 апреля 2011, 09:13:55
Это разные поисковики и разные технологии.
Ни когда не будут одинаковы данные из панелей.
Это понятно, но даже, если учесть, что на форуме свыше 700 тем и на сайте еще около 30 статей, получается, в индексе гугла далеко не все. Поисковик же не может исключать сам какие-то определенные страницы?
Использую моды: Custom Board Icons, Users Online Today, Aeva Media, Auto Email Inactive Users, Thank-O-Matic, Karma Description Mod, Global Headers Footers, Sitemap, Add Favicon.ico Support, Watermark.light, Watermark.light for AEVA

Gnostis

Может, дубликаты.
К примеру http://www.simplemachines.ru/index.php?topic=5089.530;topicseen
http://www.simplemachines.ru/index.php?topic=5089.msg92058#msg92058

для поисковика это разные страницы с дублирующимся контентом, для пользователя это одна и та же страница =)


Yworld_garry

Может исключать сам все что угодно. Любые страницы и разделы.
Сравнивать эти две ПС нет смысла.

STAS

Цитата: STAS от 11 марта 2011, 11:35:33
wallbash д....ный тормозной яндекс! Будет выдача - обязательно напишу об изменениях, до этого у меня неплохо индексировал именно яндекс с немного другим роботсом.
Ну теперь все в гору поползло, яндекс с роботсом как в этой теме нашел более 230 страниц у меня. Это конечно не все, но и больше чем раньше.
ЧТД  :)
http://krasmoda.com Первый форум о моде в Красноярске.
Здесь мы делимся не только информацией, но и мнениями.

CedarMill

Как будет правильней поставить запрет:
Disallow: /*go.php
или
Disallow: /go.php
?
I love SMF and Joomla!

Yworld_garry

Disallow: /*go.php
Оставьте так, подойдет для различных вариантов.

mdm

Первый раз установил на форум галерею, теперь задумался о правильной индексации. В роботсе имеются следующие строчки:
Allow: /*media*item
Allow: /*media*album


В тоже время в галереи есть различные виды сортировок которые по сути являются дублями основных страниц, например:
http://сайт.ru/index.php?action=media;fw;
http://сайт.ru/index.php?action=media;sort=1
http://сайт.ru/index.php?action=media;asc

Как закрыть такие страницы в роботсе?

Фисташка

User-agent: Yandex
Disallow: /*mgallery*media*preview
Disallow: /*mgallery*media*thumb
Allow: /*mgallery*item
Allow: /*mgallery*media
Disallow: /*mgallery

для гугла чуть по другому

mdm

чет не понял каким правилом будет запрещена индексация этой страницы? http://сайт.ru/index.php?action=media;fw;

Фисташка

Ах, да, у вас aeva. Ну, по аналогии, замените (или уберите?) *mgallery

mdm

неполучается, делаю так на ссылку http://сайт.ru/index.php?action=media;fw;
Disallow: /*media*fw
так вся галерея становится закрытой, почему то приоритет становится на правило
Disallow: /*action  пишет запрещен правилом /*action*