Первая версия robots.txt , для более полной индексации.

Автор Yworld_garry, 04 октября 2008, 23:59:13

« назад - далее »

0 Пользователи и 2 гостей просматривают эту тему.


decebel2

Не знаю как у кого конечно, но у меня в последнее время яндекс перестал кушать добавленные в панели пути на сайтмап. Зато на раз съедается прописанный путь: В моем случае это выглядит вот так:
Sitemap: http://мойсайт.ру/index.php?action=sitemap;xml Настоятельно рекомендую указывать подчеркнутое выше в своем sitemap.

valday666

Disallow: /forum/*action

А это точно необходимо указывать? Ведь у галереии ссылка как раз вида index.php?action=media
Получается, галерея не будет индексироваться поисковиками?
Использую моды: Custom Board Icons, Users Online Today, Aeva Media, Auto Email Inactive Users, Thank-O-Matic, Karma Description Mod, Global Headers Footers, Sitemap, Add Favicon.ico Support, Watermark.light, Watermark.light for AEVA

GeorG

Верстка тем по шаблону, их доработка/переработка, переделка тем с версии smf 1.1 на smf 2.0. Примеры работ - insidestyle.ru
Установка модов (заточка под ваш форум); Моды под заказ; Обновление форума; Правильный перенос; Удаление/лечение вирусов; Устранения ошибок.
Обращаться в ЛС
Мой форум
Модуль анти-спама CleanTalk, сам пользуюсь
Сервера которыми сам пользуюсь - cadedic.ru

valday666

Использую моды: Custom Board Icons, Users Online Today, Aeva Media, Auto Email Inactive Users, Thank-O-Matic, Karma Description Mod, Global Headers Footers, Sitemap, Add Favicon.ico Support, Watermark.light, Watermark.light for AEVA

pekhota

Сделал как написано на первой странице. Теперь при заходе на форум вылазит:

Parse error: syntax error, unexpected T_STRING, expecting ',' or ';' in .../Themes/default/index.template.php on line 126

117: <meta name="keywords" content="' . $context['meta_keywords'] . '" />' : '', '
118: <title>', $context['page_title_html_safe'], '</title>';
119:
120: // Please don't index these Mr Robot.
121: if (!empty($context['robot_no_index']))
122: echo '
123: <meta name="robots" content="index, follow" />;
124:
125: // Present a canonical url for search engines to prevent duplicate content in their indices.

126: if (!empty($context['canonical_url']))

127: echo '
128: <link rel="canonical" href="', $context['canonical_url'], '" />';
129:
130: // Show all the relative links, such as help, search, contents, and the like.


Что не так сделал?

Yworld_garry

На первой странице много написано.
Что конкретно сделали?
Но так как все работает и проверено, стоит вернуть все назад и сделать ещё раз.

pekhota

#457
Цитата: Yworld_garry от 23 ноября 2010, 01:43:01
На первой странице много написано.
Что конкретно сделали?
Но так как все работает и проверено, стоит вернуть все назад и сделать ещё раз.

Целый час сижу

Заменил код в файле /forum/Themes/default/index.template.php
с <meta name="robots" content="noindex" />';
на <meta name="robots" content="index, follow" />;

Перестало работать. Результат выложил выше

Упс, заработало.
Верхний апотстроф нужно было добавить после >

Дабы не вводить новичков в заблуждение, замените текст в первом посте, пожалуйста
Цитировать

 
Цитировать"Для более полной индексации начал тестировать новый роботс. :)

    Подготавливаем форум к его использованию.
    В файле Themes\index.template.php"


В папке Themes нет файла index.template.php

Можно, например так написать "В файле Themes\..Ваш шаблон..\index.template.php""

Yworld_garry

pekhota, пост объединил, постарайтесь высказывать мысль в одном посте. Достаточно трудно читать три подряд идущих поста.

Пока не вижу смысла в изменении. Ибо суть там ясна и тем более под свои дизы...
Ну если кому то опять придётся такое получить как у вас, то думаю увидит ваш пост.

Inter

ололо

# Google, StackRambler, Yandex, Aport - Важные боты для нас.
# К сожалению их останавливает тег noindex.
# Если вы удалили noindex коснтрукцию то это должно пригодиться.
# Для всех ботов
User-agent: *
Allow: /forum/*sitemap
Allow: /forum/*arcade # если не стоит мод игр, удалить без пропуска строки
Allow: /forum/*rss
Allow: /forum/*type=rss
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*all
Disallow: /forum/*go.php # либо тот редирект что стоит у вас
Host: www.мой сайт.ru # указать ваше главное зеркало

User-agent: Slurp
Crawl-delay: 100


это ошибка:

Allow: /forum/*sitemap
Allow: /forum/*arcade # если не стоит мод игр, удалить без пропуска строки
Allow: /forum/*rss
Allow: /forum/*type=rss
I'm the law and you can't beat the law

|censored| 'em and their law

Crack down at sundown

Yworld_garry

Inter не пойму о чем написан пост.
Если о ошибке в файле, то её нет. Читать маны. Либо элементарно проверить в панелях ПС.

Если о другом, то подробнее. Посты написанные для экстрасенсов, будут удалятся.

Bugo

Возможно, он хотел сказать, что Google или Yandex ругаются на символы кириллицы в комментариях (хотя кто мешает их удалить?) :)

GeorG

Ну так это и в первом посту рекомендуется -
ЦитироватьЕсли решите использовать, рекомендую комменты мои удалить
Верстка тем по шаблону, их доработка/переработка, переделка тем с версии smf 1.1 на smf 2.0. Примеры работ - insidestyle.ru
Установка модов (заточка под ваш форум); Моды под заказ; Обновление форума; Правильный перенос; Удаление/лечение вирусов; Устранения ошибок.
Обращаться в ЛС
Мой форум
Модуль анти-спама CleanTalk, сам пользуюсь
Сервера которыми сам пользуюсь - cadedic.ru

Inter

Allow: /forum/*sitemap

писать Allow не нужно

ставите только Disallow: и всё  8)
I'm the law and you can't beat the law

|censored| 'em and their law

Crack down at sundown

Yworld_garry

Уважаемый Inter если вы немного вникните в в вопрос, тогда прошу в темку. А писать просто так, не стоит.
Зайдите в панель и проверьте без разрешения.
Или вам не говорит ничего вот это
Disallow: /forum/*action

alexvod

Извиняюсь, если дублирую вопрос. На форуме установлен ЧПУ.
Одна и та же страница доступна по адресам (со слэшем и без)

http://__аллергофорум.рф/астма/нужны_ли_гормоны_при_астме/
http://__аллергофорум.рф/астма/нужны_ли_гормоны_при_астме

Как правильно отразить это в robots.txt чтобы поисковые системы не расценили это как дубль?

Disallow: /*
Disallow: */


Z


Макар

Оба этих правила запретят индексацию как со слешем так и без него .
Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

Z

Смысл вообще это индексить? www.sape.ru читайте, модератор!

Макар

Причем здесь сапа ? Перед тем как давать ответ проверьте его в http://webmaster.yandex.ru/robots.xml
Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

alexvod

Цитата: Makar от 19 декабря 2010, 00:15:16
Оба этих правила запретят индексацию как со слешем так и без него .

И форум вообще перестанет индексироваться?
Нужно чтобы индексировалось только со слешем.

Еще есть вопрос: раз стоит ЧПУ можно ли закрыть index.php?
Disallow: /*index.php

Z

#471
Ой, я про сапу думал просто. Имелся ввиду серч. Там есть мой полный развернутый ответ,ищите

Макар

Цитата: alexvod от 19 декабря 2010, 00:29:26
И форум вообще перестанет индексироваться?
Нужно чтобы индексировалось только со слешем.

Еще есть вопрос: раз стоит ЧПУ можно ли закрыть index.php?
Disallow: /*index.php

да
нужно подумать
вообще то со старых адресов должен передаваться 301 редирект
Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

TXT

#473
А вот интересно даже на примере этого сайта.
Разве не хватает Disallow: /*.msg ?
Зачем атрибутировать такие ссылки  rel="nofollow" ?
Расскажите, если есть смысл.

Тимур

Народ какой вид ЧПУ первый или второй?
1) http://__mama-nana.ru/forums-__mama-papa/index.php?board=5.0
2) http://__mama-nana.ru/forums-__mama-papa/board,5.0/

Если так
Allow: /forums-__mama-papa/*index.php?board=
Disallow: /forums-__mama-papa/*board
напишу, то второй вид будет закрыт в роботс?

alexvod

Прошу помощи. Форум SMF 2 RC4 + Pretty URLs

Мой robots расположен здесь
http://__аллергофорум.рф/robots.txt

В Яндекс-Вебмастере оказались запрещенными к индексации нужные страницы, например
http://__аллергофорум.рф/ринит/

Я не могу разобраться почему. Что именно в роботсе запрещает такие страницы к индексации?

Макар

скорее всего Яша не понимает или не считывает кодировку урла

и выдает на кирилицу синтаксическую ошибку

а вот на закодированный улр не ругается

   http://__аллергофорум.рф/%D1%80%D0%B8%D0%BD%D0%B8%D1%82/   разрешен   
http://xn--80agfxainapd7aj.xn--p1ai/%D0%B4%D0%B5%D1%80%D0%BC%D0%B0%D1%82%D0%B8%D1%82/   разрешен   
http://xn--80agfxainapd7aj.xn--p1ai/%D0%B0%D1%81%D1%82%D0%BC%D0%B0/   разрешен
Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

Тимур

Народ, с Новым годом!!!
Так никто не подскажет? А то запутался, где же урл с включенным ЧПУ, а где нет.
Просто в Яндексе два вида проиндексировано, хочу один закрыть, подскажите пожалуйста.
Цитата: Тимур от 30 декабря 2010, 00:34:50
Народ какой вид ЧПУ первый или второй?
1) http://__mama-nana.ru/forums-__mama-papa/index.php?board=5.0
2) http://__mama-nana.ru/forums-__mama-papa/board,5.0/

Если так
Allow: /forums-__mama-papa/*index.php?board=
Disallow: /forums-__mama-papa/*board
напишу, то второй вид будет закрыт в роботс?

Макар

forums-__mama-papa/index.php?topic=38.0 - это без ЧПУ
forums-__mama-papa/index.php?topic=38.0.html - это с ЧПУ

а то что ты привел для примера , это вообще что ?   - forums-__mama-papa/board,5.0/

ЧПУ ссылка на раздел должна выглядеть типа index.php/board,5.0.html   

откуда у тебя взялся слеш в конце ?
Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

alexvod

Цитата: Makar от 30 декабря 2010, 23:43:51
скорее всего Яша не понимает или не считывает кодировку урла
и выдает на кирилицу синтаксическую ошибку

Спасибо.

Однако в панели вебмастера в разделе SiteMap

нет ошибок
нет замечаний


Тимур

Цитата: Makar от 04 января 2011, 21:16:29
forums-__mama-papa/index.php?topic=38.0 - это без ЧПУ
forums-__mama-papa/index.php?topic=38.0.html - это с ЧПУ

а то что ты привел для примера , это вообще что ?   - forums-__mama-papa/board,5.0/

ЧПУ ссылка на раздел должна выглядеть типа index.php/board,5.0.html   

откуда у тебя взялся слеш в конце ?
Откуда взялся слеш не скажу, так было, так и в Яндексе проиндексировано
1) http://__mama-nana.ru/forums-__mama-papa/topic,38.0/
2) http://__mama-nana.ru/forums-__mama-papa/index.php?topic=38.0 
одна и та же страница по двум адресам. Кстати без слеша нет такого урла
http://__mama-nana.ru/forums-__mama-papa/topic,38.0

Теперь я совсем запутался, если  ЧеловекоПонятныеУрлы
http://__mama-nana.ru/forums-__mama-papa/index.php?topic=38.0.html
, то http://__mama-nana.ru/forums-__mama-papa/topic,38.0/ эти, как получились?
И ответьте по закрытию в роботсе от индексации я сделал правильно?

Фисташка

Вопрос такой:
- Как исключить из поиска главную страницу? В поиск попадают названия тем, юзеры попадают не в тему.

nash17

при попыике установить Sitemap выдает ошибку тут

./Themes/core/index.template.php

пишет - "Неудачно"

если у меня тема "core" это отразится на форуме?

и еще вообще моя цель изменить индексацию Яндексом страниц с типа: ХХХХХ.org/index.php?PHPSESSID=0f9b813af34b09e548326fdc96030be0&topic=175.0
на
типа: ХХХХХ.org/index.php?topic=175.0 (как в гугле)

Yworld_garry

1) 100500 раз написано, в поиск.

2) все давно решено, читать топик.

wallbash knuppel

Xansen

Подскажите пожалуйста, полностью ли актуальна информация из первого поста данной темы, или чтобы оптимизировать форум необходимо читать все 49 страниц?:)

если первый пост актуален, тогда вопрос: зачем закрывать принт-пэйдж если есть каноникал?!

Yworld_garry

Все актуально, но стоит пробежать темку, дабы не возникало вопросов. Хотя бы в разрезе как настроить под себя файл и где проверить.
Канонизация это только у гугла. Да и он с ними работает не самым лучшим образом на форумах,  точнее на форумах слишком много факторов "отвлекающих" от этого тега ботов.

Xansen

А если у меня уже и так форум хорошо проиндексирован есть мне смысл убирать от индексации принт.пайджи? и вообще что с таким форумом имеет смысл делать?:)

ТИЦ ?   90   
Страниц в поиске   71459   
Внешних ссылок на страницы сайта   49072   
Время последнего посещения сайта роботом   31.01.2011   
Загружено роботом   876765   
Исключено роботом   8777   


спасибо!

Yworld_garry

#487
Если все устраивает, включая посещаемость. Нет в индексе мусора и по статистике переходы идут туда куда нужно, нет левых посещений принтов и всякой хрени. Индекс исключительно из целевых страниц.
Собственно тут уже дело ваше.
Можно просто Наслаждаться :coolsmiley:


Но всегда хочется лучшего ;)

Xansen

Хотел спросить по пункту 7:
7 Используйте последний из опубликованных версий robots.txt
А где его взять?

Yworld_garry

В первом посте можно скачать или скопировать.

TXT

Очень хорошо закрыть от индексации категории на главной, иначе в индексе будет не только хттп://сайт/форум, но и всякие хттп://сайт/форум#ид_категории. Можете проверить сами.

В файле BoardIndex.php меняете $context['categories'][$row_board['ID_CAT']]['link'] = '<a name="' . $row_board['ID_CAT'] . '" href="' . (isset($row_board['canCollapse']) ? $context['categories'][$row_board['ID_CAT']]['collapse_href'] : $context['categories'][$row_board['ID_CAT']]['href']) . '">' . $row_board['catName'] . '</a>';на $context['categories'][$row_board['ID_CAT']]['link'] = '<a name="' . $row_board['ID_CAT'] . '" href="' . (isset($row_board['canCollapse']) ? $context['categories'][$row_board['ID_CAT']]['collapse_href'] : $context['categories'][$row_board['ID_CAT']]['href']) . '" rel="nofollow">' . $row_board['catName'] . '</a>'; (для 1.1.12)

В роботс.тхт мы не можем поместить эту инструкцию, потому что # - это по стандарту комментарий.

Фисташка

Цитата: TXT от 06 февраля 2011, 11:51:36
Очень хорошо закрыть от индексации категории на главной
Спасибо! То, что нужно! Может следует и это закрыть (ниже):
Найти:
	
	
	
$this_last_post['href'] = $scripturl '?topic=' $row_board['ID_TOPIC'] . '.msg' . ($user_info['is_guest'] ? $modSettings['maxMsgID'] : $row_board['new_from']) . (empty($row_board['isRead']) ? ';boardseen' '') . '#new';
	
	
	
$this_last_post['link'] = '<a href="' $this_last_post['href'] . '" title="' $row_board['subject'] . '">' $row_board['short_subject'] . '</a>';


Заменить:
	
	
	
$this_last_post['href'] = $scripturl '?topic=' $row_board['ID_TOPIC'] . '.msg' . ($user_info['is_guest'] ? $modSettings['maxMsgID'] : $row_board['new_from']) . (empty($row_board['isRead']) ? ';boardseen' '') . '#new';
	
	
	
$this_last_post['link'] = '<a href="' $this_last_post['href'] . '" title="' $row_board['subject'] . '" rel="nofollow">' $row_board['short_subject'] . '</a>';


Разве правило в robots это не закрывает?:
Disallow: /*board

???

TXT

rustava, ну new и в роботс закрыт.

А насчет категорий - сейчас я уже далеко не так уверен, что Гугл их индексирует :D

Yworld_garry

Цитата: TXT от 08 февраля 2011, 15:09:38
rustava,
А насчет категорий - сейчас я уже далеко не так уверен, что Гугл их индексирует :D
Да смысла немного в выше описанных действиях. ПС в настоящее время отлично отделяют форумы или точнее определяют форумы и индексируют их по соответствующим алгоритмам.

nash17

Поставил роботс, интересное дело пошло с рекламой от гугла, на половине страниц она или не показывается или показывается социальная реклама. Может проблема в моем роботсе, кому не сложно посмотрите (у меня джумла + SMF):
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Allow: /forum/*sitemap
Allow: /forum/*rss
Allow: /forum/*type=rss
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*all
Host: www.ХХХ.org
Sitemap: http://ХХХ.org/component/option,com_xmap/Itemid,25/sitemap,1/
Sitemap: http://ХХХ.org/forum/index.php?action=sitemap
User-agent: Twiceler
Disallow: /
User-Agent: W3C-checklink
Disallow: /
User-agent: Slurp
Crawl-delay: 100


еще вопрос, как правильно указать sitemap? Allow: /forum/*sitemap или Sitemap: http://ххх.org/forum/index.php?action=sitemap


и еще, что это?
Disallow: /forum/*go.php

Mavn

реклама гугла

User-agent: Mediapartners-Google
Allow: /*


в теме в общем на все ваши вопросы есть ответы
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

nash17

Не знаю у кого как, а у меня все пошло на спад.
После установки роботса и сайтмэпа по всем ПС пошло вниз((((((((((

Уже задумываюсь о возврате в стандартное положение.

Yworld_garry

Что вниз то пошло или на спад? :facepalm:
Если страниц в индексе меньше стало, так это мусор весь уйдет. И останутся целевые страницы, на которые будут целевые переходы и тд и тп.

На строку ниже переместите от первого блока, это уже новый блок.
User-agent: Slurp
Crawl-delay: 100

nash17

#498
Прошу прощения не правильно выразился.

Я говорил про посещаемость, то есть с Гугла и Яндекса стало меньше приходить на форум на несколько сотен людей. На Новый Год даже таких спадов не было.

Изначально допустил ошибку - в файле Themes\index.template.php не сделал нужных изменений.
Походу из-за этого Яша выкинул с индекса.
Еще надеюсь, что перемелится.

STAS

Добавил в роботс строчку
Disallow: /*PHPSESSID
Так как в яндексе многие страницы через пхпсессид индексировались. В итоге выкинуло большую часть страниц, а новые не добавляются. Контент уникальный, да и вообще странно яндекс определяет уникальность контента, иногда такую фигню индексирует...
Я уже и ноиндекс в коде заменил как тут описано и сайтмэп добавил, сайтмэп яндекс определил отлично, прошла неделя - толку нет. Помогите советом, основной трафик с яндекса шел (любит он мой форум), теперь посещаемость упала сильно. (((
http://krasmoda.com Первый форум о моде в Красноярске.
Здесь мы делимся не только информацией, но и мнениями.