Сервис генерации sitemap

Автор FladeX, 05 сентября 2009, 18:12:41

« назад - далее »

0 Пользователи и 2 гостей просматривают эту тему.

FladeX

Всем доброго времени суток!
Представляю вашему вниманию новый сервис онлайн-генерации файлов sitemap, заточенный под форумные движки, в частности SMF. "Заточенный" в данном случае означает, что сервис учитывает структуру форума при генерации sitemap файлов.

Использование сервиса очень простое - вам нужно лишь ввести адрес форума и указать его движок, затем дождаться появления ссылки на готовый архив.

Хотелось бы услышать от владельцев SMF пожелания и предложения по работе сервиса.

Добавлено 27.12.2009

Добавлены две новых функции:
1. Генерирование sitemap для списка пользователей форума.
Опциональная возможность, доступная при генерации sitemap. При включенной опции, к обычным sitemap будет добавлен еще один xml файл, содержащий ссылки на профили пользователей. Файл специально сделан отдельно, что во многих случаях будет полезно.
2. Учитывание директив robots.txt при генерировании sitemap
Опциональная возможность, доступная при генерации sitemap. При включенной опции сервис будет при создании sitemap учитывать директивы файла robots.txt. Если, к примеру, какие-то страницы запрещены к индексации в robots.txt, то они не будут включены в sitemap.


А вот и он сам - Sitemap generator.

BIOHAZARD

мягко говоря не очень

у меня на форуме ЧПУ - ваш сканер умудрился дать сайтмап БЕЗ ЧПУ, а такие адреса у меня запрещены к индексации через роботс

формат странный - карта в несколько сотен адресов бъётся на куски
зачем?

короче смысла никакого, я лучше уж своим скриптом в пару килобайт буду и дальше пользоваться, чем такие эксперименты проводить, а потом удивляться: "почему это меня Яша разлюбил"
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

FladeX

Спасибо за мнение!

Насчет ЧПУ - да, пока поддержку нестандартного вида ссылок не прикрутили, но в ближайших планах это будет :) Поэтому, если не сложно, не могли бы вы дать ссылку на свой форум, чтобы можно было посмотреть формат ваших ссылок?

Насчет разбиения sitemap - это сделано специально с учетом генерации sitemap для больших форумов. Например, для forum.searchengines.ru сгенерированный sitemap весил 45Мб. Понятное дело, что при таких параметрах его ни один поисковик бы не обработал. Поэтому и решено было сделать такое вот разбиение для уменьшение веса файлов. Возможно, стоит эту возможость сделать опциональной, на выбор пользователя. Подумаю над этим...

BIOHAZARD

в профиле

у меня сайтмап пару килобайт - бить его нет смысла
по какому принципу бьётся, вообще не понятно
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

Gnostis

Проще использовать мод SiteMap

Во первых долго генерируется.
Во вторых не имеет смысла, регулярно пересоздавать придется, админы народ ленивый, предпочитаю автоматизацию.
В третих был в шоке, создан 1 Sitemap в которым Sitemap всех разделов форума.
В четвертых у меня используется дружественный URL и ссылки имеют вид __forum-url/index.php/topic,400.0.html, а не __forum-url/index.php?topic=236.0

Было бы гораздо удобней что бы сервис самостоятельно генерировал карту сайта и поисковые системы могли ее забирать с сервиса...

FladeX

Разбивается по категориям. Каждый форум или подфорум - отдельный файл.

FladeX

Цитата: Gnostis от 05 сентября 2009, 18:54:04
Проще использовать мод SiteMap

Во первых долго генерируется.
Для небольших форумов возможно проще использовать мод. А вот для крупных лучше все-таки с помощью сервиса.
Время генерации можно было бы уменьшить, но тогда хостинги форумов могут воспринять это как ddos-атаку (слишком много обращений к форуму будет).
Цитата: Gnostis от 05 сентября 2009, 18:54:04
Во вторых не имеет смысла, регулярно пересоздавать придется, админы народ ленивый, предпочитаю автоматизацию.
Ну так это надо было написать не как недочет, а как предложение :) Например, у меня уже сейчас в планах добавление некоторой автоматизации по созданию sitemap. А вот как лучше это все оформить, зависит от пользователей сервиса.
Цитата: Gnostis от 05 сентября 2009, 18:54:04
В третих был в шоке, создан 1 Sitemap в которым Sitemap всех разделов форума.
Почему в шоке? Это стандарт протокола sitemap.
Цитата: Gnostis от 05 сентября 2009, 18:54:04
В четвертых у меня используется дружественный URL и ссылки имеют вид __forum-url/index.php/topic,400.0.html, а не __forum-url/index.php?topic=236.0
Ага, об этом уже писали. Постараюсь в следующем обновлении сервиса добавить поддержку ЧПУ ссылок.
Цитата: Gnostis от 05 сентября 2009, 18:54:04
Было бы гораздо удобней что бы сервис самостоятельно генерировал карту сайта и поисковые системы могли ее забирать с сервиса...
К сожалению, Google не поддерживает такую возможность. Я хотел ее реализовать, но все упирается в Google - он не позволяет указывать sitemap сайта, расположенного не на самом сайте.
Насчет автоматической генерации sitemap - будет со временем.

Gnostis

ну для гугла можно и зеркало сделать, это в любом случае будет менее затратно чем карту сайта создавать каждый раз заново.

FladeX

Не совсем понял, как можно использовать зеркало в данном случае... Поясните, пожалуйста.

Например, у нас есть домен example.org. На нем расположен форум example.org/forum/ Так вот, для гугла sitemap можно расположить только по адресу example.org/* (то есть домен можно указать только этот, со сторонних ресурсов гугл просто не примет карту форума).

Gnostis

Простым php скриптом, скачивать файл(ы) Sitemap к себе.
А про карту сайта с гуглом знаю, может с ними пообщаться по этому вопросу?)

FladeX

Ну в принципе скриптом можно, да только это по времени более затратно (первоначальная настройка), да и открывать доступ для скачивания не каждый администратор будет.

С саппортом гугла пообщаться конечно можно, да вот только они обычно на все отвечают лаконично и отрицательно :(

Gnostis

скажем так можно даже не скачивать, а транслировать напрямую.

Т.е. при обращении к Sitemap.xml через htacces перекидываемся скажем на SimeMap.php  который в свою очередь парсит сторонний SiteMap и возвращает его поисковику.

Можно воспринимать как бред сумасшедшего =)

Yworld_garry

Да всё будет ок со временем. Многим будет полезен, особенно в начале проекта.
1 Настройки мапа
2 Более прозрачный механизм разбиения, а лучше опционально.
2 Возможность поиграть разделами.
4 Акк для обновления своей карты.
5 После всего не валить сервера и не ддосить


Gnostis мы не ищем лёгких путей ^-^
Даже звучит круто, боюсь это представить на бумаге. :D

Gnostis

В любом случае автоматизации придется создавать 2 пауков, 1 создает карту, 2 для проверки не удалили ли URL.

FladeX

Цитата: Gnostis от 05 сентября 2009, 19:19:48
Т.е. при обращении к Sitemap.xml через htacces перекидываемся скажем на SimeMap.php  который в свою очередь парсит сторонний SiteMap и возвращает его поисковику.
Боюсь так не получится, так как редиректы в данном случае наврядли прокатят.

Yworld_garry, спасибо за развернутый ответ!
Цитата: Yworld_garry от 05 сентября 2009, 19:24:51
1 Настройки мапа
2 Более прозрачный механизм разбиения, а лучше опционально.
2 Возможность поиграть разделами.
4 Акк для обновления своей карты.
5 После всего не валить сервера и не ддосить
1. А какие именно настройки нужны? :)
2. Для начала сделаю опционально. Чекбокса "разбивать на несколько файлов" в форме генерации на первое время должно хватить имхо.
3. В смысле? Исключить для индексации некоторые разделы? На данный момент бота сервиса можно добавить через админку как поискового бота, соответственно видеть он сможет только то, что ему положено видеть, поэтому никакие скрытые разделы форумов в sitemap попасть не могут при всем желании.
4. Вот насчет регистрации пользователей идея неплохая, сам об этом уже думал. Но с другой стороны многие ведь ленятся потратить 3 минуты для регистрации, и таких посетителей я просто потеряю.
5. Да вроде не валим и не ддосим. Между запросами установлен тайм-аут (яндекс и то чаще обращается к страницам), поэтому и время генерации такое продолжительное.

Gnostis

>>4. Вот насчет регистрации пользователей идея неплохая, сам об этом уже думал. Но с другой стороны многие ведь ленятся потратить 3 минуты для регистрации, и таких посетителей я просто потеряю.

скажем так, для тех кто не зареган оставить все как есть, а для зарегистрированных пользователей сделать настройки и автосоздание мапы, ну и еще какие нить плюшки.

FladeX

Ну да, согласен. Пожалуй, самый оптимальный вариант их всех возможных.

Yworld_garry

Настройки имел ввиду именно те что вы описали во втором пункте.
Я понимаю что бот видит только разрешённые разделы. Но я допустим хотел бы добавить в карту раздел открытый ботам как пользователям, но закрытый от гостей(есть такая фишка в форумах).

И регистрацию сделать по желанию, но именно с тем функционалом. А те кто не хочет тратить время получают что то по проще.

FladeX

Цитата: Yworld_garry от 05 сентября 2009, 19:45:40
Я понимаю что бот видит только разрешённые разделы. Но я допустим хотел бы добавить в карту раздел открытый ботам как пользователям, но закрытый от гостей(есть такая фишка в форумах).
Для этого достаточно будет добавить сервис в список ботов. Я уже добавил соответствующие данные в тему про определение поисковых ботов.

Yworld_garry

Как акки будут, зовите на тест.

FladeX


Gnostis

>Для этого достаточно будет добавить сервис в список ботов. Я уже добавил соответствующие данные в тему про определение поисковых ботов.

В линейке 1.1 это делается только модом
В линейке 2.0 это уже стандартная функция

BIOHAZARD

всё же как ни крути, а кинуть на сайт один php скрипт и загнать его в крон гораздо проще, чем пользоваться вашим сервисом, но начинающим админам он, возможно, пригодится
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

Gnostis

Я по началу сделал скрипт на базе ssi генерации SiteMap, потом уже мод поставил.

BIOHAZARD

Цитата: Gnostis от 06 сентября 2009, 07:23:37
Я по началу сделал скрипт на базе ssi генерации SiteMap, потом уже мод поставил.
сразу сделал всё руками, без SSI, мод ставить ради этого не собираюсь
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

Gnostis

А мне могли бы Вы кодом поделится?)

FladeX

Цитата: Gnostis от 06 сентября 2009, 07:53:13
А мне могли бы Вы кодом поделится?)
Если можно, то это в другую тему, пожалуйста :)

Макар

а меня не сгенерировало ВООБЩЕ

ЦитироватьSelected URL is invalid or not contains forum

о как

форум в подписи
Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

FladeX

Makar, у вас мод портала, наверно из-за этого. Попробуем исправить, спасибо за баг-репорт.

FladeX

Прикрутили поддержку seo-модов. Протестируйте плиз.

Mavn

Ребят кстати вопросики есть:
1. форум целиком и полностью индексируется для создания карты??
2. если да то, что мне помешает запустить создание карты одного форума с 20+- разных компов одновременно и просто уложить его в даун?
Не задумывались над тем что прежде чем индексировать пользователь создал бы например определенный файлик тем самым подтвердив что является владельцем форума и только после этого производить индексацию?? есть ли какие либо механизмы для подобного рода защиты??
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

FladeX

1. В sitemap включаются ссылки на все темы форума. Со временем список обрабатываемых страниц увеличится, но это будет доступно как минимум после регистрации.
2. Есть тайм-аут, в течение которого все новые запросы будут приводить к закачке уже сгенерированного архива. Кроме того, сервер взят "с запасом".

Различного рода идеи про подтверждение прав мы пока что пропустили, так как это многим администраторам будет лень делать.
В качестве защиты можно использовать бан бота по user-agent (ForumMap Crawler). Возможно добавим также поддержку robots.txt, но это не в ближайших планах.

Roman_Grishin

Цитата: Mavn от 02 октября 2009, 23:43:23
2. если да то, что мне помешает запустить создание карты одного форума с 20+- разных компов одновременно и просто уложить его в даун?
Отличное замечание, админ! Именно так и произошло с моим форумом. Форум более 5000 постов и дофигище тем, и не надо даже с нескольких компов запускать (я правда сейчас не об этом сервисе говорю) - какой-то я использовал другой сервис, так он, когда сайтмап делает, заходит на форум с 100+ серверов и долбает все ссылки, у меня за вечер получилось 400 000 запросов к БД, мне хостер написал что они уже специально ко мне домой их сервер выслали, посыпанный сибирской язвой...
Отключили мне форум на неделю...
Короче хочешь "подгадить" своему другу - админу: запусти пару-тройку сайтмап-сервисов  2funny
Христианский форум для всех! - Видение G12 в России!
►СПАСИБО ВСЕМ УЧАСТНИКАМ ЭТОГО ФОРУМА, БЛАГОДАРЯ ВАМ У МЕНЯ ФОРУМ РАБОТАЕТ БЕЗ ПРОБЛЕМ◄

Mavn

не.. просто почему спрашиваю, у меня есть генератор карты и если например там не выставить таймауты обращения к серваку количество запросов и прочие параметры ограничивающие сканирование страниц в единицу времени то сервак положить вполне реально и не важно какая у него будет конфига :) ради интереса тестировали на 2 горшковом ксеоне  :), сервер стабильно отрабатывал запросы в течении 5 минут после чего становился недоступным и уже не реагировал ни на что пока я руками не прекращал выполнение скрипта :)
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Yworld_garry

Вот от таких "шутников" и ошибок личных, подойдёт отлично эта штука.
http://www.simplemachines.ru/index.php/topic,8206.0.html

Mavn

Yworld_garry
решение подходит для обычного хостинга, если же свой сервер то лучше это делать средствами фаервола ибо апач то полюбому отрабатывает запросы а следовательно пусть не так сильно но нагрузка всеравно возрастет.
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Yworld_garry

Mavn, это конечно, но для тех у кого есть проблемы со "школьниками" на не своих серверах, срабатывает.

Mavn

FladeX
кстати если уж совсем извращаться с сервисом то можно пойти и немного другим путем. выяснить какие еще сайты хостятся на данном серваке и послать одновременно запросы и к ним и если будет достаточное количество то вполне вероятно что сканируемый сервак может полечь :). Ладно извращаться с мыслями больше не буду, а то малоли начнут использовать не по назначению :)...
я это к тому что лень или не лень а стоит всеже проводить проверку хоста перед сканированием.
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

FladeX

Мы тайм-аут поставили в 2 секунды между каждым обращением бота (у яндекса вроде именно такое значение стоит). Возможно сделаем возможность установки своего тайм-аута.
И еще по нагрузке на сервер - бот примерно равен одному активному серферу, при этом несколько раз запустить генерацию не получится. Поэтому особой нагрузки наш сервис не вызовет, разве что аналогичную от одного пользователя.

FladeX

Цитата: Yworld_garry от 05 сентября 2009, 19:58:05
Как акки будут, зовите на тест.
Сделали :)

Собственно список новых плюшек:

  • регистрация пользователей
  • англоязычная версия
  • вывод статистики
Регистрация пользователей нужна для того, чтобы не приходилось подолгу ждать ссылку на сгенерированный sitemap - теперь она будет приходить на указанный при регистрации e-mail. Ну и к тому же со временем будет появляться дополнительный функционал.

artb1sh

Я не вкурсе как работает sitemap, по моему это обычный xml, раз это так, то линк вида:
/вашфорумsmf2/index.php?action=.xml
не подойдет ли как sitemap?

FladeX

artb1sh, посмотрел на примере этого форума - нет, не подойдет, так как структура совсем другая.

FladeX

Сейчас прикручиваем поддержку списка пользователей форума - опционально можно будет добавлять в карту форума. По этому поводу хотелось бы попросить вашей помощи.

Итак, у нас сейчас поддерживаются чистый SMF и с модификацией Seo4SMF. Подскажите, пожалуйста, соответствующие форумы, где бы список пользователей не был закрыт от гостей и ботов. Заранее спасибо.

FladeX

Что-то вроде новогоднего подарка пользователям сервиса :) Добавлены две новых функции:
1. Генерирование sitemap для списка пользователей форума.
Опциональная возможность, доступная при генерации sitemap. При включенной опции, к обычным sitemap будет добавлен еще один xml файл, содержащий ссылки на профили пользователей. Файл специально сделан отдельно, что во многих случаях будет полезно.
2. Учитывание директив robots.txt при генерировании sitemap
Опциональная возможность, доступная при генерации sitemap. При включенной опции сервис будет при создании sitemap учитывать директивы файла robots.txt. Если, к примеру, какие-то страницы запрещены к индексации в robots.txt, то они не будут включены в sitemap.

С Новым годом!

Mavn

Обновил первое сообщение темы.
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

FladeX

Mavn, спасибо!
Цитата: Roman_Grishin от 03 октября 2009, 00:24:06
Короче хочешь "подгадить" своему другу - админу: запусти пару-тройку сайтмап-сервисов  2funny
Вам смешно, а вчера после начала генерации один форум слег :-[ Было немного не по себе. Правда, как показал разговор с владельцем форума, причина отключения форума была совсем другая - на хостинге завелся злобный вирус  ^-^