XWare Поиск по информационным ресурсам МГУ English Russian
       
       Точная форма слов   О проекте   Сайты   Помощь
Администраторам сайтов

Могу ли я использовать вашу поисковую машину для поиска только по моему сайту ?
Можете, но при соблюдении некоторых требований. Подробнее об этом написано на странице О проекте

Как часто индексируются сайты ?
Мы стараемся поддерживать поисковую базу как можно актуальной, обычно полная индексация всей коллекции сайтов занимает 3-4 дня.

Я послал заявку, чтобы мой сайт был включен в вашу коллекцию, но он до сих пор не включен в вашу базу ?
На это может быть несколько причин:
  • Ваш сайт не подходит по тематике коллекции
  • Во время последнего обхода ваш сайт не отвечал на запросы (по причине отсутствия связи или сбоев в работе вашего сайта)
  • Администратор не успел включить ваш сайт в нашу коллекцию по тем или иным причинам (администратор тоже человек - может и заболеть)

Как сделать так, чтобы часть сервера не индексировалась ?
Наш краулер, поддерживает стандарт "Robots exclusion protocol", прочитать подробнее, про который, можно здесь
Пример файла 'robots.txt', который должен быть доступен как http://ваш.сервер/robots.txt, и который предполагает, что директория /cgi-bin/ закрыта для доступа всем агентам, которые идентифицируют себя как 'Offline Explorer', а директория /private/ закрыта для всех
User-agent: Offline Explorer
Disallow: /cgi-bin/

User-agent: *
Disallow: /private/
Наш краулер можно опознать в логах вашего сервера по полю 'User-agent' GTSCrawler.

Не все страницы индексируются вашим краулером
Возможны несколько причин:
  • Ваши страницы используют Javascript и наш краулер не смог пройтись по всем линкам с таких страниц. Мы рекомендуем создать специальную страницу без использования javascript, содержащую ссылки на ваши страницы и послать ее URL администратору поисковой машины. В следующий раз краулер будет использовать ее как 'точку входа' в ваш сайт.
  • Ваш сайт доступен под несколькими именами, например www.ваш.сервер и ваш.сервер. Наш краулер распознает дубликаты страниц и поэтому кол-во документов может одного из серверов может сильно меньше. На странице статистики вы можете посмотреть статистику по всем синонимам вашего сервера (используйте поиск).
  • По умолчанию мы не индексируем CGI скрипты, страницы с одинаковым содержанием, но отличающиеся кодировкой (индексируется только одна копия). Правила отбора страниц основаны на нашем опыте и включают большой элемент эвристики, что, конечно, не исключает ошибок. Поэтому сообщайте нам все 'проблемные' случаи и мы будем рады их разрешить.

У меня есть вопросы по поисковой системе, к кому я могу обратиться ?
Вы можете послать письмо администратору поисковой системы, адрес которого имеется на странице О проекте

Астронет | Научная сеть | ГАИШ МГУ | Поиск по МГУ | О проекте | Авторам

Комментарии, вопросы? Пишите: info@astronet.ru или сюда

Rambler's Top100 RFBR Яндекс цитирования