Главная страница МагазИНФО

КАТАЛОГ ЦЕН НА ТОВАРЫ ИЗ ИНТЕРНЕТ-МАГАЗИНОВ

О рекламе на этом сайте

Добавить в избранное

Робот МагазИНФО и управление индексацией

Как происходит скачивание данных

Робот скачивает заранее известные URL и по ссылкам не ходит, поэтому заставить его проиндексировать дополнительные страницы нельзя. Можно добавить страницы только после правильного оформления и личного письма о регистрации.

Скачиваются страницы, содержащие как можно более полную информацию о товарах и ценах, а именно списки товаров с ценами и ссылками на страницы с подробными описаниями товаров. Не все прайс-листы распознаются правильно, но мы работаем над улучшением алгоритма. Для уверенности Вы можете оформить прайс в соответствии с инструкцией.

Данные заносятся в базу данных и становятся доступными для посетителей. По каждой модели товаров выдается список ссылок на товарные страницы магазинов с ценами, упорядоченный по цене.

Необходимые условия внесения товарной позиции в базу - наличие ссылки на "товарную страницу" и цены товара. Ссылки, оформленные на javascript, Flash не поддерживаются. Alt-текст у изображений не поддерживается. Глубокие вложенные таблицы иногда поддерживаются. Можно проверить правильность распознавания своих страниц с помощью скрипта.

Управление индексацией

Робот имеет имя Magazinfo и соблюдает директивы стандарта для роботов (robots.txt). Для того, чтобы закрыть раздел сайта от нашего робота, необходимо создать в корневой директории Вашего домена (http://yourdomain.ru/) файл с именем robots.txt, содержащий следующий текст:

User-agent: Magazinfo
Disallow: /directoryname

Все директивы воспринимаются роботом независимо от регистра. В данном случае будут закрыты все страницы, полный URL которых имеет следующий вид: http://yourdomain.ru/directoryname*. Каждая инструкция находится в новой строке. Все директивы Disallow, непосредственно следующие за записью User-agent, относятся только к ней. Пример:

User-agent: Yandex, Magazinfo, StackRambler
Disallow: /1
Disallow: /2
User-agent: *
Disallow: /3
User-agent: Magazinfo
Disallow: /4

В данном случае разделы 1,2,3,4 закрыты от робота Magazinfo, раздел 3 - от всех роботов, разделы 1 и 2 - от Яндекса и Рамблера.