ЭНЕРГОСБЕРЕЖЕНИЕ
программа энергосбережения, счетчики воды, теплосчетчики, расходомер
     
     
Главная
Энергосбережение
Счетчики воды
Как меньше платить за тепло и воду?
Альтернативные источники энергии
Бизнес идеи и советы по бизнесу
В помощь автолюбителю
Забавные идеи и советы
Строительство
Строительство и ремонт
Магазин советов и идей
Осторожно мошенники!
Совет да любовь
Не играй не проиграешь!
Советы по продвижению сайта
Где лучше отдохнуть
http://www.startsbusiness.ru/ - Новый бизнес, бизнес идеи

   Создать файл robots.txt очень легко. Файл robots.txt представляет собой текст в ASCII кодировке, который нужно разместить в корневой папке вашего сайта. Например, если ваш сайт - www.yoursait.ru, Вы разместите файл в www.yoursait.ru/robots.txt.
   В основном данный файл содержит список инструкций в каждой строке, содержащий перечень папок или файлов, к которым необходимо ограничить доступ. Имеется возможность использовать групповой символ  "*" вместо того, чтобы указывать название определенных роботов. Если использовать данный символ, то подразумевается,  что данная директива используется для всех роботов. Обратите внимание, что robots.txt это файл исключения для роботов (с акцентом на "исключения") – т.е. это способ сказать роботам какие файлы и папки можно индексировать, а какие нет.
   Вот пример robots.txt файла:
   User-agent: *
   Disallow: /cgi-bin

   Вышеупомянутые две строки, вставленные в robots.txt файл, сообщают всем роботам (так как указана звездочка), что им не разрешают войти в папку cgi-bin и её подпапки.
   Если к вам заходит специфический робот, типа робота поиска изображений Google, который скачивает графические файлы с вашего сайта, Вы можете включить аналогично следующие строки:
   User-agent: Googlebot
   Disallow: /

   Это означает, что роботу поисковой системы Google - Googlebot, закрыт доступ к любому файлу? расположенному в корневой папке "/" и всех его папках. Фактически это означает, что роботу запрещено получение любого файла c вашего вебсайта.
   Вы можете добавить, несколько запрещающих директив,  для каждого агента поисковых систем (то есть, для каждого робота). Вот - пример более длинного robots.txt файла:
   User-agent: *
   Disallow: /images/
   Disallow: /cgi-bin/
   User-agent: Googlebot
   Disallow: /

   Первый блок текста запрещает всем роботам доступ к папкам рисунков расположенных в папке images и сценариям расположенным в папке cgi-bin. Второй блок директив запрещает роботу поисковой системы доступ ко всем файлам сайта.
   Можно так же исключить из индексации отдельный файл. Например image.jpg. Тогда нужно добавить следующие строки:
   User-agent: Googlebot
   Disallow: /images/image.jpg

   Не забывайте добавлять, в конце символ ("/"), если Вы указываете папку. Если Вы просто добавите:
   User-agent: *
   Disallow: /private

   Роботам будет ограничен доступ к private.html так же как к privatedstuff.html  или корневой папке, начинающейся с /private/(и так далее).

Где можно получить название робота?

   Если к вам на сайт захаживает специфический робот, которого бы вы хотели заблокировать, вы должны узнать название поисковой системы, агентом которой он является. После того как вы пропишете директивы для данного робота, лучший способ для проверки, это поискать ваш сайт в этой поисковой системе. Тогда у вас будет информация, имеет ли доступ робот к вашим файлам или папкам.

Частые ошибки в Robots.txt

   Вот некоторые советы, для предотвращения ошибок, которые обычно делают при нарушении правил написания файла robots.txt.
1. 100% гарантий на выполнение директив нет.
   Как упомянуто ранее, хотя формат robots.txt внесен в список стандарта для такого рода файлов поисковых систем, не все роботы на практике учитывают предписания данного стандарта. Нет никаких гарантий того, что ваш robots.txt будет проигнорирован агентом поисковой системы. Если вы действительно хотите ограничить доступ - используйте .htaccess файл, чтобы запретить доступ к папке паролем, если конечно вы управляете сайтом на апачском сервере.
2. Не вносите в список ваши секретные папки
   Любой может получить доступ к вашему файлу роботов. Некоторые начинающие  вебмастера, иногда ошибочно думают, что они могут внести в список robots.txt файл свои секретные папки, тем самым закрыв доступ к самой папке для общественности. На самом деле это большое заблуждение. Внесение в список папки в robots.txt файле часто привлекает внимание. Фактически, некоторые роботы (подобно роботам, собирающим адреса электронной почты с сайтов, некоторых спамеров) делают упор, на том, чтобы проверять robots.txt на наличие именно таких директив.
3. Только одна папка или файл в одной строке
   Не используйте в одной директиве перечисление нескольких файлов или папок. Стандарт ограничивается рассмотрением одной папки или файла, указанном в одной строке файла.
4. Лучше с ним, чем без него
   Если Вы хотите, чтобы все ваши папки были доступны роботам, создайте простой файл роботов со следующим содержанием:
   User-agent: *
   Disallow:

   Без указания файлов или папок в строке ограничения доступа, подразумевается, что агенту поисковой системы можно обратиться к каждой папке на вашем сайте. По крайней мере, этот файл спасет несколько байтов вашего трафика каждый раз, когда робот посещает ваш сайт (особенно, если у вас имеется достаточно много страниц с кодом 404). Данные директивы также удалят Robots.txt из вашей статистики при некорректном обращении к вашему сайту.
 
 
© 2008 Мечта_ру Ссылка на сайт http://www.meshta.ru