МИР ВЕБМАСТЕРА
Меню сайта
Главная » 2009 » Июль » 4 » robots.txt - управление индексацией сайта
robots.txt - управление индексацией сайта
06:51

Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Файл robots.txt - это текстовый файл, находящийся в корневой директории сайта (там же где и главный файл index.), в нем записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации папки или страницы  сайта, указать роботу на главное зеркало сайта, рекомендовать поисковому роботу соблюдать определенный временной интервал индексации сайта и многое другое.

Чтобы создать файл robotx.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл robots.txt. Важно, чтобы его название и расширение было написано строчными буквами.
Всё для веб мастера
Как вы уже могли понять, robots.txt содержит инструкции для поисковика - что индексировать, а что нет. Файл состоит из одной или нескольких инструкций, каждая из которых пишется с новой строки. В свою очередь, каждая инструкция должна состоять из двух частей. Первая определяет, кому это относится, то есть какой поисковик должен следовать данной инструкции, вторая - что именно нельзя индексировать. Первая часть называется, User-agent. Если вы хотите обратиться ко всем поисковикам, то можете писать User-agent: *. Вторая часть Disallow, (запретить). Если вы хотите запретить индексацию всех страниц сайта, то нужно написать Disallow: /, если же разрешаете обрабатывать сайт полностью, то после Disallow должна следовать пустота Disallow: . Вы можете указать, какие папки (Disallow: /имя папки/) или же файлы (Disallow: имя файла. расширение) не следует индексировать. Для наглядности рассмотрим примеры:


Пример 1
. Разрешаем индексировать все страницы сайта всем поисковикам (примечание: эквивалентом данной инструкции будет пустой файл robots.txt):
User-agent: *
Disallow:


Пример 2
. Запрещаем индексировать все страницы сайта всем поисковикам:
User-agent: *
Disallow: /


Пример 3
. Разрешаем индексировать всем кроме Яндекса
User-agent: Yandex
Disallow: /


Пример 4
. Запрещаем индексировать всем кроме Яндекса (примечание: обратите внимание на обязательную пустую строку между двумя инструкциями, без нее файл не будет воспринят правильно)
User-agent: Yandex
Disallow:

User-agent: *
Disallow: /


Пример 5
. Яндексу запрещаем индексировать папки cgi и images, а Апорту файлы myfile1.htm и myfile2.htm в директории dir
User-agent: Yandex
Disallow: /cgi/
Disallow: /images/

User-agent: Aport
Disallow: myfile1.htm
Disallow: myfile2.htm

Символ # использоваться для обозначения начала комментария (текст, игнорируемый роботом). Например:
User-agent: *             
#Запрет индексации папки cgi
Disallow: /cgi/

Указание значения для Disallow без открывающего слеша приведет к тому, что робот пропустит не только папки с таким именем, но и файлы. В следующем примере, роботы не будут индексировать папку с именем myfile, а также все файлы, имеющие данное имя.
User-agent: *
Disallow: myfile


Пример 6. Итоговый пример фа. robots.txt

User-agent: *             
#Запрет индексации папок cgi и images для всех поисковиков
Disallow: /cgi/             
Disallow: /images/

User-agent: Google    #Запрет индексации файлов myfile1.htm и myfile2.htm для Google
Disallow: myfile1.htm
Disallow: myfile2.htm

User-agent: *             #Запрет индексации файлов spisok.php и vsakaya-fignya.php для всех поисковиков
Disallow: spisok.php
Disallow: vsakaya-fignya.php


При правильном использовании robots.txt у вас не должно возникнуть проблем с поисковиками, но могут возникнуть сложности со слишком любопытными посетителями. Дело в том, что они спокойно могут просмотреть содержимое файла, введя в адресную строку http://имя сайта/robots.txt. Увидев, какие файлы и папки вы скрываете, они решат обратить свой взор именно на эти части сайта, заинтересовавшись, что же вы там хотели спрятать. Поэтому если вы указываете какую-то папку в robots.txt, то непременно обязаны поместить в нее index.php или (.htm, .phtml, .shtml, .xml, .php, .asp, .pl - кому что больше по душе). Тогда при вводе в адресную строку http://имя_сайта/имя_заветной_папки пользователь получит не список имеющихся в ней файлов, что совсем неприемлемо для безопасности сайта, а ту информацию, которую вы напишите в индекс-файле. К тому же размещение файла index в каждой папке должно быть для вас обязательным пунктом, даже если у вас отсутствует robots.txt.<br><br><center>


BBCode:
HTML:  
[ Скрыть ссылки ]


Просмотров: 13041 | Добавил: UcoZ
Всего комментариев: 0




avatar
Форма входа
Календарь новостей
«  Июль 2009  »
ПнВтСрЧтПтСбВс
  12345
6789101112
13141516171819
20212223242526
2728293031
Поиск
Друзья сайта
Статистика

Здесь и Сейчас: 1
Прохожих: 1
VIP: 0