CFA LogoCFA Logo Computer
Новости Статьи Магазин Драйвера Контакты
Новости
RSS канал новостей
В конце марта компания ASRock анонсировала фирменную линейку графических ускорителей Phantom Gaming. ...
Компания Huawei продолжает заниматься расширением фирменной линейки смартфонов Y Series. Очередное ...
Компания Antec в своем очередном пресс-релизе анонсировала поставки фирменной серии блоков питания ...
Компания Thermalright отчиталась о готовности нового высокопроизводительного процессорного кулера ...
Компания Biostar сообщает в официальном пресс-релизе о готовности флагманской материнской платы ...
Самое интересное
Программаторы 25 SPI FLASH Адаптеры Optibay HDD Caddy Драйвера nVidia GeForce Драйвера AMD Radeon HD Игры на DVD Сравнение видеокарт Сравнение процессоров

АРХИВ СТАТЕЙ ЖУРНАЛА «МОЙ КОМПЬЮТЕР» ЗА 2003 ГОД

Война с роботами 4: стратегия противника

Анастасия КОВАЛЕВА nastusha82@ua.fm

Будем считать, что благодаря предыдущим трем статьям (см. МК №№24, 26, 27 (247, 249, 250)) вы подготовили страницы к приходу поисковиков, а значит, оптимизировали содержимое под желаемые запросы пользователей и повысили ранги страниц. И пока вы ждете робота, обсудим еще несколько параметров, которые может учесть поисковик, но которые не были рассмотрены в предыдущих частях статьи. А потом перейдем к разговору о самом процессе индексации.

Среди тех факторов, которыми вы еще можете управлять для повышения релевантности своих страниц, значатся:

имя домена;

организация структуры сайта;

наличие файла robots.txt;

надежность сервера, на котором расположен сайт

Если ваш ресурс ориентирован на русскоязычных пользователей, которые, соответственно, будут пользоваться «местными» поисковиками, то предпочтительнее регистрировать домен в национальных зонах (.ua, .ru, .by, .md и др.) нежели в общих (.com, .org, .net). Второй параметр в списке также немаловажен. Чем «выше» страница располагается на сервере, тем будет выше ее релевантность. То есть, страница http://имя сайта/page.htm будет приоритетней http://имя сайта/имя директории/имя поддиректории/page.htm. Старайтесь не делать уровень вложенности на сайте больше двух. О назначении и содержании robots.txt поговорим далее. Надежность сервера важна для поисковика потому, что он не хочет предлагать пользователям страницы того сайта, который может на некоторое время пропасть по причине падения сервера. Сайты, которые часто страдают от неполадок в работе сервера, получают меньшую релевантность, нежели те, что работают как часы.

Два дополнительных параметра, которые в меньшей степени зависят от вас — посещаемость и время жизни сайта. Если вы только что разместили свой сайт на сервере, то, естественно, для него будут низки оба параметра. По мере раскрутки посещаемость будет расти, ну а время еще никто не останавливал. Поэтому сайт, как и ребенок, хотите вы того или нет, будет взрослеть, надо его только поддерживать в рабочем состоянии, кормить новыми разделами, воспитывать качественным контентом и давать общаться со все большим числом посетителей.

Итак, последние факторы мы наконец разобрали. Теперь вы знаете о релевантности если не все, то по крайней мере достаточно для того, чтобы эффективно раскручивать свои страницы в поисковых системах. Вы в полной готовности, вооружение по самому последнему слову техники. Но не мешало бы узнать стратегию врага, чтоб уж совсем сразить его наповал.

Как уже было сказано, робота придется подождать, иногда довольно долго. Есть два пути, по которым поисковик может прийти на ваш сайт. Первый — с найденной ссылки. Если на ваш сайт ссылается кто-то из обитателей Интернета, кто уже хорошо проиндексирован в поисковике, то при очередной переиндексации поисковик найдет ссылку, а пойдя по ней, найдет ваш сайт. Обнаружив, что вы новичок, он занесет вас в очередь и через некоторое время проиндексирует страницы. Данный путь долог, так как процесс нахождения поисковиком ссылки на ваш сайт может затянуться. Второй путь — принудительно подсунуть сайт поисковику. Подавляющая часть поисковиков имеют сервис «Добавить URL», где можно предложить свой сайт для индексации. Если ваш сайт еще не обработан, то он будет внесен в очередь на индексацию. Если же он уже проиндексирован (возможно, робот добрался до ссылки на ваш сайт раньше, чем вы начали заниматься раскруткой), то поисковая система вам об этом сообщит. Форму для регистрации в каждом поисковике вам придется использовать не раз. Каждый раз, когда на вашем сайте будут возникать важные для поисковика изменения, необходимо будет вносить URL сайта в форму для скорейшей переиндексации. В некоторых поисковиках вы можете добавить только заглавную страницу сайта, но иногда можно и четко указать, какая именно страница изменилась. После того как ваш сайт был поставлен в очередь на индексацию (или переиндексацию), вам, возможно, придется ждать около месяца, а иногда и больше, пока ваши страницы появятся в результатах поиска. Быстрее всех из отечественных поисковых роботов работает Яндекс. В нем страницы могут появится уже через 2 недели после регистрации. Сначала в поисковике появится заглавная страница, а потом уже он обойдет все остальные.

Большинство поисковиков при заходе на сайт первым делом смотрят содержимое файла robots.txt, который должен указать роботу, как поступать со страницами сайта. robots.txt должен обязательно находиться в корневом каталоге — находящийся в подкаталоге файл поисковик просто проигнорирует. Важно, чтобы название и расширение его было написано строчными буквами. Robots.TXT и все другие вариации на тему будут для робота совершенно бесполезными. Как вы уже могли понять, robots.txt содержит инструкции для поисковика — что индексировать, а что нет. Файл состоит из одной или нескольких инструкций, каждая их которых отделяется пустой строкой. В свою очередь, каждая инструкция должна состоять из двух частей. Первая определяет, кому это относится, то есть какой поисковик должен следовать данной инструкции, вторая — что именно нельзя индексировать. Первая часть определяется словом User-Agent. Если вы хотите обратится ко всем поисковикам, то можете писать User-Agent: *. Вторая часть выделяется словом Disallow, т.е. «запретить». Если вы хотите запретить индексировать любые страницы сайта, то нужно написать Disallow: /, если же разрешаете обрабатывать сайт полностью, то после Disallow должна следовать пустота (Disallow: ). Вы можете указать, какие папки (Disallow: /имя папки/) или же файлы (Disallow: /имя файла.расширение) не следует индексировать. Для наглядности рассмотрим примеры:

Пример 1. Разрешаем индексировать все страницы сайта всем поисковикам (примечание: эквивалентом данной инструкции будет пустой файл robots.txt):

Пример 2. Запрещаем индексировать все страницы сайта всем поисковикам:

Пример 3. Разрешаем индексировать всем кроме Яндекса

Пример 4. Запрещаем индексировать всем кроме Яндекса (примечание: обратите внимание на обязательную пустую строку между двумя инструкциями, без нее файл не будет воспринят правильно)

Пример 5. Яндексу запрещаем индексировать папки сgi и images, а Апорту — файлы myfile1.htm и myfile2.htm в директории dir.

Кроме указанных, есть еще некоторые возможности, которые можно использовать при составлении файла для роботов. Символ # может использоваться для обозначения начала комментария, т.е. текста, пропускаемого роботом. Например:

Указание значения для Disallow без открывающего слеша приведет к тому, что робот пропустит не только папки с таким именем, но и файлы. В следующем примере, роботы не будут индексировать папку с именем myfile, а также все файлы, имеющие данное имя.

Поисковик Гугл дает большие (ударение на первый слог) возможности по управлению индексацией. Он поддерживает инструкции, наподобие:

Гугл не проиндексирует все файлы с расширением .pl, однако все остальные поисковики данную инструкцию вообще не поймут, поэтому такие строчки нужно адресовать именно Гуглу:

При правильном использовании robots.txt у вас не должно возникнуть проблем с поисковиками, но могут возникнуть сложности со слишком любопытными посетителями. Дело в том, что они спокойно могут просмотреть содержимое файла, введя в адресную строку http://имя сайта/robots.txt. Увидев, какие файлы и папки вы скрываете, они решат обратить свой взор именно на эти части сайта, заинтересовавшись, что же вы там хотели спрятать. Поэтому если вы указываете какую-то папку в robots.txt, то непременно обязаны поместить в нее index.htm (.html, .phtml, .shtml, .xml, .php, .asp, .pl — кому что больше по душе). Тогда при вводе в адресную строку http://имя_сайта/имя_заветной_папки пользователь получит не список имеющихся в ней файлов, что совсем неприемлемо для безопасности сайта, а ту информацию, которую вы напишите в индекс-файле. К тому же размещение файла index в каждой папке должно быть для вас обязательным пунктом, даже если у вас отсутствует robots.txt.

Можно пойти и другим путем: создать пустой файл для роботов, а каждую страницу защищать отдельно. Это можно сделать с помощью мета-тэга robots.

Формат мета-тэга следующий:

В качестве команд могут выступать:

INDEX — разрешение индексации страницы;

NOINDEX — запрет индексации страницы;

FOLLOW — разрешение на индексацию ссылок, находящихся на данной странице;

NOFOLLOW — запрет индексации ссылок, находящихся на данной странице;

NONE — полное игнорирование страницы (т.е. NOINDEX, NOFOLLOW);

ALL — разрешение индексации страницы и всех ссылок, на ней находящихся (т.е. INDEX, FOLLOW).

Еще один вариант — запрет индексации отдельных частей страницы. Это достигается помещением той части, которая не должна быть доступна в поисковике, между тэгами <index></index>.

Говоря о мета-тэге robots и тэге index, нельзя не вспомнить о том, что данные тэги нечестно используются некоторыми web-мастерами. Обмениваясь ссылками, проверьте, не стоит ли запрет на индексацию вашей ссылки на сайте партнера, иначе смысл обмена отпадает (ранг страницы он вам никак не повысит).

Единственным моментом, который может остановить вас при выборе — использовать ли внутренний запрет на странице или все же выложить robots.txt, — не все поисковики учитывают мета-тэги и тег <index>. Поэтому, чтобы быть полностью уверенным, что лишние страницы не появятся в результатах поиска, лучше все же использовать robots.txt.

Даже если у вас и возникнет желание скрыть некоторые страницы от поискового робота, большую часть страниц вам, наоборот, все же захочется ему предоставить. Помните, что для эффективной индексации страница должна содержать заголовок Last-Modified, указывающий поисковику, когда последний раз изменялась страница. Сверив время последней индексации и время ее модификации, поисковик быстрее переиндексирует содержимое, чем если заголовок Last-Modified будет отсутствовать. Помните, что, чем чаще ваши страницы будут изменяться, тем чаще робот будет приходить на сайт. Если страницы вашего сайта будут оставаться неизменными в течение месяцев, то скорее всего, вы будете встречаться роботом крайне редко.

Итак, враг уже у стен вашей крепости, т.е. сайта, и теперь вы уже можете встретить его достойно. Последние наставления сделаны. Вы знаете, какое оружие использовать для максимального поражения, как повысить мощь своих войск, как обойти нечестных противников, а также вам хорошо известна стратегия вражеских войск. С этими знаниями вы должны быть непобедимы. Как говорится, тяжело в учении — легко в бою. Вперед! У вас все должно получиться.

Рекомендуем ещё прочитать:






Данную страницу никто не комментировал. Вы можете стать первым.

Ваше имя:
Ваша почта:

RSS
Комментарий:
Введите символы или вычислите пример: *
captcha
Обновить





Хостинг на серверах в Украине, США и Германии. © sector.biz.ua 2006-2015 design by Vadim Popov