Статьи PHP, Форум, Уроки PHP, дизайн, раскрутка сайта
Портал для программистов, дизайнеров, SEO - оптимизаторов.
Статьи PHP, MySQL, AJAX, Раскрутка сайта, Заработок на своем сайте
Статьи PHP, MySQL, AJAX, Раскрутка сайта, Заработок на своем сайте
TIGER ICQ 3 6 0 2 9 5 6 8 3
     
Выберите раздел
php, javascript,ajax,mysql,TIGER CMS
  Для начинающих
php, javascript,ajax,mysql,TIGER CMS
  Общие
php, javascript,ajax,mysql,TIGER CMS
  Безопасность
php, javascript,ajax,mysql,TIGER CMS
  Интересное
php, javascript,ajax,mysql,TIGER CMS
  Новости PHP
php, javascript,ajax,mysql,TIGER CMS
  PHP + AJAX
php, javascript,ajax,mysql,TIGER CMS
  JavaScript
php, javascript,ajax,mysql,TIGER CMS
  Дизайн
php, javascript,ajax,mysql,TIGER CMS
  Раскрутка
php, javascript,ajax,mysql,TIGER CMS
  Заработок
php, javascript,ajax,mysql,TIGER CMS
  Советы

Поиск
 
 
 

Друзья сайта
 
 
1. www.bvisoft.com
Онлайн счетчик
 

Статистика
  Всего статей: 405
  Опубликовано: 405
  Проверяються: 0
  Добавлено сегодня: 0
--------------------------------------
  Прочитано статей: 405
  Всего прочтений: 155331
--------------------------------------
  Сейчас читают: 4 чел.

Кнопка сайта
  Если мой сайт вам чем-то помог, поставьте, пожалуйста, на своем сайте такую кнопку:
 
  Код кнопки:
 

 

Яndex.ru, робот-паук, или как всё это работает? [Версия для печати]
Разместил: admin . Раздел: Безопасность. Опубликовано: 09-20-2007 19:18:39
Робот, или паук, или червь, или crawler, или сетевой агент - программа обхода Сети. Базовой информацией для работы этой программы является список адресов (URL). Дополнительная информация берется из robots.txt (файла, в котором Web-администратор может запретить роботу заходить на те или иные разделы сайта, подробнее см. на http://www.topserver.donetsk.ua/Robot/ ). В самом общем случае робот предназначен для скачивания страниц по указанным адресам в место, указанное его хозяином.

Помимо robots.txt существуют и другие джентельменские соглашения для работы роботов - например, он не должен делать более одного коннекта, чтобы не забить канал и дать возможность другим пользователям Сети общаться с данным сервером.

Для поисковой машины Yandex.Ru в состав робота входят еще модули индексации, распознавания кодировок (если на странице содержится русский язык) и определения уникальности документа.

Как Yandex.Ru узнает о новых ресурсах

Как Yandex.Ru узнает о новых серверах и страницах? Есть два способа - или владельцы ресурсов сами добавляют их (заполнив форму AddURL на http://yandex.ru/addurl.html или послав письмо на addurl@yandex.ru ), или робот находит новые ссылки в проиндексированных страницах. Так, например, с первой страницы сервера робот берет ссылки на последующие и так далее, без ограничения глубины, до тех пор, пока новые адреса не перестанут появляться.

Поскольку задачей Yandex.Ru является работа с русско-язычным и/или российско-ориентированным Интернетом, введено следующее правило: сервера в доменах России и стран СНГ ('su', 'ru', 'am', 'az', 'by', 'ge', 'kg', 'kz', 'md', 'tj', 'ua', 'uz') принимаются по умолчанию. Сервера в других доменах - если на них найден русский язык или если владельцы ресурсов убедят администрацию поисковой машины в том, что их сервер подпадает под указанную категорию (это обычно делается письмом на addurl@yandex.ru).

Итак, не удивляйтесь, если URL, который Вы добавляете, уже есть в базе робота. Наш робот мог найти Ваш URL по ссылкам из других проиндексированных документов. Не стоит также огорчаться, если при этом Вы не можете найти этот документ в Yandex. Наверняка наш "паук" просто еще не успел дойти до Вашего документа, и он будет проиндексирован через несколько дней.

Правила индексации в Yandex.Ru

Yandex индексирует страницы по их истинным адресам. Это значит, что, если на странице стоит redirect, робот воспримет его как ссылку на новый адрес и поступит с ним по правилам, указанным выше. То же самое произойдет, если в одном из фреймов будет стоять ссылка на другой сервер. В частности, если эта ссылка находится вне доменов, разрешенных по умолчанию, страница НЕ будет проиндексирована.

Кроме этого, Yandex начинает бороться со спамом, и страницы со временем redirect'а равным нулю будут исключаться из индексирования (непонятно, какие еще цели, кроме спама, могут быть у создателей страницы, которую пользователь в принципе не может увидеть).

Робот Yandex.Ru хранит дату последнего обхода каждого URL, дату его изменения (присланную его Web-сервером) и дату внесения последних изменений в базу поиска (дату индексации). Он оптимизирует обход Сети таким образом, чтобы чаще посещать наиболее изменяемые сервера.

По этой причине, а также потому, что на Yandex.Ru работает поиск и сортировка по датам, очень хотелось бы, чтобы сервера выдавали корректные даты изменения файлов, чего не происходит более чем в 20 процентов случаев.

Yandex.Ru является полнотекстовой поисковой машиной. Это значит, что в индекс попадают все слова текста на странице, видимые пользователю (то есть кроме комментариев и слов внутри тэгов). В ближайшее время планируется начать индексировать Meta-keywords.

Как узнать, проиндексирован ли ресурс

Чтобы проверить, проиндексирована ли Ваша страница, достаточно скопировать из нее какую-нибудь характерную строчку, желательно подлиннее (копирайт, адрес, название и описание), и задать ее как запрос в Yandex. Если на первой странице списка найденного Вашей страницы не оказалось, значит, она еще не проиндексирована. Тогда стоит проверить, есть ли она уже в базе робота. Для этого надо пойти на страницу AddURL ( http://yandex.ru/addurl.html ) и попробовать добавить адрес еще раз. Если Вы получили ответ, что страница уже содержится в базе робота, это значит, что она будет проиндексирована в ближайшее время. Если же Вы получили ответ, что страница добавлена, это значит, что в первый раз при добавлении что-то было сделано неверно - возможно, Вы не обратили внимание на диагностику, которая Вам была выдана.

Правила по добавлению URL в поисковую машину Yandex.Ru:

Добавляйте истинный адрес Вашей страницы
Создайте файл robots.txt, если Вы хотите закрыть какие-то разделы от индексирования.
Смотрите на ответ, который выдает Вам программа AddURL и, при необходимости, пишите письмо на addurl@yandex.ru (учтите, что запись URL чуствительна к регистру шрифта).
Конфигурируйте сервер так. чтобы он корректно выдавал даты файлов и кодировки русского языка.
Добавляйте верхнюю страницу Вашего сервера - остальные Yandex найдет сам по ссылкам.
Если Ваша страница была проиндексирована, а затем Вы изменили ее содержание или удалили ее, не беспокойтесь - робот автоматически обойдет ее снова и обновит индекс (в случае, если страница больше не существует, она будет исключена из поиска).
Ресурс в системе описан неправильно. Как это исправить?

Мы часто получаем письма вроде "Я не заносил в Вашу систему мой ресурс, и он описан неправильно. Как мне исправить положение?" Вообще говоря, ресурс, если он существует, не может быть занесен неправильно. Если он секретный, запретите доступ к нему в robots.txt. Если он не ищется по тем словам, по которым Вам бы хотелось, или находится не в первых рядах, обратите внимание на то, что, собственно, написано на страницах Вашего ресурса.

Yandex.Ru - полнотекстовая поисковая машина, поэтому страницы будут находиться по словам, написанных на них, а не по тем ключевым словам, которыми Вы этот ресурс описали. Учтите также, что Yandex работает только с текстами и не умеет распознавать графические изображения. Поэтому, если название нарисовано, то стоит его повторить где-нибудь просто текстом. Предложения Yandex на тему "как сделать, чтобы Вашу страницу нашли те, кому она нужна" описаны в "Советах Web-мастеру" (http://yandex.ru/ya_advise.html ).
Источник: http://qdp.ru   Прочитана 449 раз.
  Закладки:  
     
     
     




     
   TIGER EMAIL tiger1989@mail.ru
online SpyLOG тИЦ и PR
Copyright 2007 by TIGERCMS.com
Powered by TIGER-News v1.1
Реклама: