здравствуйте.
не пойму как происходит индесация роботами страниц сайта, где большинство информации в виде базы mysql? сайт был еще в работе, а уже показывал по некоторым запросам 15-19 место в яндексе. удивительно что при этом хтмл там минимум, все на скриптах и мускуле. при этом в яндекс-поиске отображалась страница с параметрами переданными скрипту (!).. не перебором параметров ведь он занимается ?
признатся думал что нужно обязательно сопровождать такие сайты генератором хтмл страниц, типа как "архив" на БВФ, или не нужно? upd. залез в логи:
Сообщение от :
08:14:29 09/10/2009 IP: spider45.yandex.ru Браузер:Yandex/1.01.001 (compatible; Win16; I) Зашел на стр: /index.php?a=2&c=2
10:30:39 09/10/2009 IP: spider45.yandex.ru Браузер:Yandex/1.01.001 (compatible; Win16; I) Зашел на стр: /index.php?a=3
12:47:13 09/10/2009 IP: spider45.yandex.ru Браузер:Yandex/1.01.001 (compatible; Win16; I) Зашел на стр: /index.php?a=2&c=8&d=51
15:03:25 09/10/2009 IP: spider45.yandex.ru Браузер:Yandex/1.01.001 (compatible; Win16; I) Зашел на стр: /index.php?a=2&c=4&d=111
][irurg, не подскажешь кстати какой тип таблиц MySQL стоит выбрать, если в основном все (5-10колонок) поля VARCHAR (255), выбор ведется по ID int(11), ну и WHERE выбирает по VARCHAR-ским полям?
P.S. Чудо с яндексом то же интересно. Я то думал он не будет индексить - придется с norobots разбираться.
[Ответ]
LocDog 23:54 15.11.2009
Так а ссылки на сайте стоят, на указанные в логе урлы?
вроде /index.php?a=2&c=8&d=51 и т.п.?
робот просто по ним прошел и все.
перебор параметров тут не при чем.
[Ответ]
svga 01:11 16.11.2009
Сообщение от ][irurg:
здравствуйте.
не пойму как происходит индесация роботами страниц сайта, где большинство информации в виде базы mysql? сайт был еще в работе, а уже показывал по некоторым запросам 15-19 место в яндексе. удивительно что при этом хтмл там минимум, все на скриптах и мускуле.
учите мат.часть.
никаким образом роботы не работают с всякими Вашими скриптами и мускулями, а просто видят сформированную скриптами/выборками из БД/и прочим бредом HTML страницу.
то что Вас пугает адресная строка, в которой нет на конце .html еще не говорит о том, что на стороне пользователя/робота не выводится результат всех хитрых скриптов-манипуляций в формате html.
Сообщение от ][irurg:
при этом в яндекс-поиске отображалась страница с параметрами переданными скрипту (!).. не перебором параметров ведь он занимается ?
признатся думал что нужно обязательно сопровождать такие сайты генератором хтмл страниц, типа как "архив" на БВФ, или не нужно?
тоже html страничка, можно, конечно, предположить, что яндекс перебирает значения переменных и прочие другие каверзы, но проще предположить, что робот просто по ссылке перешел и захавал этот адрес.
svga, уважаемый, я вполне представляю работу пхп сриптов или баз майэскуэл на сервере и методику обращения к ним. речь идет о том что на сервере есть всего 5 хтмл страниц, в некоторых из них прописаны ссылки указанного вида, но конкретно с параметром d=111 нет ни одного. с другой стороны чудес не бывает, и прихожу к выводу что единственное разумное объяснение что это дело рук заказчиков сайта - возможно они в те дни туда лазили и меняли для каких то своих нужд урлы. но и доступа по фтп у них нет, только админка с возможностью редактировать содержимое базы, поэтому опять же странно.
апд.
а вот второе логичное обяснение - логи посещения сайта храню в log.txt на сервере. там есть любые адреса, очистка раз в неделю. видимо паук мог пробороздить этот файл и извлечь ссылки из него
и все таки - дайте пожалуйста совет как правильно индексировать такие сайты, может быть прикрутить какой нибудь генератор хтмл страниц?
[Ответ]
svga 13:46 16.11.2009
Сообщение от xirurg:
речь идет о том что на сервере есть всего 5 хтмл страниц
не верно. там столько html страниц, сколько разных возможных выборок из БД.
Сообщение от xirurg:
в некоторых из них прописаны ссылки указанного вида, но конкретно с параметром d=111 нет ни одного.
ну показывайте пациента. а также расскажите - какие надстройки у Вас на браузере стоят.
Сообщение от xirurg:
с другой стороны чудес не бывает, и прихожу к выводу что единственное разумное объяснение что это дело рук заказчиков сайта - возможно они в те дни туда лазили и меняли для каких то своих нужд урлы. но и доступа по фтп у них нет, только админка с возможностью редактировать содержимое базы, поэтому опять же странно.
эх. а нафига доступ по фтп? адреса формируются по id или еще чему то в БД. добил позицию в БД - получил новую страницу, поменял значение - поменялся адрес, значит добилась еще одна новая страница.
Сообщение от xirurg:
а вот второе логичное обяснение - логи посещения сайта храню в log.txt на сервере.
очень просто проверить - было ли обращение к такому файлу по логам сервера. у меня есть мнение, что такого обращения - не было.
Сообщение от xirurg:
и все таки - дайте пожалуйста совет как правильно индексировать такие сайты, может быть прикрутить какой нибудь генератор хтмл страниц?
"такие" - это какие? это у которых в строке браузера вместо holodilnik.html, televizor.html стоят item.php?id=1, item.php?id=2 ??
есть всякие ЧПУ на всяких более-менее известных движках, но и так все прожевывается хорошо роботами.
если ну уж сильное есть желание - можно повесить гугловский сайтмэп на питоне, вот он логи посещений смотрит и на их основании бомбит карту сайта.
[Ответ]
][irurg 20:31 16.11.2009
Сообщение от svga:
ну показывайте пациента. а также расскажите - какие надстройки у Вас на браузере стоят.
не вижу смысла загружать вас поисками строчек в моих дебрях, сделаю это сам.
итак поиск строки "d=111" по всем документам сайта дает:
C:\AppServ\www\site\txt\logs.txt (в локальной копии сайта)
в logs.txt сохраняются инфа о посетителях страниц
вхождения в этот файл
Сообщение от :
15:19:23 13/10/2009 IP: <b>spider1.mail.ru </b> Браузер:Mail.Ru/1.0 Зашел на стр: /index.php?a=2&c=4&d=111
16:47:34 16/10/2009 IP: <b>spider45.yandex.ru </b> Браузер:Yandex/1.01.001 (compatible; Win16; I) Зашел на стр: /index.php?a=2&c=4&d=111
12:34:18 19/10/2009 IP: <b>spider45.yandex.ru </b> Браузер:Yandex/1.01.001 (compatible; Win16; I) Зашел на стр: /index.php?a=2&c=4&d=111
06:15:26 22/10/2009 IP: <b>93-80-232-224.broadband.corbina.ru </b> Браузер:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; MRA 4.6 (build 01425)) Зашел на стр: /index.php?a=2&c=4&d=111
16:44:19 22/10/2009 IP: <b>spider45.yandex.ru </b> Браузер:Yandex/1.01.001 (compatible; Win16; I) Зашел на стр: /index.php?a=2&c=4&d=111
и т.д
лог чистится раз в пару месяцев, более ранних поэтому нет.
то бишь логичный вывод что паук его мог взять только с лога (за счет чьих то ранних вхождений на эту страницу). я других логичных объяснений не вижу, а вы
дальше интереснее. ищем где встречается logs.txt :
Сообщение от :
adm.php
index.php
index2.php
ipdetect.php
все только скрипты. откуда тогда паук вообще узнал о существовании файла logs.txt ?
йолки-палки! ну опять 25!
index.php - это не только 2 центнера вкусного легкоусвояемого мЪяса, тьфу!, то бишь не только скрипт, но еще и уникальный адрес странички!
Ваша самопальная статистика, которая еще не пойми чем пишется и откуда формируется - это, конечно, полный зачет. но что мешает посмотреть по нормальной статистике, которую пишет сервер, было ли обращение к файлу log.txt. не зная о том, где все это дело лежит, рискну предположить, что есть файл какой-нить вида - access.log.2009_11_16, в котором четко написано к каким файлам были обращения за этот день и кем. формат вот такой:
Сообщение от :
77.88.27.26 - - [30/Sep/2009:04:00:07 +0400] "GET /catalog/model.php?id=277077 HTTP/1.1" 200 2 "-" "Yandex/1.01.001 (compatible; Win16; I)"
все четко видно - кто, когда и как.
у меня Яндекс бережно хранит страницы, которых на сайте уже с полгода нет - и что в этом страшного?
если тусит бот на сайте, то достаточно каких то секунд, чтобы перешел по ссылке - сожрал - хранил пока не надоест.
не перебирает Яндекс переменные, и не отслеживает чужие вхождения (если всякой хрени в надстройках браузера нет), чтобы добавить в индекс или просто пробивать страницы.
[Ответ]