Большой Воронежский Форум
» Веб-дизайн>индесация сайта с mysql базой
][irurg 20:33 15.11.2009
здравствуйте.
не пойму как происходит индесация роботами страниц сайта, где большинство информации в виде базы mysql? сайт был еще в работе, а уже показывал по некоторым запросам 15-19 место в яндексе. удивительно что при этом хтмл там минимум, все на скриптах и мускуле. при этом в яндекс-поиске отображалась страница с параметрами переданными скрипту (!).. не перебором параметров ведь он занимается ?
признатся думал что нужно обязательно сопровождать такие сайты генератором хтмл страниц, типа как "архив" на БВФ, или не нужно?
upd. залез в логи:

Сообщение от :
08:14:29 09/10/2009 IP: spider45.yandex.ru Браузер:Yandex/1.01.001 (compatible; Win16; I) Зашел на стр: /index.php?a=2&c=2
10:30:39 09/10/2009 IP: spider45.yandex.ru Браузер:Yandex/1.01.001 (compatible; Win16; I) Зашел на стр: /index.php?a=3
12:47:13 09/10/2009 IP: spider45.yandex.ru Браузер:Yandex/1.01.001 (compatible; Win16; I) Зашел на стр: /index.php?a=2&c=8&d=51
15:03:25 09/10/2009 IP: spider45.yandex.ru Браузер:Yandex/1.01.001 (compatible; Win16; I) Зашел на стр: /index.php?a=2&c=4&d=111

как он это делает? 0_о [Ответ]
Yandex 21:28 15.11.2009
][irurg, не подскажешь кстати какой тип таблиц MySQL стоит выбрать, если в основном все (5-10колонок) поля VARCHAR (255), выбор ведется по ID int(11), ну и WHERE выбирает по VARCHAR-ским полям?

P.S. Чудо с яндексом то же интересно. Я то думал он не будет индексить - придется с norobots разбираться. [Ответ]
LocDog 23:54 15.11.2009
Так а ссылки на сайте стоят, на указанные в логе урлы?
вроде /index.php?a=2&c=8&d=51 и т.п.?
робот просто по ним прошел и все.
перебор параметров тут не при чем. [Ответ]
svga 01:11 16.11.2009

Сообщение от ][irurg:
здравствуйте.
не пойму как происходит индесация роботами страниц сайта, где большинство информации в виде базы mysql? сайт был еще в работе, а уже показывал по некоторым запросам 15-19 место в яндексе. удивительно что при этом хтмл там минимум, все на скриптах и мускуле.

учите мат.часть.
никаким образом роботы не работают с всякими Вашими скриптами и мускулями, а просто видят сформированную скриптами/выборками из БД/и прочим бредом HTML страницу.

то что Вас пугает адресная строка, в которой нет на конце .html еще не говорит о том, что на стороне пользователя/робота не выводится результат всех хитрых скриптов-манипуляций в формате html.

Сообщение от ][irurg:
при этом в яндекс-поиске отображалась страница с параметрами переданными скрипту (!).. не перебором параметров ведь он занимается ?
признатся думал что нужно обязательно сопровождать такие сайты генератором хтмл страниц, типа как "архив" на БВФ, или не нужно?

Возможно Вам покажется странным, но вот это:
http://bvf.ru/forum/forumdisplay.php?f=22

тоже html страничка, можно, конечно, предположить, что яндекс перебирает значения переменных и прочие другие каверзы, но проще предположить, что робот просто по ссылке перешел и захавал этот адрес.

Сообщение от ][irurg:
как он это делает? 0_о

про уличную магию Яндекса можно читать тут:
http://forum.searchengines.ru/forumdisplay.php?f=10 [Ответ]
xirurg 13:04 16.11.2009
svga, уважаемый, я вполне представляю работу пхп сриптов или баз майэскуэл на сервере и методику обращения к ним. речь идет о том что на сервере есть всего 5 хтмл страниц, в некоторых из них прописаны ссылки указанного вида, но конкретно с параметром d=111 нет ни одного. с другой стороны чудес не бывает, и прихожу к выводу что единственное разумное объяснение что это дело рук заказчиков сайта - возможно они в те дни туда лазили и меняли для каких то своих нужд урлы. но и доступа по фтп у них нет, только админка с возможностью редактировать содержимое базы, поэтому опять же странно.
апд.
а вот второе логичное обяснение - логи посещения сайта храню в log.txt на сервере. там есть любые адреса, очистка раз в неделю. видимо паук мог пробороздить этот файл и извлечь ссылки из него

и все таки - дайте пожалуйста совет как правильно индексировать такие сайты, может быть прикрутить какой нибудь генератор хтмл страниц? [Ответ]
svga 13:46 16.11.2009

Сообщение от xirurg:
речь идет о том что на сервере есть всего 5 хтмл страниц

не верно. там столько html страниц, сколько разных возможных выборок из БД.

Сообщение от xirurg:
в некоторых из них прописаны ссылки указанного вида, но конкретно с параметром d=111 нет ни одного.

ну показывайте пациента. а также расскажите - какие надстройки у Вас на браузере стоят.

Сообщение от xirurg:
с другой стороны чудес не бывает, и прихожу к выводу что единственное разумное объяснение что это дело рук заказчиков сайта - возможно они в те дни туда лазили и меняли для каких то своих нужд урлы. но и доступа по фтп у них нет, только админка с возможностью редактировать содержимое базы, поэтому опять же странно.

эх. а нафига доступ по фтп? адреса формируются по id или еще чему то в БД. добил позицию в БД - получил новую страницу, поменял значение - поменялся адрес, значит добилась еще одна новая страница.

Сообщение от xirurg:
а вот второе логичное обяснение - логи посещения сайта храню в log.txt на сервере.

очень просто проверить - было ли обращение к такому файлу по логам сервера. у меня есть мнение, что такого обращения - не было.

Сообщение от xirurg:
и все таки - дайте пожалуйста совет как правильно индексировать такие сайты, может быть прикрутить какой нибудь генератор хтмл страниц?

"такие" - это какие? это у которых в строке браузера вместо holodilnik.html, televizor.html стоят item.php?id=1, item.php?id=2 ??

есть всякие ЧПУ на всяких более-менее известных движках, но и так все прожевывается хорошо роботами.

если ну уж сильное есть желание - можно повесить гугловский сайтмэп на питоне, вот он логи посещений смотрит и на их основании бомбит карту сайта. [Ответ]
][irurg 20:31 16.11.2009

Сообщение от svga:
ну показывайте пациента. а также расскажите - какие надстройки у Вас на браузере стоят.

не вижу смысла загружать вас поисками строчек в моих дебрях, сделаю это сам.
итак поиск строки "d=111" по всем документам сайта дает:
C:\AppServ\www\site\txt\logs.txt (в локальной копии сайта)
в logs.txt сохраняются инфа о посетителях страниц
вхождения в этот файл

Сообщение от :
15:19:23 13/10/2009 IP: <b>spider1.mail.ru </b> Браузер:Mail.Ru/1.0 Зашел на стр: /index.php?a=2&c=4&d=111
16:47:34 16/10/2009 IP: <b>spider45.yandex.ru </b> Браузер:Yandex/1.01.001 (compatible; Win16; I) Зашел на стр: /index.php?a=2&c=4&d=111
12:34:18 19/10/2009 IP: <b>spider45.yandex.ru </b> Браузер:Yandex/1.01.001 (compatible; Win16; I) Зашел на стр: /index.php?a=2&c=4&d=111
06:15:26 22/10/2009 IP: <b>93-80-232-224.broadband.corbina.ru </b> Браузер:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; MRA 4.6 (build 01425)) Зашел на стр: /index.php?a=2&c=4&d=111
16:44:19 22/10/2009 IP: <b>spider45.yandex.ru </b> Браузер:Yandex/1.01.001 (compatible; Win16; I) Зашел на стр: /index.php?a=2&c=4&d=111

и т.д
лог чистится раз в пару месяцев, более ранних поэтому нет.
то бишь логичный вывод что паук его мог взять только с лога (за счет чьих то ранних вхождений на эту страницу). я других логичных объяснений не вижу, а вы

дальше интереснее. ищем где встречается logs.txt :

Сообщение от :
adm.php
index.php
index2.php
ipdetect.php

все только скрипты. откуда тогда паук вообще узнал о существовании файла logs.txt ?

PS спасибо за подсказку про сайтмеп. [Ответ]
svga 21:13 16.11.2009
йолки-палки! ну опять 25!
index.php - это не только 2 центнера вкусного легкоусвояемого мЪяса, тьфу!, то бишь не только скрипт, но еще и уникальный адрес странички!

Ваша самопальная статистика, которая еще не пойми чем пишется и откуда формируется - это, конечно, полный зачет. но что мешает посмотреть по нормальной статистике, которую пишет сервер, было ли обращение к файлу log.txt. не зная о том, где все это дело лежит, рискну предположить, что есть файл какой-нить вида - access.log.2009_11_16, в котором четко написано к каким файлам были обращения за этот день и кем. формат вот такой:

Сообщение от :
77.88.27.26 - - [30/Sep/2009:04:00:07 +0400] "GET /catalog/model.php?id=277077 HTTP/1.1" 200 2 "-" "Yandex/1.01.001 (compatible; Win16; I)"

все четко видно - кто, когда и как.
у меня Яндекс бережно хранит страницы, которых на сайте уже с полгода нет - и что в этом страшного?
если тусит бот на сайте, то достаточно каких то секунд, чтобы перешел по ссылке - сожрал - хранил пока не надоест.

не перебирает Яндекс переменные, и не отслеживает чужие вхождения (если всякой хрени в надстройках браузера нет), чтобы добавить в индекс или просто пробивать страницы. [Ответ]
][irurg 21:47 16.11.2009
ок, вы меня убедили. [Ответ]
DRON-ANARCHY 23:12 16.11.2009
Это он сапу палит, ага... [Ответ]
Вверх