Большой Воронежский Форум
» Программирование>Нужно написать программу строящую карту сайтов
dax 21:57 09.06.2009
Нужно написать программу строящую карту сайтов интернета (с возможностью разбиения на доменные зоны .ru, .com, .net и т.д.).

Есть потребность написать следующую программулинку кратко:
База данных MySQL (уже будет написана структура)
Таблица, в которой хранятся УРЛы, IP адреса сайтов.
Прога должна из этой таблицы хватать адрес, идти на него и строить карту сайта в другой таблице, со ссылкой на этоту запись. Если встречается новый УРЛ, то заносить его в таблицу с УРЛами.
Ессно ссылки должны вырываться отовсюду: картинки, флеши в т.ч..
Прога должна изначально быть работоспособной под линуха.

Также хочется в случае успешного решения этой задачи продолжить в подобном направлении, нужно другой прогой ходить по страницам из базы, выхватывать из них текст, при этом его особым образом парсить.

Жду ваших предложений [email protected] или личка.
][irurg 22:46 09.06.2009

Сообщение от dax:
База данных MySQL

можно поинтересоваться - где ее предполагается хранить? просто любопытно, как вы оцениваете количество сайтов и ссылок интеренета
dax 07:32 10.06.2009
Вообще, речь не о поиске, как кажется на первый взгляд.
1. Я не говорил, что это нужно где-то постоянно хранить, к тому же на первоначальном этапе речь идет о рунете, а он на самом деле не такой уж большой.
2. Хранится будет на сервере, неслабом.
3. Если кто-то интересуется поисковыми технологиями, то в принципе может заняться этим направлением на некоторых условиях, все обсуждаемо. То что мы разработали можно использовать и для поиска в т.ч. причем не уступающего по качеству гуглям и яндексу, а местами превосходящий его.
][irurg 08:47 10.06.2009
Не ощущаете противоречий?

Сообщение от dax:
База данных MySQL

Сообщение от dax:
Я не говорил, что это нужно где-то постоянно хранить,

Сообщение от dax:
Хранится будет на сервере

зачем нужна база если не нужно постоянно хранить? так нужно или не нужно хранить 0_о

Сообщение от dax:
речь идет о рунете

уверяю вас, количество ссылок рунета помноженное на кол-во сайтов даст вполне приличную цифру

вообще технически задача решается просто - скачивается сайт и парсится регулярными выражениями. примерно так собирал недавно базу тех параметров автомобилей, поэтому сразу могу вам подсказать - нужен отличный канал, а также ответ на след вопросы
- что будете делать с постоянно появляющимися сайтами?каждый день база будет терять актуальность
- ссылки ведущие в никуда тоже будете вносить? или каждую проверять?
- и главное - к чему этот пост? хотите предложить работу - озвучьте сумму
Yandex 09:03 10.06.2009

Сообщение от :
для поиска в т.ч. причем не уступающего по качеству гуглям и яндексу, а местами превосходящий его

Свежо придание, верится с трудом.
][irurg 09:20 10.06.2009
единственный приличный "самодельный" поисковик видел у МГУшников - http://www.nigma.ru
dax 12:58 10.06.2009
Для тех кто тормоз, еще раз пишу: Нужен программер который сделает то, что написано в первом посте. Если вы просто хотите по3,14здеть, то можете сделать это в другой теме.
Что я делаю и как, это мое личное дело, будь то поисковик или что-то другое. Но в данный момент речь идет не о поиске.
Сумму озвучу, как только появится желающий, с ним побеседуем и посмотрим на его знания.
Сумма будет адекватная поставленной задаче. Вообще задача эта несложная. ТЗ в процессе. Но кратко обрисовал вполне доходчиво.
Если человек не понимает, зачем нужна база данных, то это плохо. Объясню - это универсальный способ связать между собой данные для разных программ.

Сообщение от Yandex:
Свежо придание, верится с трудом.

можете посмотреть тут http://vrtp.ru/index.php?showtopic=11983
и тут скачать http://vrtp.ru/std/nnutils.zip

ЗЫ канал у нас хороший 100 мегабит, можем до гигабита расширить. Вопрос не в железках, а в людях, желательно адекватных.
dr-sm 13:58 10.06.2009
http://java-source.net/open-source/crawlers
dax 14:13 10.06.2009
Спасибо. Мне бы человека. А проги подобные на том же VB тоже есть. У нас времени нехватает на все. Прошу помощи.....
Если нужны примеры работы из С++ с БД, то предоставлю.
svga 13:34 11.06.2009

Сообщение от dax:
3. Если кто-то интересуется поисковыми технологиями, то в принципе может заняться этим направлением на некоторых условиях, все обсуждаемо. То что мы разработали можно использовать и для поиска в т.ч. причем не уступающего по качеству гуглям и яндексу, а местами превосходящий его.

бгг))
жгун! молодца! теперь вылезай из гаража и начинай грести деньги лопатой!
dax 14:15 11.06.2009
ГЫ я их гребу и не вылазия, так что тебе, умник, есть чему поучиться
Да и не для денег все это делается.

Человек судя по всему найден. Если будут просто интересующиеся и желающие заняться вышеобозначенным - велкам
S01aris 16:23 11.06.2009
всмысле не для денег?
svga 16:40 11.06.2009

Сообщение от dax:
ГЫ я их гребу и не вылазия, так что тебе, умник, есть чему поучиться

1. не "тебе", а Вам.
2. деньги покажи
3. сампшелнах

Сообщение от S01aris:
всмысле не для денег?

В смысле киданут с выплатой денег того кто подпишется это делать. Подобные Наполеоны у которых уже все разработано лучше, чем у гугля - денег не платят.
Поюзают какого-нить начинающего программиста забисплатна и успокаиваются.
dax 17:11 11.06.2009
В Воронеже нет ни одного человека, который бы сделал для меня качественную работу и не получил денег. И таких не будет.
svga, вы убого ограничены в своих суждениях и моровозрении. Хоть бы скачали по ссылке выше, посмотрели бы. Более продвинутые люди чем вы уже оценили.
А вы так лаете не по теме. Напоминает мне собачую свадьбу, когда какие-то кобели @бутся, какие-то ждут своей очереди, а какие-то обречены просто наблюдать.....
Ваше время, svga, никогда не наступит....
dax 17:14 11.06.2009

Сообщение от S01aris:
всмысле не для денег?

В смысле мы занимаемся научной работой. Ни о какой коммерции сейчас речи не идет.
Если кто-то есть из учащихся ВГУ, то может заняться этой работой в рамках диплома или курсовой. Я организую что бы это продвинуть в университете.
svga 18:25 11.06.2009

Сообщение от dax:
svga, вы убого ограничены в своих суждениях и моровозрении. Хоть бы скачали по ссылке выше, посмотрели бы. Более продвинутые люди чем вы уже оценили.

мнепох.
я - программист-практик, у которого хватает ума не выдавать публичные идиотизмы, вроде того что в рунете сайтов мало и можно их по пальцам пересчитать, про базы данных и про то что разработаны собственные продукты круче гугловских.

Сообщение от dax:
А вы так лаете не по теме. Напоминает мне собачую свадьбу, когда какие-то кобели @бутся, какие-то ждут своей очереди, а какие-то обречены просто наблюдать.....
Ваше время, svga, никогда не наступит....

Вы это, завязывайте собак иппать. Не хорошо это, гринпис не одобрит. Я даже наблюдать такое не хочу.

Сообщение от dax:
В Воронеже нет ни одного человека, который бы сделал для меня качественную работу и не получил денег.

Сообщение от dax:
Ни о какой коммерции сейчас речи не идет.

сильная логика. молодца!
Вверх