Посетила меня идея — нарисовать хранилище некоей информации, информация доступна в броузере по определенному адресу, значит насколько я понимаю может быть получена программным путем и затем обработана. Вопрос — скажите в какую сторону смотреть, что поситать — задача получить данные html по адресу и разобрать затем сам HTML для получения информации. Насколько я понимаю так работают поисковые системы — очень хочется узнать технологию работы поисковых систем.
Здравствуйте, Аноним, Вы писали:
А>Посетила меня идея — нарисовать хранилище некоей информации, информация доступна в броузере по определенному адресу, значит насколько я понимаю может быть получена программным путем и затем обработана. Вопрос — скажите в какую сторону смотреть, что поситать — задача получить данные html по адресу и разобрать затем сам HTML для получения информации. Насколько я понимаю так работают поисковые системы — очень хочется узнать технологию работы поисковых систем.
Класс URL смотри. Там найдешь методы для получения данных по адресу. Если тебе про работу поисковых систем вообще, то могу перенести пост в более профильный форум.
Здравствуйте, Аноним, Вы писали:
А>Посетила меня идея — нарисовать хранилище некоей информации, информация доступна в броузере по определенному адресу, значит насколько я понимаю может быть получена программным путем и затем обработана. Вопрос — скажите в какую сторону смотреть, что поситать — задача получить данные html по адресу и разобрать затем сам HTML для получения информации. Насколько я понимаю так работают поисковые системы — очень хочется узнать технологию работы поисковых систем.
Посмотри Apache HttpClient. Удобная работа с HTTP запросами.
А задача у тебя на две подзадачи разбивается. Загрузить страницу с HTTP сервера и распарсить информацию из неё. С первой частью поможет HttpClient, а вторая часть не отличается от работы с обычном файлом, из которого нужно вытащить информацию.
А>>Посетила меня идея — нарисовать хранилище некоей информации, информация доступна в броузере по определенному адресу, значит насколько я понимаю может быть получена программным путем и затем обработана.
Делаю программку, которая тоже самое делает. Одну уже сделал, так что некий опыт имеется. vb-develop все правильно написал, смотреть надо в сторону HTTPClient, но сначала нужно подучить матчасть по HTML/HTTP. Для разбора HTML-файлов можно использовать специальный библиотеки, я использую HTMLParser. Не совсем тривиальная вещь, но очень гибкая. Поиск на форуме можно найти пример работы с ним (я приводил). Или найти альтернативные библиотеки (вроде бы JTidy).
Cоветую сразу поставить HTTP-прохи WebScarab. Он поможет для просмотра, как же на самом деле браузер общается с сервером. А затем, для просмотра как же на самом деле твое приложение общается с сервером. В Firefox можно поставить расширение для настройки быстрого переключения proxy (я поставил Switch Proxy или как-то так).
Некоторые сайты не любят, когда с них информацию собирают — поэтому не помешает помнить о двух вещах:
1. Сделать мимикрию заголовков под какой-нибудь браузер (если код будет нужен, выложу для Fx);
2. Не напрягать сайт непрерывными обращениями — поставить задержку между запросами. Возможно, что следует вообще выходить через Tor, чтобы IP-адрес не забанили.
Здравствуйте, LeonidV, Вы писали: LV>Некоторые сайты не любят, когда с них информацию собирают — поэтому не помешает помнить о двух вещах: LV>1. Сделать мимикрию заголовков под какой-нибудь браузер (если код будет нужен, выложу для Fx);
Спасибо огромное за ответ, дальше все просто остается только делать. И если можно выложите заготовку для Fx — это здорово мне поможет.