Ищется язык программирования и/или библиотека для сабжа.
Цель — пакетная обработка информации из социальных сетей. Т.е. программа генерируем некий html-запрос, скачивает страницы, находит на них нужную инфу, фильтрует, если надо — генерирует дополнительные ссылки и обращается по ним, и т.д. Короче, это нечто должно быть заточено под структуру html, уметь работать с регулярными выражениями и т.д.
Скорее всего, это должно быть что-то типа динамического языка программирования, perl, python, ruby или что-то типа такого, причем легкое для освоения. Но вот что? Ясно что не С++ на котором я в основном пишу. Очень буду признателен, если ткнете носом в то что нужно
Здравствуйте, c-smile, Вы писали:
CS>Здравствуйте, x-code, Вы писали:
XC>>Ищется язык программирования и/или библиотека для сабжа.
CS>Это называется web mining.
CS>Соответсвенно google on : "perl web mining", "python web mining", "ruby web mining" и т.д.
Здравствуйте, Nikolay_, Вы писали:
CS>>Это называется web mining. CS>>Соответсвенно google on : "perl web mining", "python web mining", "ruby web mining" и т.д. N_>Скорее scraping.
За название спасибо, знать как это называется — уже 30% дела
А готовых решений (ну не решений, конечно — примеров решений) не существует?
PS: может ветку перетащить в Динамические языки, там скорее подскажут? Или оставить здесь?
Здравствуйте, x-code, Вы писали:
XC>Здравствуйте, Аноним, Вы писали:
А>>Regex =)
XC>Мне нужен regex, заточенный под html, а не под любой текст Т.е. какой-то DOM-парсер html, и к нему прикрутить regex... XC>есть ли такое?
Я такие штуки сам на С++ писал Это тривиально, но сначала нужно скачать страницу через wininet, загрузить ее в буфер, буферами нужно управлять, страницы которые генерируются CGI не имеют заранее известного размера, т.е. нужны динамические буфера, и т.д.
С++ для всего этого слишком низкоуровневый, хотя я писал специализированные качалки именно на С++.
DOM — затем что интуиция подсказывает, что голый regex — тоже слишком низкоуровневый механизм. Другими словами, нужен специализированный regex, ориентированный на теги в угловых скобках, чтобы я мог абстрагироваться от поиска тегов как таковых и заниматься в чистом виде поиском ДАННЫХ.
Здравствуйте, x-code, Вы писали:
XC>Здравствуйте, c-smile, Вы писали:
CS>>А DOM тебе зачем?
CS>>Найти в html все <a> это тривально: CS>>http://www.codeproject.com/KB/recipes/HTML_XML_Scanner.aspx
XC>Я такие штуки сам на С++ писал Это тривиально, но сначала нужно скачать страницу через wininet, загрузить ее в буфер, буферами нужно управлять, страницы которые генерируются CGI не имеют заранее известного размера, т.е. нужны динамические буфера, и т.д. XC>С++ для всего этого слишком низкоуровневый, хотя я писал специализированные качалки именно на С++.
XC>DOM — затем что интуиция подсказывает, что голый regex — тоже слишком низкоуровневый механизм. Другими словами, нужен специализированный regex, ориентированный на теги в угловых скобках, чтобы я мог абстрагироваться от поиска тегов как таковых и заниматься в чистом виде поиском ДАННЫХ.
Тогда htmlite из htmlayout. Он тебе загрузит документ и построит DOM. В котором ты уже можешь делать