Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 14:00
Оценка:
Вот есть универсальные поисковики "для народа" — Google, Yandex и т.п., но они ищут только там, где считают нужным (и только то, что считают нужным). Указание оператора site лишь сужает выдачу. Если какой-то документ не проиндексирован — он не найдется. Ну и языки запросов с течением времени вырождаются, поскольку подавляющее большинство клиентов их не используют.

На многих сайтах есть собственные поисковики, но качество у них — обычно от убогого до среднего. Как правило, возможности ограничиваются поиском по набору ключевых слов, даже без возможности связать их по "и/или". В итоге находится или очень мало нужного, или очень много лишнего.

Есть готовые поисковые системы типа Sorl, Sphinx и др., но они предназначены исключительно для встраивания на сайты. Есть куча локальных поисковиков, но они работают только по локальным же носителям.

Известно, что многие компании регулярно мониторят онлайн-каталоги конкурентов, но для этого каждая городит собственные средства. В то же время есть множество государственных, ведомственных и частных сайтов с открытыми БД (патенты, изобретения, судебные документы, тендеры, архивы выпусков СМИ и т.п.), локальный поиск по которым часто сделан очень примитивно. В итоге заинтересованные лица опять-таки городят свои системы, периодически выкачивающие оттуда весь контент, строящие собственную БД, и уже по ней гоняют локальный поиск.

Никому не приходило в голову сделать универсальную поисковую машину, которую можно было бы натравить на конкретный сайт? В идеале, она должна быть как в виде веб-сервиса, расходующего трафик сервера, так и локального приложения, работающего на трафике клиента. Для оптимизации поиска, наряду с традиционным обходом по ссылкам, можно поддерживать набор правил (местонахождение ссылки, структура ссылки, определенные значения в имени документа и т.п.). Для частых запросов можно иметь локальные индексы и кэши.

Монетизировать это можно было бы как платной подпиской на сервис и лицензией на локальную версию, так и размещением рекламы на бесплатном сервисе. Подозреваю, что такая штука будет очень популярной среди множества разных спецов.
сайт поиск внешний база данных
Re: Поисковая машина для поиска по сайтам снаружи
От: falcoware Россия https://falcoware.com/rus/
Дата: 18.10.20 15:02
Оценка: -1
ЕМ>Монетизировать это можно было бы как платной подпиской на сервис и лицензией на локальную версию, так и размещением рекламы на бесплатном сервисе. Подозреваю, что такая штука будет очень популярной среди множества разных спецов.

Можно всю жизнь потратить на бредовую идею.

Прежде чем браться за проект я всегда смотрю количество запросов в инете по моей проблеме.


"индексация стороннего сайта" никто не ищет. Значит клиентов нет. Нет клиентов — нет денег. Finita la comedia.
https://falcoware.com/rus/ — Бесплатные Игры!!!
Re: Поисковая машина для поиска по сайтам снаружи
От: L.K. Марс  
Дата: 18.10.20 15:09
Оценка:
ЕМ>Никому не приходило в голову сделать универсальную поисковую машину, которую можно было бы натравить на конкретный сайт?

wget + sphinx.

Лезешь на главную страницу, бегаешь по ссылкам, постепенно выкачиваешь весь сайт. А потом индексируешь сфинксом.

И получится этакий "персональный гугл" на личном хостинге.
Re[2]: Поисковая машина для поиска по сайтам снаружи
От: L.K. Марс  
Дата: 18.10.20 15:19
Оценка: +1
F>"индексация стороннего сайта" никто не ищет. Значит клиентов нет.

Так можно выкинуть на помойку гениальную и революционную идею.

Сколько народа 30 лет назад искало мобильную связь? Нисколько. Ширнармассы даже не понимали, что такое возможно.

Или кто год назад искал противовирусные маски? Если бы у какой-то компании были наработки в этой области, если бы у них была удобная (не душная, не оставляющая следов на коже) и дешёвая маска, то эта компания нынче озолотилась бы.
Re[2]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 15:28
Оценка:
Здравствуйте, L.K., Вы писали:

LK>Лезешь на главную страницу, бегаешь по ссылкам, постепенно выкачиваешь весь сайт. А потом индексируешь сфинксом.

LK>И получится этакий "персональный гугл" на личном хостинге.

Нет, получится очередное, сугубо частное и кривое поделие. Вы определенно не поняли идеи.
Re: Поисковая машина для поиска по сайтам снаружи
От: Буравчик Россия  
Дата: 18.10.20 15:31
Оценка: +1
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Никому не приходило в голову сделать универсальную поисковую машину, которую можно было бы натравить на конкретный сайт? В идеале, она должна быть как в виде веб-сервиса, расходующего трафик сервера, так и локального приложения, работающего на трафике клиента. Для оптимизации поиска, наряду с традиционным обходом по ссылкам, можно поддерживать набор правил (местонахождение ссылки, структура ссылки, определенные значения в имени документа и т.п.). Для частых запросов можно иметь локальные индексы и кэши.


Раньше существовали desktop search engine — от гугла, от яндекса, кажется еще Евфрат был (или как-то так).
Они позволяли индексировать документы на диске (ворд, эксель, текстовые) и потом по ним делать поиск.
Может они и сейчас существуют (один продукт точно есть, забыл как называется), и может научились сканировать сайты

Плюс сейчас существуют сервисы, и не один, которые отслеживают изменения на определенных сайтах.
Возможно они умеют не только парсить изменения, но и осуществлять поиск.

P.S. А вообще идея мне нравится. Можно подумать детальнее, если не найдется что-то дельное у конкурентов
Best regards, Буравчик
Re[3]: Поисковая машина для поиска по сайтам снаружи
От: L.K. Марс  
Дата: 18.10.20 15:35
Оценка:
ЕМ>Нет, получится очередное, сугубо частное и кривое поделие. Вы определенно не поняли идеи.

Да, я не понял, в чём идея.
Re[2]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 15:37
Оценка:
Здравствуйте, falcoware, Вы писали:

F>"индексация стороннего сайта" никто не ищет. Значит клиентов нет.


Это в первую очередь значит, что Вы в корне неправильно интерпретировали идею. Индексация в ней — и далеко не главное, и вовсе не обязательное.
Re[2]: Поисковая машина для поиска по сайтам снаружи
От: Михaил  
Дата: 18.10.20 16:19
Оценка: +1
Здравствуйте, falcoware, Вы писали:

F>Можно всю жизнь потратить на бредовую идею.


F>Прежде чем браться за проект я всегда смотрю количество запросов в инете по моей проблеме.


С одной стороны верно, а с другой — если бы Джобс тоже предварительно гуглил в trends «телефон, где можно тыкать пальцем» — придумали бы они айфон?
Или Форд со своей шуткой про более быструю лошадь.
Отредактировано 18.10.2020 16:26 Михaил . Предыдущая версия . Еще …
Отредактировано 18.10.2020 16:25 Михaил . Предыдущая версия .
Re[3]: Поисковая машина для поиска по сайтам снаружи
От: falcoware Россия https://falcoware.com/rus/
Дата: 18.10.20 16:29
Оценка:
М>С одной стороны верно, а с другой — если бы Джобс тоже предварительно гуглил в trends «телефон, где можно тыкать пальцем» — придумали бы они айфон?
М>Или Форд со своей шуткой про более быструю лошадь.

Дык у них была ОСЬ и команда и свои компы и технологии и наработки. Это был очевидный шаг.
Тут, Вы, Кулибин, вылетаете один из влагалища на лыжах и хотите всех удивить.
https://falcoware.com/rus/ — Бесплатные Игры!!!
Re[4]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 16:35
Оценка:
Здравствуйте, L.K., Вы писали:

LK>Да, я не понял, в чём идея.


Идея в том же, что и глобального поисковика типа Google/Yandex, но не для ширнармасс, а для гораздо более узкого круга специалистов (аналитиков, патентоведов, врачей, юристов, журналистов, писателей и др.).

Вот нужно мне, например, найти определенные заявки и документы по товарным знакам. Они есть у Роспатента — в виде каталога по номерам, датам и подобным реквизитам, то полнотекстового поиска там нет. Да, я могу сгородить скрипт, выкачать все это к себе, индексировать и искать. Но следующий, кому это понадобится (а таких множество) снова будет вынужден городить скрипт и т.д. Или обратится в контору, которая это когда-то уже сделала, но только именно по этой конкретной БД.

А еще мне нужно найти определенные статьи в архиве некоторых периодических СМИ. Они тоже есть — в виде ZIP'ов или отдельных нераспознанных страниц. Значит, для этого нужно снова городить отдельный самопал.

Вот если б кто взялся вместо этого зоопарка частных костылей сделать общее решение — это можно было бы превратить в золотую жилу.
Re[5]: Поисковая машина для поиска по сайтам снаружи
От: L.K. Марс  
Дата: 18.10.20 17:11
Оценка:
Что мешает скормить гуглу команду:

ура site:rsdn.ru OR site:sql.ru


?

И слово "ура" найдётся на требуемых сайтах.
Re[6]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 17:15
Оценка:
Здравствуйте, L.K., Вы писали:

LK>Что мешает скормить гуглу команду:

LK>ура site:rsdn.ru OR site:sql.ru

Скормить — ничто не мешает. А найти мешает то, что гугл, яндекс и любой массовый поисковик ищет только в том, что индексирует сам. А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.
Re: Поисковая машина для поиска по сайтам снаружи
От: PM  
Дата: 18.10.20 17:21
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Никому не приходило в голову сделать универсальную поисковую машину, которую можно было бы натравить на конкретный сайт? В идеале, она должна быть как в виде веб-сервиса, расходующего трафик сервера, так и локального приложения, работающего на трафике клиента. Для оптимизации поиска, наряду с традиционным обходом по ссылкам, можно поддерживать набор правил (местонахождение ссылки, структура ссылки, определенные значения в имени документа и т.п.). Для частых запросов можно иметь локальные индексы и кэши.


То есть хочется enterprise search engine?

Например, есть поисковая система Mindbreeze, которую можно купить как в варианте Appliance (программно-аппаратный комплекс по русски?), так и в виде облачного сервиса. Для вытягивания данных из разных источников и их обработки есть куча так называемых Connectors: https://www.mindbreeze.com/inspire-connectors.html
Re[7]: Поисковая машина для поиска по сайтам снаружи
От: L.K. Марс  
Дата: 18.10.20 17:26
Оценка:
ЕМ>А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.

Тогда мой первоначальный вариант. Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.

Можно сделать и отдельный скрипт/утилиту, которая будет запускаться на компе, автоматически всё выкачивать по маске url, индексировать, а потом искать. Получится "локальный поисковик". В принципе, такое делается не сложно.
Re[8]: Поисковая машина для поиска по сайтам снаружи
От: temnik Россия  
Дата: 18.10.20 17:37
Оценка:
По факту это то же самое, что те же гугль и яндекс, ну с каким-то нюансами. Прежде, чем за это браться, нужно прикинуть какие требуются мощности для индексаторов и для хранения базы проиндексированного контента. Есть сотни миллионов не рублей на датацентры?
Лучший хостинг от 4 евро, VPS от 6 евро, разные локации, оплата картами без проблем, скидки до 20%.
50 бесплатных смс
Re[5]: Поисковая машина для поиска по сайтам снаружи
От: falcoware Россия https://falcoware.com/rus/
Дата: 18.10.20 17:49
Оценка:
ЕМ>Вот если б кто взялся вместо этого зоопарка частных костылей сделать общее решение — это можно было бы превратить в золотую жилу.

При Советской власти одну семью сослали в Сибирь. Она высекла лес, распахала землю, построила дома. Обжилась.

Потом приходит комиссар и говорит выше по реке на 2 км есть лучшие места и уговорил их сорваться с места.

Они ушли ничего подобного не нашли, вернулись, а их жилье и место уже занято Комиссаром и его родственниками.
https://falcoware.com/rus/ — Бесплатные Игры!!!
Re[2]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 18:06
Оценка:
Здравствуйте, PM, Вы писали:

PM>То есть хочется enterprise search engine?


Не, хочется professional targeted search engine. С адекватным набором функций, но без лишних наворотов.

PM>есть поисковая система Mindbreeze


Судя по описанию, это очередное "всеобъемлющее" решение, в котором очень много лишнего, поэтому и ценник (от $30000 в год) выгоден лишь для среднего и крупного бизнеса. Индивидуальному юристу или ученому это и излишне, и чрезмерно дорого.
Re[8]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 18:10
Оценка:
Здравствуйте, L.K., Вы писали:

LK>Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.


Такое решение будет и кривым (далеко не всегда есть надобность и время выкачивать весь контент для поиска по нему), и однобоким (для каждого сайта нужно вручную писать свои скрипты). Я бы предпочел готовое решение за адекватные деньги.
Re[9]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 18:11
Оценка:
Здравствуйте, temnik, Вы писали:

T>По факту это то же самое, что те же гугль и яндекс, ну с каким-то нюансами.


Разница прежде всего в том, что объем индексации определяется не самим поисковиком, а его клиентом.

T>Есть сотни миллионов не рублей на датацентры?


В свете озвученных условий, их не требуется.
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.