Re: Поисковая машина для поиска по сайтам снаружи
От: salnicoff  
Дата: 18.10.20 18:44
Оценка: 5 (1)
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Никому не приходило в голову сделать универсальную поисковую машину, которую можно было бы натравить на конкретный сайт?


«Яндекс» версии 1.0, выпущен до 1997 года. Потом, после запуска «Яндекса» как веб-поисковика, было отдельное приложение — что-то типа «Яндекс для сайта», причем оно было именно селф-хостед.
Re[3]: Поисковая машина для поиска по сайтам снаружи
От: salnicoff  
Дата: 18.10.20 19:41
Оценка: 5 (1)
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Здравствуйте, salnicoff, Вы писали:


S>>было отдельное приложение — что-то типа «Яндекс для сайта», причем оно было именно селф-хостед.


ЕМ>Оно разве не ставилось на сервер к самому сайту?


«Яндекс» начинался с приложения для «Винды» (или для ДОС?) для поиска по документам на локальных дисках с учетом особенностей русского языка. Потом из него сделали поисковик по русскоязычному интернету, и довольно долго можно было скачать скрипт, который ставился к себе на сайт и обслуживал только те домены, что были забиты в конфиги.
Re[2]: Поисковая машина для поиска по сайтам снаружи
От: Дядюшка Ау Верблюд  
Дата: 19.10.20 06:09
Оценка: 2 (1)
Здравствуйте, Artem Korneev, Вы писали:

AK>Здравствуйте, Евгений Музыченко, Вы писали:


ЕМ>>Есть готовые поисковые системы типа Sorl, Sphinx и др., но они предназначены исключительно для встраивания на сайты.


AK>Sphinx достаточно универсален и позволяет индексировать всё что угодно. Он индексирует те документы, которые вы ему предоставляете. Вам нужно лишь скачать данные и предоставить их Sphinx'у для индексации.

AK>Т.е. вопрос не в поисковой машине, а в инструменте для обхода ссылок и скачивания документов (web crawler'е) и хранилище документов.

AK>Точно так же построены и поисковики общего назначения, кстати. Там три основных компонента — web crawler, хранилище и поисковый индекс.


Для закачек сайтов целиком или их отдельных частей очень удобно использовать httrack и мой скрипт для его запуска

# ===============================================================
# Copyright (С) Uncle AU, 2015-2020
# The AUTHOR allows to use this content under AGPL v3 license:
# http://opensource.org/licenses/agpl-v3.html
# ===============================================================

URL=$1;
Dir=$2;

#URL="http://lurkmore.to";
if [ -z "$Dir" ]; then
Dir=`pwd`;
fi;

Options1=" --depth=100 --tolerant --urlhack -u2 -%v2 --advanced-maxlinks=999999999 ";
UserAgent1="Mozilla 1.0, Sparc, Solaris 23.54.34";
UserAgent2="Mozilla/5.0 (X11;U; Linux i686; en-GB; rv:1.9.1) Gecko/20090624 Ubuntu/9.04 (jaunty) Firefox/3.5";
Options2=" --connection-per-second=50 --sockets=80 -s0 --keep-alive --display --verbose --advanced-progressinfo --disable-security-limits --near --clean ";

#-F '' -A100000000
# -s0 "; "-*.tmp"
#--proxy localhost:8118;

httrack "$URL" -O "$Dir" -F "$UserAgent2" $Options1 $Options2;


Самый лучший и самое главное надежный известный мне полнотекстовый индексатор — это Recall:
https://en.wikipedia.org/wiki/Recoll

А для специализированных тематик делают свои парсеры.
Например, некоторые парсят цены на многое и разное и продают результаты такого парсинга, да чего только нынче не парсят ...

А парсить можно много чем, но самые лучшие IMHO тулзы это:

https://en.a-parser.com/ — Абсолютно убойная скорость работы в тысячи потоков, изначально заточен под Linux.

А для прицельного парсинга с полной эмуляцией человека:

https://zennolab.com/en/products/zennoposter/ — очень удобный конструктор для отлова HTML элементов на сайтах любой сложности. Из недостатков Зенки нужно отметить потребность в Шиндозе даже для своего бэкенда, т.е. подходит главным образом под точечные целевые партизанские действия, а не для массированых работ.

https://bablosoft.com/shop/BrowserAutomationStudio — удобная лицензионная политика, open source и работоспособность в WINE под Linux, теоретически держит нагрузку лучше Зенки (пока ее backend не портировали на Linux DotNet Core) и при желании его можно масштабировать в контейнерах (vnc4server+wine) и вероятно даже в кластерах kubernetes!

Вот эти штуковины после программирования могут выпарсить вам все, что угодно.
Все они поддерживают RPC автоматизацию.
Причем BAS доступен даже в сорцах!

Потом добавляете ко всему этому сайтег на Wordpress с управлением платными подписками:
https://wordpress.org/plugins/easy-digital-downloads/

и удобный интерфейс для юзеров на DevExpress XAF для доступа к результатам парсинга:
https://rsdn.org/forum/flame.comp/7846841?tree=tree
Автор: Дядюшка Ау
Дата: 06.10.20
Отредактировано 25.10.2020 5:02 Дядюшка Ау . Предыдущая версия . Еще …
Отредактировано 20.10.2020 2:25 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:46 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:42 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:38 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:37 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:36 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:34 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:32 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:31 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:28 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:28 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:26 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:24 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:22 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:20 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:18 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:17 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:16 Дядюшка Ау . Предыдущая версия .
Re: Поисковая машина для поиска по сайтам снаружи
От: falcoware Россия https://falcoware.com/rus/
Дата: 18.10.20 15:02
Оценка: -1
ЕМ>Монетизировать это можно было бы как платной подпиской на сервис и лицензией на локальную версию, так и размещением рекламы на бесплатном сервисе. Подозреваю, что такая штука будет очень популярной среди множества разных спецов.

Можно всю жизнь потратить на бредовую идею.

Прежде чем браться за проект я всегда смотрю количество запросов в инете по моей проблеме.


"индексация стороннего сайта" никто не ищет. Значит клиентов нет. Нет клиентов — нет денег. Finita la comedia.
https://falcoware.com/rus/ — Бесплатные Игры!!!
Re[2]: Поисковая машина для поиска по сайтам снаружи
От: L.K. Марс  
Дата: 18.10.20 15:19
Оценка: +1
F>"индексация стороннего сайта" никто не ищет. Значит клиентов нет.

Так можно выкинуть на помойку гениальную и революционную идею.

Сколько народа 30 лет назад искало мобильную связь? Нисколько. Ширнармассы даже не понимали, что такое возможно.

Или кто год назад искал противовирусные маски? Если бы у какой-то компании были наработки в этой области, если бы у них была удобная (не душная, не оставляющая следов на коже) и дешёвая маска, то эта компания нынче озолотилась бы.
Re: Поисковая машина для поиска по сайтам снаружи
От: Буравчик Россия  
Дата: 18.10.20 15:31
Оценка: +1
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Никому не приходило в голову сделать универсальную поисковую машину, которую можно было бы натравить на конкретный сайт? В идеале, она должна быть как в виде веб-сервиса, расходующего трафик сервера, так и локального приложения, работающего на трафике клиента. Для оптимизации поиска, наряду с традиционным обходом по ссылкам, можно поддерживать набор правил (местонахождение ссылки, структура ссылки, определенные значения в имени документа и т.п.). Для частых запросов можно иметь локальные индексы и кэши.


Раньше существовали desktop search engine — от гугла, от яндекса, кажется еще Евфрат был (или как-то так).
Они позволяли индексировать документы на диске (ворд, эксель, текстовые) и потом по ним делать поиск.
Может они и сейчас существуют (один продукт точно есть, забыл как называется), и может научились сканировать сайты

Плюс сейчас существуют сервисы, и не один, которые отслеживают изменения на определенных сайтах.
Возможно они умеют не только парсить изменения, но и осуществлять поиск.

P.S. А вообще идея мне нравится. Можно подумать детальнее, если не найдется что-то дельное у конкурентов
Best regards, Буравчик
Re[2]: Поисковая машина для поиска по сайтам снаружи
От: Михaил  
Дата: 18.10.20 16:19
Оценка: +1
Здравствуйте, falcoware, Вы писали:

F>Можно всю жизнь потратить на бредовую идею.


F>Прежде чем браться за проект я всегда смотрю количество запросов в инете по моей проблеме.


С одной стороны верно, а с другой — если бы Джобс тоже предварительно гуглил в trends «телефон, где можно тыкать пальцем» — придумали бы они айфон?
Или Форд со своей шуткой про более быструю лошадь.
Отредактировано 18.10.2020 16:26 Михaил . Предыдущая версия . Еще …
Отредактировано 18.10.2020 16:25 Михaил . Предыдущая версия .
Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 14:00
Оценка:
Вот есть универсальные поисковики "для народа" — Google, Yandex и т.п., но они ищут только там, где считают нужным (и только то, что считают нужным). Указание оператора site лишь сужает выдачу. Если какой-то документ не проиндексирован — он не найдется. Ну и языки запросов с течением времени вырождаются, поскольку подавляющее большинство клиентов их не используют.

На многих сайтах есть собственные поисковики, но качество у них — обычно от убогого до среднего. Как правило, возможности ограничиваются поиском по набору ключевых слов, даже без возможности связать их по "и/или". В итоге находится или очень мало нужного, или очень много лишнего.

Есть готовые поисковые системы типа Sorl, Sphinx и др., но они предназначены исключительно для встраивания на сайты. Есть куча локальных поисковиков, но они работают только по локальным же носителям.

Известно, что многие компании регулярно мониторят онлайн-каталоги конкурентов, но для этого каждая городит собственные средства. В то же время есть множество государственных, ведомственных и частных сайтов с открытыми БД (патенты, изобретения, судебные документы, тендеры, архивы выпусков СМИ и т.п.), локальный поиск по которым часто сделан очень примитивно. В итоге заинтересованные лица опять-таки городят свои системы, периодически выкачивающие оттуда весь контент, строящие собственную БД, и уже по ней гоняют локальный поиск.

Никому не приходило в голову сделать универсальную поисковую машину, которую можно было бы натравить на конкретный сайт? В идеале, она должна быть как в виде веб-сервиса, расходующего трафик сервера, так и локального приложения, работающего на трафике клиента. Для оптимизации поиска, наряду с традиционным обходом по ссылкам, можно поддерживать набор правил (местонахождение ссылки, структура ссылки, определенные значения в имени документа и т.п.). Для частых запросов можно иметь локальные индексы и кэши.

Монетизировать это можно было бы как платной подпиской на сервис и лицензией на локальную версию, так и размещением рекламы на бесплатном сервисе. Подозреваю, что такая штука будет очень популярной среди множества разных спецов.
сайт поиск внешний база данных
Re: Поисковая машина для поиска по сайтам снаружи
От: L.K. Марс  
Дата: 18.10.20 15:09
Оценка:
ЕМ>Никому не приходило в голову сделать универсальную поисковую машину, которую можно было бы натравить на конкретный сайт?

wget + sphinx.

Лезешь на главную страницу, бегаешь по ссылкам, постепенно выкачиваешь весь сайт. А потом индексируешь сфинксом.

И получится этакий "персональный гугл" на личном хостинге.
Re[2]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 15:28
Оценка:
Здравствуйте, L.K., Вы писали:

LK>Лезешь на главную страницу, бегаешь по ссылкам, постепенно выкачиваешь весь сайт. А потом индексируешь сфинксом.

LK>И получится этакий "персональный гугл" на личном хостинге.

Нет, получится очередное, сугубо частное и кривое поделие. Вы определенно не поняли идеи.
Re[3]: Поисковая машина для поиска по сайтам снаружи
От: L.K. Марс  
Дата: 18.10.20 15:35
Оценка:
ЕМ>Нет, получится очередное, сугубо частное и кривое поделие. Вы определенно не поняли идеи.

Да, я не понял, в чём идея.
Re[2]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 15:37
Оценка:
Здравствуйте, falcoware, Вы писали:

F>"индексация стороннего сайта" никто не ищет. Значит клиентов нет.


Это в первую очередь значит, что Вы в корне неправильно интерпретировали идею. Индексация в ней — и далеко не главное, и вовсе не обязательное.
Re[3]: Поисковая машина для поиска по сайтам снаружи
От: falcoware Россия https://falcoware.com/rus/
Дата: 18.10.20 16:29
Оценка:
М>С одной стороны верно, а с другой — если бы Джобс тоже предварительно гуглил в trends «телефон, где можно тыкать пальцем» — придумали бы они айфон?
М>Или Форд со своей шуткой про более быструю лошадь.

Дык у них была ОСЬ и команда и свои компы и технологии и наработки. Это был очевидный шаг.
Тут, Вы, Кулибин, вылетаете один из влагалища на лыжах и хотите всех удивить.
https://falcoware.com/rus/ — Бесплатные Игры!!!
Re[4]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 16:35
Оценка:
Здравствуйте, L.K., Вы писали:

LK>Да, я не понял, в чём идея.


Идея в том же, что и глобального поисковика типа Google/Yandex, но не для ширнармасс, а для гораздо более узкого круга специалистов (аналитиков, патентоведов, врачей, юристов, журналистов, писателей и др.).

Вот нужно мне, например, найти определенные заявки и документы по товарным знакам. Они есть у Роспатента — в виде каталога по номерам, датам и подобным реквизитам, то полнотекстового поиска там нет. Да, я могу сгородить скрипт, выкачать все это к себе, индексировать и искать. Но следующий, кому это понадобится (а таких множество) снова будет вынужден городить скрипт и т.д. Или обратится в контору, которая это когда-то уже сделала, но только именно по этой конкретной БД.

А еще мне нужно найти определенные статьи в архиве некоторых периодических СМИ. Они тоже есть — в виде ZIP'ов или отдельных нераспознанных страниц. Значит, для этого нужно снова городить отдельный самопал.

Вот если б кто взялся вместо этого зоопарка частных костылей сделать общее решение — это можно было бы превратить в золотую жилу.
Re[5]: Поисковая машина для поиска по сайтам снаружи
От: L.K. Марс  
Дата: 18.10.20 17:11
Оценка:
Что мешает скормить гуглу команду:

ура site:rsdn.ru OR site:sql.ru


?

И слово "ура" найдётся на требуемых сайтах.
Re[6]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 17:15
Оценка:
Здравствуйте, L.K., Вы писали:

LK>Что мешает скормить гуглу команду:

LK>ура site:rsdn.ru OR site:sql.ru

Скормить — ничто не мешает. А найти мешает то, что гугл, яндекс и любой массовый поисковик ищет только в том, что индексирует сам. А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.
Re: Поисковая машина для поиска по сайтам снаружи
От: PM  
Дата: 18.10.20 17:21
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Никому не приходило в голову сделать универсальную поисковую машину, которую можно было бы натравить на конкретный сайт? В идеале, она должна быть как в виде веб-сервиса, расходующего трафик сервера, так и локального приложения, работающего на трафике клиента. Для оптимизации поиска, наряду с традиционным обходом по ссылкам, можно поддерживать набор правил (местонахождение ссылки, структура ссылки, определенные значения в имени документа и т.п.). Для частых запросов можно иметь локальные индексы и кэши.


То есть хочется enterprise search engine?

Например, есть поисковая система Mindbreeze, которую можно купить как в варианте Appliance (программно-аппаратный комплекс по русски?), так и в виде облачного сервиса. Для вытягивания данных из разных источников и их обработки есть куча так называемых Connectors: https://www.mindbreeze.com/inspire-connectors.html
Re[7]: Поисковая машина для поиска по сайтам снаружи
От: L.K. Марс  
Дата: 18.10.20 17:26
Оценка:
ЕМ>А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.

Тогда мой первоначальный вариант. Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.

Можно сделать и отдельный скрипт/утилиту, которая будет запускаться на компе, автоматически всё выкачивать по маске url, индексировать, а потом искать. Получится "локальный поисковик". В принципе, такое делается не сложно.
Re[8]: Поисковая машина для поиска по сайтам снаружи
От: temnik Россия  
Дата: 18.10.20 17:37
Оценка:
По факту это то же самое, что те же гугль и яндекс, ну с каким-то нюансами. Прежде, чем за это браться, нужно прикинуть какие требуются мощности для индексаторов и для хранения базы проиндексированного контента. Есть сотни миллионов не рублей на датацентры?
Лучший хостинг от 4 евро, VPS от 6 евро, разные локации, оплата картами без проблем, скидки до 20%.
50 бесплатных смс
Re[5]: Поисковая машина для поиска по сайтам снаружи
От: falcoware Россия https://falcoware.com/rus/
Дата: 18.10.20 17:49
Оценка:
ЕМ>Вот если б кто взялся вместо этого зоопарка частных костылей сделать общее решение — это можно было бы превратить в золотую жилу.

При Советской власти одну семью сослали в Сибирь. Она высекла лес, распахала землю, построила дома. Обжилась.

Потом приходит комиссар и говорит выше по реке на 2 км есть лучшие места и уговорил их сорваться с места.

Они ушли ничего подобного не нашли, вернулись, а их жилье и место уже занято Комиссаром и его родственниками.
https://falcoware.com/rus/ — Бесплатные Игры!!!
Re[2]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 18:06
Оценка:
Здравствуйте, PM, Вы писали:

PM>То есть хочется enterprise search engine?


Не, хочется professional targeted search engine. С адекватным набором функций, но без лишних наворотов.

PM>есть поисковая система Mindbreeze


Судя по описанию, это очередное "всеобъемлющее" решение, в котором очень много лишнего, поэтому и ценник (от $30000 в год) выгоден лишь для среднего и крупного бизнеса. Индивидуальному юристу или ученому это и излишне, и чрезмерно дорого.
Re[8]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 18:10
Оценка:
Здравствуйте, L.K., Вы писали:

LK>Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.


Такое решение будет и кривым (далеко не всегда есть надобность и время выкачивать весь контент для поиска по нему), и однобоким (для каждого сайта нужно вручную писать свои скрипты). Я бы предпочел готовое решение за адекватные деньги.
Re[9]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 18:11
Оценка:
Здравствуйте, temnik, Вы писали:

T>По факту это то же самое, что те же гугль и яндекс, ну с каким-то нюансами.


Разница прежде всего в том, что объем индексации определяется не самим поисковиком, а его клиентом.

T>Есть сотни миллионов не рублей на датацентры?


В свете озвученных условий, их не требуется.
Re[10]: Поисковая машина для поиска по сайтам снаружи
От: temnik Россия  
Дата: 18.10.20 19:23
Оценка:
T>>Есть сотни миллионов не рублей на датацентры?

ЕМ>В свете озвученных условий, их не требуется.


Как это не требуется? А это —

ЕМ>Вот нужно мне, например, найти определенные заявки и документы по товарным знакам. Они есть у Роспатента — в виде каталога по номерам, датам и подобным реквизитам, то полнотекстового поиска там нет. Да, я могу сгородить скрипт, выкачать все это к себе, индексировать и искать. Но следующий, кому это понадобится (а таких множество) снова будет вынужден городить скрипт и т.д.
Лучший хостинг от 4 евро, VPS от 6 евро, разные локации, оплата картами без проблем, скидки до 20%.
50 бесплатных смс
Re[10]: Поисковая машина для поиска по сайтам снаружи
От: temnik Россия  
Дата: 18.10.20 19:27
Оценка:
В общем-то нечто аналогичное есть — https://archivarix.com/ru/
Работает через посредничество вебархива, но суть та же
Лучший хостинг от 4 евро, VPS от 6 евро, разные локации, оплата картами без проблем, скидки до 20%.
50 бесплатных смс
Re[2]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 19:38
Оценка:
Здравствуйте, salnicoff, Вы писали:

S>было отдельное приложение — что-то типа «Яндекс для сайта», причем оно было именно селф-хостед.


Оно разве не ставилось на сервер к самому сайту?
Re[11]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 19:41
Оценка:
Здравствуйте, temnik, Вы писали:

T>Как это не требуется? А это -


Я ж с самого начала писал, что индексация там имеет смысл только для частых запросов к общему контенту. Ну и при больших объемах того контента. Во многих случаях можно и без нее, или с умеренными затратами на хранение.
Re[11]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 19:42
Оценка:
Здравствуйте, temnik, Вы писали:

T>В общем-то нечто аналогичное есть — https://archivarix.com/ru/

T>Работает через посредничество вебархива, но суть та же

Этот сервис тупо выкачивает с вебархива сайты, где там поиск? Ну и сам вебархив берет к себе далеко не все. И какой смысл тянуть с него, если можно тянуть напрямую с основного сайта?
Re[12]: Поисковая машина для поиска по сайтам снаружи
От: Artem Korneev США https://www.linkedin.com/in/artemkorneev/
Дата: 18.10.20 23:15
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ> индексация там имеет смысл только для частых запросов к общему контенту


А для нечастных запросов? Вытаскивать полную копию каждого сайта на каждый нечастый запрос? Забанят примерно после второго такого запроса.

ЕМ> или с умеренными затратами на хранение


Вы там про нераспознанные сканы документов говорили?.. Один такой источник запросто может выдать сотни гигабайт, а то и терабайты индексируемых данных. Т.е. регулярно индексировать надо петабайты. Даже если надеть розовые очки и рассчитывать на то, что данные довольно однотипные и в индексированном виде будут занимать намного меньше места, то ориентироваться нужно всё равно на петабайты на хранение этих индексов. А это уже по самым скромным расценкам — миллионы баксов ежегодно.

Поисковики общего назначения — Google, Yandex, Bing — это давно уже "экзабайты" индексированных данных. При том, что индексируют они не всё, как сами видите — ориентируются лишь на наиболее востребованную информацию.

Делать стороннюю индексацию для таких данных — очень сомнительное предложение. Реально проще наверное договориться о взаимодействии с этим сервисом и помочь им доработать их собственный поисковик и индексатор чтобы выставить нужную информацию.
С уважением, Artem Korneev.
Re: Поисковая машина для поиска по сайтам снаружи
От: Artem Korneev США https://www.linkedin.com/in/artemkorneev/
Дата: 18.10.20 23:22
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Есть готовые поисковые системы типа Sorl, Sphinx и др., но они предназначены исключительно для встраивания на сайты.


Sphinx достаточно универсален и позволяет индексировать всё что угодно. Он индексирует те документы, которые вы ему предоставляете. Вам нужно лишь скачать данные и предоставить их Sphinx'у для индексации.
Т.е. вопрос не в поисковой машине, а в инструменте для обхода ссылок и скачивания документов (web crawler'е) и хранилище документов.

Точно так же построены и поисковики общего назначения, кстати. Там три основных компонента — web crawler, хранилище и поисковый индекс.
С уважением, Artem Korneev.
Отредактировано 18.10.2020 23:26 Artem Korneev . Предыдущая версия .
Re[10]: Поисковая машина для поиска по сайтам снаружи
От: hrensgory Россия  
Дата: 19.10.20 10:11
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Здравствуйте, temnik, Вы писали:


T>>По факту это то же самое, что те же гугль и яндекс, ну с каким-то нюансами.


ЕМ>Разница прежде всего в том, что объем индексации определяется не самим поисковиком, а его клиентом.


А как вы себе это представляете, практически? Допустим, есть те же самые юристы, им нужны, условно говоря, судебные решения, патенты и ещё чего-нибудь. Как они будут "определять объём индексации", с помощью каких инструментов?

--
WBR,
Serge.
Re[11]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 19.10.20 11:42
Оценка:
Здравствуйте, hrensgory, Вы писали:

H>Допустим, есть те же самые юристы, им нужны, условно говоря, судебные решения, патенты и ещё чего-нибудь. Как они будут "определять объём индексации", с помощью каких инструментов?


Я уже говорил — во многих случаях объем можно ограничить набором правил (по структуре URL, типу/объему документа, дате изменения и т.п.).
Re[12]: Поисковая машина для поиска по сайтам снаружи
От: hrensgory Россия  
Дата: 19.10.20 14:27
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Здравствуйте, hrensgory, Вы писали:


H>>Допустим, есть те же самые юристы, им нужны, условно говоря, судебные решения, патенты и ещё чего-нибудь. Как они будут "определять объём индексации", с помощью каких инструментов?


ЕМ>Я уже говорил — во многих случаях объем можно ограничить набором правил (по структуре URL, типу/объему документа, дате изменения и т.п.).


А делать это будет, грубо говоря, программер/админ? Вряд ли условным "юристам" это по силам.
А если так, то по идее надо просто краулер сконфигурить, к поисковому индексатору подключить и дело в шляпе. Вряд ли потребуется отдельный продукт, должно хватить набора готовых компонент.

--
WBR,
Serge.
Re[8]: Поисковая машина для поиска по сайтам снаружи
От: Alexey Rovdo Россия http://ru.linkedin.com/in/rovdo
Дата: 20.10.20 04:53
Оценка:
Здравствуйте, L.K., Вы писали:

ЕМ>>А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.


LK>Тогда мой первоначальный вариант. Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.


Такой бот будет довольно быстро заблокирован защитой от DDOS или ему предложат распознавать каптчу. Если кто-то не горит желанием отдавать свои документы на индексацию в Google, то он имеет какие-то мотивы для этого, и вряд ли он даст вам выкачивать всю свою базу за здорово живешь.
Re[9]: Поисковая машина для поиска по сайтам снаружи
От: Дядюшка Ау Верблюд  
Дата: 20.10.20 05:00
Оценка:
Здравствуйте, Alexey Rovdo, Вы писали:

AR>Здравствуйте, L.K., Вы писали:


ЕМ>>>А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.


LK>>Тогда мой первоначальный вариант. Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.


AR>Такой бот будет довольно быстро заблокирован защитой от DDOS или ему предложат распознавать каптчу. Если кто-то не горит желанием отдавать свои документы на индексацию в Google, то он имеет какие-то мотивы для этого, и вряд ли он даст вам выкачивать всю свою базу за здорово живешь.


Технически это (даже Рекапча2, да легко) относительно легко решается автоматикой с помощью ZennoPoster/BAS + Capmonster/Xrumer.
Там и тысячи проксей с плавающими айпи, тысячи случайных номеров для SMS и постоянно новые отпечатки браузеров,
такие эмуляторы неблокируемы без использования квалифицированной ЭЦП, полученной в доверенном УЦ.

Тот же Google относительно легко парсится в так называемых промышленных масштабах с помощью например a-parser и других подобных парсеров.

Но и для ЭЦП они вероятно могут создать сервисы отгадывания, как было раньше лет цать назад еще до использования нейросетей для отгадывания картинок человеками, т.е. с технической (неюридической) точки зрения, — это всего лишь цена вопроса — порог вхождения, скажем вместо нескольких центов за графическую капчу, отгадывание ЭЦП может подорожать до нескольких долларов. Подразумевается пул ЭЦП токенов в компах нищебродов, кто согласится предоставить их для отгадывания, мероприятие конечно сомнительное для владельцев таких сертификатов ЭЦП, в принципе их уже намного легче было бы банить черными списками, чем номера телефонов, айпишники и прочую муть.

Только изредка самым гигантам айти мысли типа Google удается найти дыры в браузерах для временного детекта Зенки, ну до очередного ее релиза с соответствующим багфиксом

Но конечно могут возникнуть вопросы правового характера.

Т.е. пряча документы в дебрях своих личных кабинетов, различные сервисы пытаются монетизироваться с помощью контекстной рекламы и фильтрации лишних пользователей, а если речь о платной подписке к личному кабинету, то тем более.

Обходя все эти хитроумные преграды личных кабинетов эмуляторами типа Зенки, вы можете наткнуться на нарушение прав соответствующих правообладателей уже потом, когда попытаетесь распространять контент, полученный из них, самостоятельно через свои сайты.
Отредактировано 20.10.2020 6:54 Дядюшка Ау . Предыдущая версия . Еще …
Отредактировано 20.10.2020 5:30 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:24 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:21 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:20 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:17 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:16 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:14 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:13 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:12 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:09 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:06 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:03 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:01 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:00 Дядюшка Ау . Предыдущая версия .
Re[5]: Поисковая машина для поиска по сайтам снаружи
От: Michael7 Россия  
Дата: 20.10.20 16:07
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Здравствуйте, L.K., Вы писали:


LK>>Да, я не понял, в чём идея.


ЕМ>Идея в том же, что и глобального поисковика типа Google/Yandex, но не для ширнармасс, а для гораздо более узкого круга специалистов (аналитиков, патентоведов, врачей, юристов, журналистов, писателей и др.).


ЕМ>Вот нужно мне, например, найти определенные заявки и документы по товарным знакам. Они есть у Роспатента — в виде каталога по номерам, датам и подобным реквизитам, то полнотекстового поиска там нет.


Вообще-то есть! https://yandex.ru/patents — полнотекстовый поиск по роспатенту от яндекса. Еще и подсказки выдаются в поисковой строке.
Re[6]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 20.10.20 16:21
Оценка:
Здравствуйте, Michael7, Вы писали:

ЕМ>>Вот нужно мне, например, найти определенные заявки и документы по товарным знакам


M>Вообще-то есть! https://yandex.ru/patents — полнотекстовый поиск по роспатенту от яндекса


И каким образом этот поиск по базе патентов найдет мне заявки на товарные знаки?
Re[7]: Поисковая машина для поиска по сайтам снаружи
От: Michael7 Россия  
Дата: 20.10.20 16:28
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>И каким образом этот поиск по базе патентов найдет мне заявки на товарные знаки?


Извини за невнимательность. Почему-то не заметил слова товарные знаки.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.