Re: Поисковая машина для поиска по сайтам снаружи
От: salnicoff  
Дата: 18.10.20 18:44
Оценка: 5 (1)
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Никому не приходило в голову сделать универсальную поисковую машину, которую можно было бы натравить на конкретный сайт?


«Яндекс» версии 1.0, выпущен до 1997 года. Потом, после запуска «Яндекса» как веб-поисковика, было отдельное приложение — что-то типа «Яндекс для сайта», причем оно было именно селф-хостед.
Re[10]: Поисковая машина для поиска по сайтам снаружи
От: temnik Россия  
Дата: 18.10.20 19:23
Оценка:
T>>Есть сотни миллионов не рублей на датацентры?

ЕМ>В свете озвученных условий, их не требуется.


Как это не требуется? А это —

ЕМ>Вот нужно мне, например, найти определенные заявки и документы по товарным знакам. Они есть у Роспатента — в виде каталога по номерам, датам и подобным реквизитам, то полнотекстового поиска там нет. Да, я могу сгородить скрипт, выкачать все это к себе, индексировать и искать. Но следующий, кому это понадобится (а таких множество) снова будет вынужден городить скрипт и т.д.
Лучший хостинг от 4 евро, VPS от 6 евро, разные локации, оплата картами без проблем, скидки до 20%.
50 бесплатных смс
Re[10]: Поисковая машина для поиска по сайтам снаружи
От: temnik Россия  
Дата: 18.10.20 19:27
Оценка:
В общем-то нечто аналогичное есть — https://archivarix.com/ru/
Работает через посредничество вебархива, но суть та же
Лучший хостинг от 4 евро, VPS от 6 евро, разные локации, оплата картами без проблем, скидки до 20%.
50 бесплатных смс
Re[2]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 19:38
Оценка:
Здравствуйте, salnicoff, Вы писали:

S>было отдельное приложение — что-то типа «Яндекс для сайта», причем оно было именно селф-хостед.


Оно разве не ставилось на сервер к самому сайту?
Re[3]: Поисковая машина для поиска по сайтам снаружи
От: salnicoff  
Дата: 18.10.20 19:41
Оценка: 5 (1)
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Здравствуйте, salnicoff, Вы писали:


S>>было отдельное приложение — что-то типа «Яндекс для сайта», причем оно было именно селф-хостед.


ЕМ>Оно разве не ставилось на сервер к самому сайту?


«Яндекс» начинался с приложения для «Винды» (или для ДОС?) для поиска по документам на локальных дисках с учетом особенностей русского языка. Потом из него сделали поисковик по русскоязычному интернету, и довольно долго можно было скачать скрипт, который ставился к себе на сайт и обслуживал только те домены, что были забиты в конфиги.
Re[11]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 19:41
Оценка:
Здравствуйте, temnik, Вы писали:

T>Как это не требуется? А это -


Я ж с самого начала писал, что индексация там имеет смысл только для частых запросов к общему контенту. Ну и при больших объемах того контента. Во многих случаях можно и без нее, или с умеренными затратами на хранение.
Re[11]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 18.10.20 19:42
Оценка:
Здравствуйте, temnik, Вы писали:

T>В общем-то нечто аналогичное есть — https://archivarix.com/ru/

T>Работает через посредничество вебархива, но суть та же

Этот сервис тупо выкачивает с вебархива сайты, где там поиск? Ну и сам вебархив берет к себе далеко не все. И какой смысл тянуть с него, если можно тянуть напрямую с основного сайта?
Re[12]: Поисковая машина для поиска по сайтам снаружи
От: Artem Korneev США https://www.linkedin.com/in/artemkorneev/
Дата: 18.10.20 23:15
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ> индексация там имеет смысл только для частых запросов к общему контенту


А для нечастных запросов? Вытаскивать полную копию каждого сайта на каждый нечастый запрос? Забанят примерно после второго такого запроса.

ЕМ> или с умеренными затратами на хранение


Вы там про нераспознанные сканы документов говорили?.. Один такой источник запросто может выдать сотни гигабайт, а то и терабайты индексируемых данных. Т.е. регулярно индексировать надо петабайты. Даже если надеть розовые очки и рассчитывать на то, что данные довольно однотипные и в индексированном виде будут занимать намного меньше места, то ориентироваться нужно всё равно на петабайты на хранение этих индексов. А это уже по самым скромным расценкам — миллионы баксов ежегодно.

Поисковики общего назначения — Google, Yandex, Bing — это давно уже "экзабайты" индексированных данных. При том, что индексируют они не всё, как сами видите — ориентируются лишь на наиболее востребованную информацию.

Делать стороннюю индексацию для таких данных — очень сомнительное предложение. Реально проще наверное договориться о взаимодействии с этим сервисом и помочь им доработать их собственный поисковик и индексатор чтобы выставить нужную информацию.
С уважением, Artem Korneev.
Re: Поисковая машина для поиска по сайтам снаружи
От: Artem Korneev США https://www.linkedin.com/in/artemkorneev/
Дата: 18.10.20 23:22
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Есть готовые поисковые системы типа Sorl, Sphinx и др., но они предназначены исключительно для встраивания на сайты.


Sphinx достаточно универсален и позволяет индексировать всё что угодно. Он индексирует те документы, которые вы ему предоставляете. Вам нужно лишь скачать данные и предоставить их Sphinx'у для индексации.
Т.е. вопрос не в поисковой машине, а в инструменте для обхода ссылок и скачивания документов (web crawler'е) и хранилище документов.

Точно так же построены и поисковики общего назначения, кстати. Там три основных компонента — web crawler, хранилище и поисковый индекс.
С уважением, Artem Korneev.
Отредактировано 18.10.2020 23:26 Artem Korneev . Предыдущая версия .
Re[2]: Поисковая машина для поиска по сайтам снаружи
От: Дядюшка Ау Верблюд  
Дата: 19.10.20 06:09
Оценка: 2 (1)
Здравствуйте, Artem Korneev, Вы писали:

AK>Здравствуйте, Евгений Музыченко, Вы писали:


ЕМ>>Есть готовые поисковые системы типа Sorl, Sphinx и др., но они предназначены исключительно для встраивания на сайты.


AK>Sphinx достаточно универсален и позволяет индексировать всё что угодно. Он индексирует те документы, которые вы ему предоставляете. Вам нужно лишь скачать данные и предоставить их Sphinx'у для индексации.

AK>Т.е. вопрос не в поисковой машине, а в инструменте для обхода ссылок и скачивания документов (web crawler'е) и хранилище документов.

AK>Точно так же построены и поисковики общего назначения, кстати. Там три основных компонента — web crawler, хранилище и поисковый индекс.


Для закачек сайтов целиком или их отдельных частей очень удобно использовать httrack и мой скрипт для его запуска

# ===============================================================
# Copyright (С) Uncle AU, 2015-2020
# The AUTHOR allows to use this content under AGPL v3 license:
# http://opensource.org/licenses/agpl-v3.html
# ===============================================================

URL=$1;
Dir=$2;

#URL="http://lurkmore.to";
if [ -z "$Dir" ]; then
Dir=`pwd`;
fi;

Options1=" --depth=100 --tolerant --urlhack -u2 -%v2 --advanced-maxlinks=999999999 ";
UserAgent1="Mozilla 1.0, Sparc, Solaris 23.54.34";
UserAgent2="Mozilla/5.0 (X11;U; Linux i686; en-GB; rv:1.9.1) Gecko/20090624 Ubuntu/9.04 (jaunty) Firefox/3.5";
Options2=" --connection-per-second=50 --sockets=80 -s0 --keep-alive --display --verbose --advanced-progressinfo --disable-security-limits --near --clean ";

#-F '' -A100000000
# -s0 "; "-*.tmp"
#--proxy localhost:8118;

httrack "$URL" -O "$Dir" -F "$UserAgent2" $Options1 $Options2;


Самый лучший и самое главное надежный известный мне полнотекстовый индексатор — это Recall:
https://en.wikipedia.org/wiki/Recoll

А для специализированных тематик делают свои парсеры.
Например, некоторые парсят цены на многое и разное и продают результаты такого парсинга, да чего только нынче не парсят ...

А парсить можно много чем, но самые лучшие IMHO тулзы это:

https://en.a-parser.com/ — Абсолютно убойная скорость работы в тысячи потоков, изначально заточен под Linux.

А для прицельного парсинга с полной эмуляцией человека:

https://zennolab.com/en/products/zennoposter/ — очень удобный конструктор для отлова HTML элементов на сайтах любой сложности. Из недостатков Зенки нужно отметить потребность в Шиндозе даже для своего бэкенда, т.е. подходит главным образом под точечные целевые партизанские действия, а не для массированых работ.

https://bablosoft.com/shop/BrowserAutomationStudio — удобная лицензионная политика, open source и работоспособность в WINE под Linux, теоретически держит нагрузку лучше Зенки (пока ее backend не портировали на Linux DotNet Core) и при желании его можно масштабировать в контейнерах (vnc4server+wine) и вероятно даже в кластерах kubernetes!

Вот эти штуковины после программирования могут выпарсить вам все, что угодно.
Все они поддерживают RPC автоматизацию.
Причем BAS доступен даже в сорцах!

Потом добавляете ко всему этому сайтег на Wordpress с управлением платными подписками:
https://wordpress.org/plugins/easy-digital-downloads/

и удобный интерфейс для юзеров на DevExpress XAF для доступа к результатам парсинга:
https://rsdn.org/forum/flame.comp/7846841?tree=tree
Автор: Дядюшка Ау
Дата: 06.10.20
Отредактировано 25.10.2020 5:02 Дядюшка Ау . Предыдущая версия . Еще …
Отредактировано 20.10.2020 2:25 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:46 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:42 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:38 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:37 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:36 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:34 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:32 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:31 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:28 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:28 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:26 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:24 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:22 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:20 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:18 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:17 Дядюшка Ау . Предыдущая версия .
Отредактировано 19.10.2020 6:16 Дядюшка Ау . Предыдущая версия .
Re[10]: Поисковая машина для поиска по сайтам снаружи
От: hrensgory Россия  
Дата: 19.10.20 10:11
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Здравствуйте, temnik, Вы писали:


T>>По факту это то же самое, что те же гугль и яндекс, ну с каким-то нюансами.


ЕМ>Разница прежде всего в том, что объем индексации определяется не самим поисковиком, а его клиентом.


А как вы себе это представляете, практически? Допустим, есть те же самые юристы, им нужны, условно говоря, судебные решения, патенты и ещё чего-нибудь. Как они будут "определять объём индексации", с помощью каких инструментов?

--
WBR,
Serge.
Re[11]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 19.10.20 11:42
Оценка:
Здравствуйте, hrensgory, Вы писали:

H>Допустим, есть те же самые юристы, им нужны, условно говоря, судебные решения, патенты и ещё чего-нибудь. Как они будут "определять объём индексации", с помощью каких инструментов?


Я уже говорил — во многих случаях объем можно ограничить набором правил (по структуре URL, типу/объему документа, дате изменения и т.п.).
Re[12]: Поисковая машина для поиска по сайтам снаружи
От: hrensgory Россия  
Дата: 19.10.20 14:27
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Здравствуйте, hrensgory, Вы писали:


H>>Допустим, есть те же самые юристы, им нужны, условно говоря, судебные решения, патенты и ещё чего-нибудь. Как они будут "определять объём индексации", с помощью каких инструментов?


ЕМ>Я уже говорил — во многих случаях объем можно ограничить набором правил (по структуре URL, типу/объему документа, дате изменения и т.п.).


А делать это будет, грубо говоря, программер/админ? Вряд ли условным "юристам" это по силам.
А если так, то по идее надо просто краулер сконфигурить, к поисковому индексатору подключить и дело в шляпе. Вряд ли потребуется отдельный продукт, должно хватить набора готовых компонент.

--
WBR,
Serge.
Re[8]: Поисковая машина для поиска по сайтам снаружи
От: Alexey Rovdo Россия http://ru.linkedin.com/in/rovdo
Дата: 20.10.20 04:53
Оценка:
Здравствуйте, L.K., Вы писали:

ЕМ>>А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.


LK>Тогда мой первоначальный вариант. Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.


Такой бот будет довольно быстро заблокирован защитой от DDOS или ему предложат распознавать каптчу. Если кто-то не горит желанием отдавать свои документы на индексацию в Google, то он имеет какие-то мотивы для этого, и вряд ли он даст вам выкачивать всю свою базу за здорово живешь.
Re[9]: Поисковая машина для поиска по сайтам снаружи
От: Дядюшка Ау Верблюд  
Дата: 20.10.20 05:00
Оценка:
Здравствуйте, Alexey Rovdo, Вы писали:

AR>Здравствуйте, L.K., Вы писали:


ЕМ>>>А большую часть архивов, которые я перечислил, универсальные поисковики не индексируют, поскольку ширнармасс туда не ходит.


LK>>Тогда мой первоначальный вариант. Бот, выкачивающий сайты (через wget, curl), причём полностью и не глядя на robots.txt. А потом индексация выкачанного sphinx-ом.


AR>Такой бот будет довольно быстро заблокирован защитой от DDOS или ему предложат распознавать каптчу. Если кто-то не горит желанием отдавать свои документы на индексацию в Google, то он имеет какие-то мотивы для этого, и вряд ли он даст вам выкачивать всю свою базу за здорово живешь.


Технически это (даже Рекапча2, да легко) относительно легко решается автоматикой с помощью ZennoPoster/BAS + Capmonster/Xrumer.
Там и тысячи проксей с плавающими айпи, тысячи случайных номеров для SMS и постоянно новые отпечатки браузеров,
такие эмуляторы неблокируемы без использования квалифицированной ЭЦП, полученной в доверенном УЦ.

Тот же Google относительно легко парсится в так называемых промышленных масштабах с помощью например a-parser и других подобных парсеров.

Но и для ЭЦП они вероятно могут создать сервисы отгадывания, как было раньше лет цать назад еще до использования нейросетей для отгадывания картинок человеками, т.е. с технической (неюридической) точки зрения, — это всего лишь цена вопроса — порог вхождения, скажем вместо нескольких центов за графическую капчу, отгадывание ЭЦП может подорожать до нескольких долларов. Подразумевается пул ЭЦП токенов в компах нищебродов, кто согласится предоставить их для отгадывания, мероприятие конечно сомнительное для владельцев таких сертификатов ЭЦП, в принципе их уже намного легче было бы банить черными списками, чем номера телефонов, айпишники и прочую муть.

Только изредка самым гигантам айти мысли типа Google удается найти дыры в браузерах для временного детекта Зенки, ну до очередного ее релиза с соответствующим багфиксом

Но конечно могут возникнуть вопросы правового характера.

Т.е. пряча документы в дебрях своих личных кабинетов, различные сервисы пытаются монетизироваться с помощью контекстной рекламы и фильтрации лишних пользователей, а если речь о платной подписке к личному кабинету, то тем более.

Обходя все эти хитроумные преграды личных кабинетов эмуляторами типа Зенки, вы можете наткнуться на нарушение прав соответствующих правообладателей уже потом, когда попытаетесь распространять контент, полученный из них, самостоятельно через свои сайты.
Отредактировано 20.10.2020 6:54 Дядюшка Ау . Предыдущая версия . Еще …
Отредактировано 20.10.2020 5:30 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:24 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:21 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:20 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:17 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:16 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:14 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:13 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:12 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:09 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:06 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:03 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:01 Дядюшка Ау . Предыдущая версия .
Отредактировано 20.10.2020 5:00 Дядюшка Ау . Предыдущая версия .
Re[5]: Поисковая машина для поиска по сайтам снаружи
От: Michael7 Россия  
Дата: 20.10.20 16:07
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>Здравствуйте, L.K., Вы писали:


LK>>Да, я не понял, в чём идея.


ЕМ>Идея в том же, что и глобального поисковика типа Google/Yandex, но не для ширнармасс, а для гораздо более узкого круга специалистов (аналитиков, патентоведов, врачей, юристов, журналистов, писателей и др.).


ЕМ>Вот нужно мне, например, найти определенные заявки и документы по товарным знакам. Они есть у Роспатента — в виде каталога по номерам, датам и подобным реквизитам, то полнотекстового поиска там нет.


Вообще-то есть! https://yandex.ru/patents — полнотекстовый поиск по роспатенту от яндекса. Еще и подсказки выдаются в поисковой строке.
Re[6]: Поисковая машина для поиска по сайтам снаружи
От: Евгений Музыченко Франция https://software.muzychenko.net/ru
Дата: 20.10.20 16:21
Оценка:
Здравствуйте, Michael7, Вы писали:

ЕМ>>Вот нужно мне, например, найти определенные заявки и документы по товарным знакам


M>Вообще-то есть! https://yandex.ru/patents — полнотекстовый поиск по роспатенту от яндекса


И каким образом этот поиск по базе патентов найдет мне заявки на товарные знаки?
Re[7]: Поисковая машина для поиска по сайтам снаружи
От: Michael7 Россия  
Дата: 20.10.20 16:28
Оценка:
Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>И каким образом этот поиск по базе патентов найдет мне заявки на товарные знаки?


Извини за невнимательность. Почему-то не заметил слова товарные знаки.
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.