Информация об изменениях

Сообщение Re[2]: Поисковая машина для поиска по сайтам снаружи от 19.10.2020 6:09

Изменено 25.10.2020 5:02 Дядюшка Ау

Старый текст
Новый текст
Разница

Re[2]: Поисковая машина для поиска по сайтам снаружи

Здравствуйте, Artem Korneev, Вы писали:

AK>Здравствуйте, Евгений Музыченко, Вы писали:

ЕМ>>Есть готовые поисковые системы типа Sorl, Sphinx и др., но они предназначены исключительно для встраивания на сайты.

AK>Sphinx достаточно универсален и позволяет индексировать всё что угодно. Он индексирует те документы, которые вы ему предоставляете. Вам нужно лишь скачать данные и предоставить их Sphinx'у для индексации.
AK>Т.е. вопрос не в поисковой машине, а в инструменте для обхода ссылок и скачивания документов (web crawler'е) и хранилище документов.

AK>Точно так же построены и поисковики общего назначения, кстати. Там три основных компонента — web crawler, хранилище и поисковый индекс.

Для закачек сайтов целиком или их отдельных частей очень удобно использовать httrack и мой скрипт для его запуска

# ===============================================================
# Copyright (С) Uncle AU, 2015-2020
# The AUTHOR allows to use this content under AGPL v3 license:
# http://opensource.org/licenses/agpl-v3.html
# ===============================================================

URL=$1;
Dir=$2;

#URL="http://lurkmore.to";
if [ -z "$Dir" ]; then
Dir=`pwd`;
fi;

Options1=" --depth=100 --tolerant --urlhack -u2 -%v2 --advanced-maxlinks=999999999 ";
UserAgent1="Mozilla 1.0, Sparc, Solaris 23.54.34";
UserAgent2="Mozilla/5.0 (X11;U; Linux i686; en-GB; rv:1.9.1) Gecko/20090624 Ubuntu/9.04 (jaunty) Firefox/3.5";
Options2=" --connection-per-second=50 --sockets=80 -s0 --keep-alive --display --verbose --advanced-progressinfo --disable-security-limits --near --clean ";

#-F '' -A100000000
# -s0 "; "-*.tmp"
#--proxy localhost:8118;

httrack "$URL" -O "$Dir" -F "$UserAgent2" $Options1 $Options2;

Самый лучший и самое главное надежный известный мне полнотекстовый индексатор — это Recall:
https://en.wikipedia.org/wiki/Recoll

А для специализированных тематик делают свои парсеры.
Например, некоторые парсят цены на многое и разное и продают результаты такого парсинга, да чего только нынче не парсят ...

А парсить можно много чем, но самые лучшие IMHO тулзы это:

https://en.a-parser.com/ — Абсолютно убойная скорость работы в тысячи потоков, изначально заточен под Linux.

А для прицельного парсинга с полной эмуляцией человека:

https://zennolab.com/en/products/zennoposter/ — очень удобный конструктор для отлова HTML элементов на сайтах любой сложности. Из недостатков Зенки нужно отметить потребность в Шиндозе даже для своего бэкенда, т.е. подходит главным образом под точечные целевые партизанские действия, а не для массированых работ.

https://bablosoft.com/shop/BrowserAutomationStudio — удобная лицензионная политика, open source и работоспособность в WINE под Linux, теоретически держит нагрузку лучше Зенки (пока ее backend не портировали на Linux DotNet Core) и при желании его можно масштабировать в контейнерах (vnc4server+wine) и вероятно даже в кластерах kubernetes!

Вот эти штуковины после программирования могут выпарсить вам все, что угодно.
Все они поддерживают RPC автоматизацию.
Причем BAS доступен даже в сорцах!

Потом добавляете ко всему этому сайтег на Wordpress с управлением платными подписками:
https://wordpress.org/plugins/easy-digital-downloads/

и удобный интерфейс для юзеров на DevExpress XAF для доступа к результатам парсинга:
https://rsdn.org/?forum/shareware/7856243

Re[2]: Поисковая машина для поиска по сайтам снаружи

# ===============================================================
# Copyright (С) Uncle AU, 2015-2020
# The AUTHOR allows to use this content under AGPL v3 license:
# http://opensource.org/licenses/agpl-v3.html
# ===============================================================

URL=$1;
Dir=$2;

#URL="http://lurkmore.to";
if [ -z "$Dir" ]; then
Dir=`pwd`;
fi;

Options1=" --depth=100 --tolerant --urlhack -u2 -%v2 --advanced-maxlinks=999999999 ";
UserAgent1="Mozilla 1.0, Sparc, Solaris 23.54.34";
UserAgent2="Mozilla/5.0 (X11;U; Linux i686; en-GB; rv:1.9.1) Gecko/20090624 Ubuntu/9.04 (jaunty) Firefox/3.5";
Options2=" --connection-per-second=50 --sockets=80 -s0 --keep-alive --display --verbose --advanced-progressinfo --disable-security-limits --near --clean ";

#-F '' -A100000000
# -s0 "; "-*.tmp"
#--proxy localhost:8118;

httrack "$URL" -O "$Dir" -F "$UserAgent2" $Options1 $Options2;