Re: S3. Полнотекстовый поиск - Архитектура программного обеспечения

Добрый день.

На проекте используется S3 совместимое файловое хранилище. Работа с хранилищем идет через Amazon SDK. Хотят сделать полнотекстовый поиск по файлам. В первую очередь docx, xlsx, pdf.
Файлов реально много — десятки терабайт.

Кто-то такое делал? Что можно для этого использовать?

У Амазона есть Managed Elastic Search (старый) и OpenSearch (что-то поновее).
Загружай в него и ищи стандартными средствами (elk .net client).
Нужно только прикинуть, как по шардам это разложить и посчитать в какие мощности/деньги оно выльется.
Ну и научиться plain текст из docx/pdf извлекать, но тут уж готовых библиотек полно.

Другой вариант — на голых EC2 инстансах развернуть любой поисковый движок: Solr, Sphinx, ELK, Manticore, Typesense и т.п.

Вот ещё можно почитать, как люди в Озоне поиск делали https://habr.com/ru/companies/ozontech/articles/667600/

Здравствуйте, BlackEric, Вы писали:

BE>Кто-то такое делал? Что можно для этого использовать?

Ох и дорого это будет, что вам ниже советуют, manager elastic search.

Лучше арендовать железные инстансы и поставить туда Manticore Search

Здравствуйте, Слава, Вы писали:

С>Здравствуйте, BlackEric, Вы писали:

BE>>Кто-то такое делал? Что можно для этого использовать?

С>Ох и дорого это будет, что вам ниже советуют, manager elastic search.

С>Лучше арендовать железные инстансы и поставить туда Manticore Search

У меня не амазон, а совместимое хранилище в закрытой корпоративной сети.

Здравствуйте, RushDevion, Вы писали:

RD>У Амазона есть Managed Elastic Search (старый) и OpenSearch (что-то поновее).
RD>Загружай в него и ищи стандартными средствами (elk .net client).
RD>Нужно только прикинуть, как по шардам это разложить и посчитать в какие мощности/деньги оно выльется.
RD>Ну и научиться plain текст из docx/pdf извлекать, но тут уж готовых библиотек полно.

RD>Другой вариант — на голых EC2 инстансах развернуть любой поисковый движок: Solr, Sphinx, ELK, Manticore, Typesense и т.п.

RD>Вот ещё можно почитать, как люди в Озоне поиск делали https://habr.com/ru/companies/ozontech/articles/667600/

У меня не амазон, а совместимое хранилище в закрытой корпоративной сети. Получается идея состоит в том, что бы просканировать хранилище и проиндексировать содержимое файлов сложив всё в OpenSearch (ELK)?

BE>У меня не амазон, а совместимое хранилище в закрытой корпоративной сети. Получается идея состоит в том, что бы просканировать хранилище и проиндексировать содержимое файлов сложив всё в OpenSearch (ELK)?
Ну да.
Искать непосредственно в S3 не получится, он под такое не заточен.
Поэтому поисковый индекс будет где-то "сбоку".
Будет фоновый индексатор,икоторый загружает документы из S3, извлекает из них текстовую информацию и добавляет в индекс.
И будет поисковый сервис, который по ключевым словам ищет в индексе, ранжирует выдачу и отдает наружу идентификаторы соответствующих документов в S3 + опционально какую-то инфу о найденных в этом документе ключевых словах.

Здравствуйте, BlackEric, Вы писали:

BE>На проекте используется S3 совместимое файловое хранилище.
Немного оффтопик, а как в принципе организовываются S3 совместимые хранилища? На каких технологиях? Есть что-нибудь почитать/посмотреть на эту тему?

Здравствуйте, Kernan, Вы писали:

K>Здравствуйте, BlackEric, Вы писали:

BE>>На проекте используется S3 совместимое файловое хранилище.
K>Немного оффтопик, а как в принципе организовываются S3 совместимые хранилища? На каких технологиях? Есть что-нибудь почитать/посмотреть на эту тему?

minio, ceph гугли.

Здравствуйте, BlackEric, Вы писали:

Пользуясь случаем, хочу ~~передать привет родным и близким~~спросить — а есть что-то для поиска, что можно встроить в нативное приложение, лучше на сишечке или плюсиках?

Здравствуйте, Gt_, Вы писали:

Gt_>minio, ceph гугли.
Почитал, что-то не похоже серебряную пулю, везде какие-то проблемы которые всплывают когда-то потом когда всё уже работает и начинает ломаться под пользователями.

Здравствуйте, Marty, Вы писали:

M>Здравствуйте, BlackEric, Вы писали:

M>Пользуясь случаем, хочу ~~передать привет родным и близким~~спросить — а есть что-то для поиска, что можно встроить в нативное приложение, лучше на сишечке или плюсиках?
Сразу же вопрос — что и как планируете искать?

K>Немного оффтопик, а как в принципе организовываются S3 совместимые хранилища? На каких технологиях? Есть что-нибудь почитать/посмотреть на эту тему?

Можно погуглить Amazon Dynamo DB white paper. Многие идеи, которые легли в основу амазоновского S3, там описаны. Но сам документ большой и скучный.

Имхо, интереснее будет посмотреть, как это сделали в Yandex.
https://habr.com/ru/companies/yandex/articles/803703 — статья про S3.
https://m.youtube.com/watch?v=2HX_MF5Ic7o — видео про media storage backend.

От:	BlackEric	http://black-eric.lj.ru
Дата:	06.03.24 13:57
Оценка:

	От:	RushDevion
	Дата:	06.03.24 20:45
	Оценка:	+1

	От:	Слава
	Дата:	06.03.24 23:22
	Оценка:	1 (1)

От:	BlackEric	http://black-eric.lj.ru
Дата:	07.03.24 07:09
Оценка:

От:	BlackEric	http://black-eric.lj.ru
Дата:	07.03.24 07:11
Оценка:

От:	Kernan	https://rsdn.ru/forum/flame.politics/
Дата:	16.03.24 15:55
Оценка:

От:	Marty	https://www.youtube.com/channel/UChp5PpQ6T4-93HbNF-8vSYg
Дата:	16.03.24 16:02
Оценка:

От:	Михаил Романов	https://mihailromanov.wordpress.com/
Дата:	19.03.24 08:06
Оценка: