S3. Полнотекстовый поиск
От: BlackEric http://black-eric.lj.ru
Дата: 06.03.24 13:57
Оценка:
Добрый день.

На проекте используется S3 совместимое файловое хранилище. Работа с хранилищем идет через Amazon SDK. Хотят сделать полнотекстовый поиск по файлам. В первую очередь docx, xlsx, pdf.
Файлов реально много — десятки терабайт.

Кто-то такое делал? Что можно для этого использовать?
https://github.com/BlackEric001
Re: S3. Полнотекстовый поиск
От: RushDevion Россия  
Дата: 06.03.24 20:45
Оценка: +1
У Амазона есть Managed Elastic Search (старый) и OpenSearch (что-то поновее).
Загружай в него и ищи стандартными средствами (elk .net client).
Нужно только прикинуть, как по шардам это разложить и посчитать в какие мощности/деньги оно выльется.
Ну и научиться plain текст из docx/pdf извлекать, но тут уж готовых библиотек полно.

Другой вариант — на голых EC2 инстансах развернуть любой поисковый движок: Solr, Sphinx, ELK, Manticore, Typesense и т.п.

Вот ещё можно почитать, как люди в Озоне поиск делали https://habr.com/ru/companies/ozontech/articles/667600/
Re: S3. Полнотекстовый поиск
От: Слава  
Дата: 06.03.24 23:22
Оценка: 1 (1)
Здравствуйте, BlackEric, Вы писали:

BE>Кто-то такое делал? Что можно для этого использовать?


Ох и дорого это будет, что вам ниже советуют, manager elastic search.

Лучше арендовать железные инстансы и поставить туда Manticore Search
Re[2]: S3. Полнотекстовый поиск
От: BlackEric http://black-eric.lj.ru
Дата: 07.03.24 07:09
Оценка:
Здравствуйте, Слава, Вы писали:

С>Здравствуйте, BlackEric, Вы писали:


BE>>Кто-то такое делал? Что можно для этого использовать?


С>Ох и дорого это будет, что вам ниже советуют, manager elastic search.


С>Лучше арендовать железные инстансы и поставить туда Manticore Search


У меня не амазон, а совместимое хранилище в закрытой корпоративной сети.
https://github.com/BlackEric001
Re[2]: S3. Полнотекстовый поиск
От: BlackEric http://black-eric.lj.ru
Дата: 07.03.24 07:11
Оценка:
Здравствуйте, RushDevion, Вы писали:

RD>У Амазона есть Managed Elastic Search (старый) и OpenSearch (что-то поновее).

RD>Загружай в него и ищи стандартными средствами (elk .net client).
RD>Нужно только прикинуть, как по шардам это разложить и посчитать в какие мощности/деньги оно выльется.
RD>Ну и научиться plain текст из docx/pdf извлекать, но тут уж готовых библиотек полно.

RD>Другой вариант — на голых EC2 инстансах развернуть любой поисковый движок: Solr, Sphinx, ELK, Manticore, Typesense и т.п.


RD>Вот ещё можно почитать, как люди в Озоне поиск делали https://habr.com/ru/companies/ozontech/articles/667600/


У меня не амазон, а совместимое хранилище в закрытой корпоративной сети. Получается идея состоит в том, что бы просканировать хранилище и проиндексировать содержимое файлов сложив всё в OpenSearch (ELK)?
https://github.com/BlackEric001
Re[3]: S3. Полнотекстовый поиск
От: RushDevion Россия  
Дата: 07.03.24 07:48
Оценка: 6 (1)
BE>У меня не амазон, а совместимое хранилище в закрытой корпоративной сети. Получается идея состоит в том, что бы просканировать хранилище и проиндексировать содержимое файлов сложив всё в OpenSearch (ELK)?
Ну да.
Искать непосредственно в S3 не получится, он под такое не заточен.
Поэтому поисковый индекс будет где-то "сбоку".
Будет фоновый индексатор,икоторый загружает документы из S3, извлекает из них текстовую информацию и добавляет в индекс.
И будет поисковый сервис, который по ключевым словам ищет в индексе, ранжирует выдачу и отдает наружу идентификаторы соответствующих документов в S3 + опционально какую-то инфу о найденных в этом документе ключевых словах.
Re: S3. Полнотекстовый поиск
От: Kernan Ниоткуда https://rsdn.ru/forum/flame.politics/
Дата: 16.03.24 15:55
Оценка:
Здравствуйте, BlackEric, Вы писали:

BE>На проекте используется S3 совместимое файловое хранилище.

Немного оффтопик, а как в принципе организовываются S3 совместимые хранилища? На каких технологиях? Есть что-нибудь почитать/посмотреть на эту тему?
Sic luceat lux!
Re[2]: S3. Полнотекстовый поиск
От: Gt_  
Дата: 16.03.24 16:00
Оценка: 4 (1) +1
Здравствуйте, Kernan, Вы писали:

K>Здравствуйте, BlackEric, Вы писали:


BE>>На проекте используется S3 совместимое файловое хранилище.

K>Немного оффтопик, а как в принципе организовываются S3 совместимые хранилища? На каких технологиях? Есть что-нибудь почитать/посмотреть на эту тему?

minio, ceph гугли.
Re: S3. Полнотекстовый поиск
От: Marty Пират https://www.youtube.com/channel/UChp5PpQ6T4-93HbNF-8vSYg
Дата: 16.03.24 16:02
Оценка:
Здравствуйте, BlackEric, Вы писали:

Пользуясь случаем, хочу передать привет родным и близкимспросить — а есть что-то для поиска, что можно встроить в нативное приложение, лучше на сишечке или плюсиках?
Маньяк Робокряк колесит по городу
Re[3]: S3. Полнотекстовый поиск
От: Kernan Ниоткуда https://rsdn.ru/forum/flame.politics/
Дата: 16.03.24 23:56
Оценка:
Здравствуйте, Gt_, Вы писали:

Gt_>minio, ceph гугли.

Почитал, что-то не похоже серебряную пулю, везде какие-то проблемы которые всплывают когда-то потом когда всё уже работает и начинает ломаться под пользователями.
Sic luceat lux!
Re[2]: S3. Полнотекстовый поиск
От: BlackEric http://black-eric.lj.ru
Дата: 19.03.24 07:54
Оценка:
Здравствуйте, Kernan, Вы писали:

K>Здравствуйте, BlackEric, Вы писали:


BE>>На проекте используется S3 совместимое файловое хранилище.

K>Немного оффтопик, а как в принципе организовываются S3 совместимые хранилища? На каких технологиях? Есть что-нибудь почитать/посмотреть на эту тему?

У заказчиков какая-то железка от Hitachi Vantara
https://github.com/BlackEric001
Re[2]: S3. Полнотекстовый поиск
От: Михаил Романов Удмуртия https://mihailromanov.wordpress.com/
Дата: 19.03.24 08:06
Оценка:
Здравствуйте, Marty, Вы писали:

M>Здравствуйте, BlackEric, Вы писали:


M>Пользуясь случаем, хочу передать привет родным и близкимспросить — а есть что-то для поиска, что можно встроить в нативное приложение, лучше на сишечке или плюсиках?

Сразу же вопрос — что и как планируете искать?
Re[2]: S3. Полнотекстовый поиск
От: RushDevion Россия  
Дата: 30.03.24 07:42
Оценка: 6 (1)
K>Немного оффтопик, а как в принципе организовываются S3 совместимые хранилища? На каких технологиях? Есть что-нибудь почитать/посмотреть на эту тему?

Можно погуглить Amazon Dynamo DB white paper. Многие идеи, которые легли в основу амазоновского S3, там описаны. Но сам документ большой и скучный.

Имхо, интереснее будет посмотреть, как это сделали в Yandex.
https://habr.com/ru/companies/yandex/articles/803703 — статья про S3.
https://m.youtube.com/watch?v=2HX_MF5Ic7o — видео про media storage backend.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.