На проекте используется S3 совместимое файловое хранилище. Работа с хранилищем идет через Amazon SDK. Хотят сделать полнотекстовый поиск по файлам. В первую очередь docx, xlsx, pdf.
Файлов реально много — десятки терабайт.
Кто-то такое делал? Что можно для этого использовать?
У Амазона есть Managed Elastic Search (старый) и OpenSearch (что-то поновее).
Загружай в него и ищи стандартными средствами (elk .net client).
Нужно только прикинуть, как по шардам это разложить и посчитать в какие мощности/деньги оно выльется.
Ну и научиться plain текст из docx/pdf извлекать, но тут уж готовых библиотек полно.
Другой вариант — на голых EC2 инстансах развернуть любой поисковый движок: Solr, Sphinx, ELK, Manticore, Typesense и т.п.
Здравствуйте, Слава, Вы писали:
С>Здравствуйте, BlackEric, Вы писали:
BE>>Кто-то такое делал? Что можно для этого использовать?
С>Ох и дорого это будет, что вам ниже советуют, manager elastic search.
С>Лучше арендовать железные инстансы и поставить туда Manticore Search
У меня не амазон, а совместимое хранилище в закрытой корпоративной сети.
Здравствуйте, RushDevion, Вы писали:
RD>У Амазона есть Managed Elastic Search (старый) и OpenSearch (что-то поновее). RD>Загружай в него и ищи стандартными средствами (elk .net client). RD>Нужно только прикинуть, как по шардам это разложить и посчитать в какие мощности/деньги оно выльется. RD>Ну и научиться plain текст из docx/pdf извлекать, но тут уж готовых библиотек полно.
RD>Другой вариант — на голых EC2 инстансах развернуть любой поисковый движок: Solr, Sphinx, ELK, Manticore, Typesense и т.п.
RD>Вот ещё можно почитать, как люди в Озоне поиск делали https://habr.com/ru/companies/ozontech/articles/667600/
У меня не амазон, а совместимое хранилище в закрытой корпоративной сети. Получается идея состоит в том, что бы просканировать хранилище и проиндексировать содержимое файлов сложив всё в OpenSearch (ELK)?
BE>У меня не амазон, а совместимое хранилище в закрытой корпоративной сети. Получается идея состоит в том, что бы просканировать хранилище и проиндексировать содержимое файлов сложив всё в OpenSearch (ELK)?
Ну да.
Искать непосредственно в S3 не получится, он под такое не заточен.
Поэтому поисковый индекс будет где-то "сбоку".
Будет фоновый индексатор,икоторый загружает документы из S3, извлекает из них текстовую информацию и добавляет в индекс.
И будет поисковый сервис, который по ключевым словам ищет в индексе, ранжирует выдачу и отдает наружу идентификаторы соответствующих документов в S3 + опционально какую-то инфу о найденных в этом документе ключевых словах.
Здравствуйте, BlackEric, Вы писали:
BE>На проекте используется S3 совместимое файловое хранилище.
Немного оффтопик, а как в принципе организовываются S3 совместимые хранилища? На каких технологиях? Есть что-нибудь почитать/посмотреть на эту тему?
Здравствуйте, Kernan, Вы писали:
K>Здравствуйте, BlackEric, Вы писали:
BE>>На проекте используется S3 совместимое файловое хранилище. K>Немного оффтопик, а как в принципе организовываются S3 совместимые хранилища? На каких технологиях? Есть что-нибудь почитать/посмотреть на эту тему?
Пользуясь случаем, хочу передать привет родным и близкимспросить — а есть что-то для поиска, что можно встроить в нативное приложение, лучше на сишечке или плюсиках?
Здравствуйте, Gt_, Вы писали:
Gt_>minio, ceph гугли.
Почитал, что-то не похоже серебряную пулю, везде какие-то проблемы которые всплывают когда-то потом когда всё уже работает и начинает ломаться под пользователями.
Здравствуйте, Kernan, Вы писали:
K>Здравствуйте, BlackEric, Вы писали:
BE>>На проекте используется S3 совместимое файловое хранилище. K>Немного оффтопик, а как в принципе организовываются S3 совместимые хранилища? На каких технологиях? Есть что-нибудь почитать/посмотреть на эту тему?
Здравствуйте, Marty, Вы писали:
M>Здравствуйте, BlackEric, Вы писали:
M>Пользуясь случаем, хочу передать привет родным и близкимспросить — а есть что-то для поиска, что можно встроить в нативное приложение, лучше на сишечке или плюсиках?
Сразу же вопрос — что и как планируете искать?