Small language model для поиска natural language в каталоге - Искусственный интеллект

Представьте поиск в каталогу скажем, амазон. Вместо выбора "искать в одежде" или "искать везде", принимать ввод в свободной форме типа "ищу такую круглую детальку от удочки. Удочка примерно 2 м длиной, что-то по-японски на ней написано. Куплена в 2017-2018 году в спортмастер".
И дальше контекст или сам подбирается по "по японски в спортмастер", slm обращается к БД за выборкой всех продаваемых моделей удочек в спортмастер японских брендов, получает скажем, 100 результатов, сортирует по наиболее похожему описанию "примерно 2 м длиной", отвечает текстом "вывожу 5 наиболее подходящих результатов" и открывает в SPA закладку с этими 5 результатами и около каждого- иконка для более детального последующего поиска внутри.

Засады здесь протов того, чтобы тупо тренировать на полном каталоге:
1) каталог огромный, тренировка займёт недели если не месяцы на один прогон
2) обновление каталога ежедневное. Полная перетренировка непоспеет
3) заградительная цена на мощности для тренировки
4) заградительная цена на inferrence по огромной language model.

В идеале иметь маленькую модель на 10-20Mb для каждого поддерживаемого языка интерфейса, которая умеет вызвать регулярку для проверки токена на "код детали" в контексте производителя, результат inference чтобы был набор параметров для DB query. Возможно, итеративный вызов одной или нескольких мелких моделей. Для генерации текста вывода использовать сторонний апи или зашитые шаблоны форматированного текста.

Куда нужно смотреть, какие есть ресерч статьи или пакеты в HF или github?

От:	Артём	жж
Дата:	26.05.24 22:44
Оценка: