Корреляции и классификации

Всем привет,
К сожалению не обучался нужным курсам, поэтому слабо знаком с терминологией. Бодрое гугление по википедии показало, что как обычно — надо знать половину ответа, чтобы получить вторую.

В общем, картина вот какая:
Есть, допустим, порядка 10^3 разных продуктов.
Их могут покупать в более-менее произвольных сочетаниях.
Допустим, у нас есть данные о примерно 10^5 покупок. Каждая покупка — это вектор из тех самых 10^3 ячеек, где каждая соответствует количеству купленного продукта номер i. (у нас это количество — всегда целое, но это не так важно).
Естественно, большинство значений в таком векторе равно нулю. Там очень быстро спадает "хвост" распределения: 1 продукт покупает 99% потребителей, 2 продукта — 0.9% или 90% из оставшихся, 3 продукта — 0.09%, 4 и более — следовые количества покупока.

И вот теперь у нас есть желание посмотреть на корреляции между продажами различных продуктов.
Ну, то есть у нас есть гипотезы типа "покупатели продукта X часто покупают продукт Y", или "покупатели продукта X1 никогда не покупают продукт X2".
Хуже того, могут быть всякие закономерности "объём покупки продукта Y хорошо коррелирует с суммой объёмов покупки X1 и X2"
То, что я помню из университетского курса по матстатистике, намекает что мне придётся прогнать 10^3*10^3 свёрток, чтобы обнаружить попарные корреляции. Выглядит вычислительно громоздким.
Кроме того, не вполне понятно, как их нормировать, чтобы получить сопоставимые числа.

Может быть, есть какой-то более оптимальный способ обнаружить закономерности, не выписывая отдельные единичные гипотезы с конкретными номерами продуктов?

Где можно почитать о решении таких задач?

От:	Sinclair	https://github.com/evilguest/
Дата:	21.03.17 10:27
Оценка: