Re[3]: Сортировка по арифметическому среднему

Здравствуйте, scf, Вы писали:

scf>Наверное, я неудачно объяснил. Это распределенная СУБД, и минимизировать нужно трафик между нодами кластера. Например, для суммы достаточно с каждой ноды скачать 100 самых больших строк плюс ключи, полученные с остальных нод. Итого 100*node_count строчек с каждой ноды. Вопрос, как оптимизировать расчет среднего.

Вообще, обычно для таких случаев оптимизируют структуру базы — хранят все значения для ключа на одном узле. В графовых базах обычно так делают, для вершины A хранят все ребра вида A --> B на том же узле. В общем случае тяжело подсчитать — среднее же нерегулярная вещь, по локальной выборке конечное значение не предскажешь. Если бы было известно распределение значений для ключей, то можно было вероятностные методы использовать. Для нормального распределения считать доверительные интервалы и т.п. А так map/reduce и никуда не денешься.

	От:	mefrill
	Дата:	02.11.22 19:14
	Оценка: