Здравствуйте, ArtK, Вы писали:
AK>Высоконагруженные распределённые системы и анализ больших объёмов данных — очень разные области и обычно ими занимаются разные люди. AK>Первое требует знаний операционных систем, сетей, алгоритмов согласования в распределённых системах, устройства хранилищ данных. AK>Второе — математики, машинного обучения, алгоритмов анализа данных. AK>Обычно специалисты первого типа делают что-то вроде MapReduce, а специалисты второго уровня гоняют на нём алгоритмы машинного обучения.
В целом все так, только алгоритмы машинного обучения чаще гоняются локально. А вот данные для моделей (feature extraction) могут собираться из очень большого объема разнородных данных при помощи всяких там hadoop-ов.