Есть спарк(1.6) приложение, а в нем обработка больших данных(8г каждые 25 минут) и все это притормаживает на различных шагах. В спарк ui стало понятно что одна из причин плохая дисперсия данных, когда я делаю персист то определенные шаги становятся быстрее но медленнее другие (не важно сколько я ресурсов в ярне аллоцирую), понятно сто без специфики ответить сложно, но с какими параметрами можно еще поиграться в рамках оптимизации системы? Пока что это число процессов, число ядер на процесс память доя процессов и материнского процесса спарк
„Nun gut, wer bist du denn?“ „Ein Teil von jener Kraft, Die stets das Böse will und stets das Gute schafft.“