Например, у моего пользователя есть большой файл (несколько GB).
Он хочет его как-то обработать с использованием моей службы, запущенной, скажем в Azure (или где-то еще).
Обработка этого файла, скажем, на одном компе (локальном) заняла бы несколько суток. Допустим, там тяжелые вычисления.
Хотелось бы это дело ускорить используя несколько (или несколько десятков\сот\тысяч) узлов в облаке.
Естественно, алгоритм должен быть параллельным.
Вижу проблемы:
1) В передачи входных данных от пользователя на все запущенные узлы. Это случай когда входные данные дублируются.
2) В случае если входные данные распиливать на небольшие части, проблема в распилке. Кто это будет делать? Допустим, будет какой-то выделенный для
этого узел, "монитор". Монитор, собственно, должен синхронизировать работу остальных узлов.
Вопрос: Вообще, синхронизация, обмен данными между узлами предусмотрены в "облаках"?
Или "облака" для этого не предназначены? И тогда нужен "кластер"?