Информация об изменениях

Сообщение Re[5]: Как бы вы делали эту задачу (переходим к конкретике). от 04.09.2022 12:08

Изменено 04.09.2022 12:14 Shmj

Re[5]: Как бы вы делали эту задачу (переходим к конкретике).
Здравствуйте, Gt_, Вы писали:

Gt_>да, бинарная. причем sort() это я не подумав использовал (sort внутри партиции сортирует, а не весь датасет), там orderBy() вместо него должен быть и цифровую часть следовало кастить в инт, иначе как строку сортирует.

Gt_>подправил — 15 секунд прибавилось.

Gt_>да, сложно. свой компаратор можно подсунуть в sort() партиции, но сортировать внутри партиции нет смысла, т.к. весь файл в одну партицию по памяти не влезет.


repartition(1) — это на сколько частей разбить файл?
Re[5]: Как бы вы делали эту задачу (переходим к конкретике).
Здравствуйте, Gt_, Вы писали:

Gt_>да, бинарная. причем sort() это я не подумав использовал (sort внутри партиции сортирует, а не весь датасет), там orderBy() вместо него должен быть и цифровую часть следовало кастить в инт, иначе как строку сортирует.

Gt_>подправил — 15 секунд прибавилось.

Gt_>да, сложно. свой компаратор можно подсунуть в sort() партиции, но сортировать внутри партиции нет смысла, т.к. весь файл в одну партицию по памяти не влезет.


repartition(1) — это на сколько частей разбить файл?

Оно точно не в памяти файл целиком хранит?