Re[5]: Как бы вы делали эту задачу (переходим к конкретике).
От: Shmj Ниоткуда  
Дата: 04.09.22 12:08
Оценка:
Здравствуйте, Gt_, Вы писали:

Gt_>да, бинарная. причем sort() это я не подумав использовал (sort внутри партиции сортирует, а не весь датасет), там orderBy() вместо него должен быть и цифровую часть следовало кастить в инт, иначе как строку сортирует.

Gt_>подправил — 15 секунд прибавилось.

Gt_>да, сложно. свой компаратор можно подсунуть в sort() партиции, но сортировать внутри партиции нет смысла, т.к. весь файл в одну партицию по памяти не влезет.


repartition(1) — это на сколько частей разбить файл?

Оно точно не в памяти файл целиком хранит?
=сначала спроси у GPT=
Отредактировано 04.09.2022 12:14 Shmj . Предыдущая версия .
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.