Re[3]: Как бы вы делали эту задачу (переходим к конкретике).
От: Shmj Ниоткуда  
Дата: 04.09.22 05:36
Оценка:
Здравствуйте, Gt_, Вы писали:

Gt_>тест прошел 2m14s, убрал repartition(1), попробовал руками конкатинировать 200 файлов что спарк по дефолту выплевывает — вышло дольше 2m31s


Позвольте полюбопытствовать. Сортировка происходит просто бинарная или с учетом правил языка, о чем упомянули ниже?

В-четвертых, то что пропустили почти все, в условиях мало что известно о природе строк. Многие посчитали их ASCII-строками (массивами байт-символов), тогда как может быть UTF-8 с правилами сортировки для Норвежского языка.


Сложно ли вам кастомизировать сортировку?
=сначала спроси у GPT=
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.