Re: Требуеться этюдное решение.
От: dima1983  
Дата: 05.07.05 22:29
Оценка:
Здравствуйте, GSL, Вы писали:

GSL>Задачка реальная и с виду простая.


GSL>Итак есть файл в нем есть мылы. Повторяемость 15%. Надо рассортировать все по доменам и отсечь думбликаты. Ну дубликаты это дело десятое, потому как всего 15%. Порядок адрресов совершенно произвольный. А вот рассортировать по доменам надо как можно более быстро. Количество доменов может измеряться цифрой с 6 нулями


GSL>С виду все тривиально и не этюдно.

GSL>А вот теперь этюдная загвоздка исходный файл ( или набор файлов ) от 25-50 гигабайт, и не содержит лишней информации кроме адрессов,

GSL>Память на машине скажем 512мега, на винте можно брать до 200 гига ( но лучще бы обойтись не более чем 25-50 гигов. )


GSL>Какме есть предложения.

GSL>Выбор средств не ограничен, можете прост в текстовм редакторе дать последовательность кнопок.

сортировка слиянием не подойдет ? Хотя вроде есть виды сортировок специально для строк вроде как с линейным временем но подойдут ли они в случае такого объема? Вообщем чти Седжвика или Кнута.
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.