Здравствуйте, Shmj, Вы писали:
S>А в чем особенность данного случая — индекс по двум полям?
Индекс гарантированно полезен если ты один раз его пишешь, а потом много раз читаешь. А вот если ты читаешь его тоже один раз — тут могут быть всякие неожиданности.
... << RSDN@Home 1.3.17 alpha 5 rev. 62>>
Re[3]: Почему не смогли применить готовое решение для просто
Здравствуйте, Shmj, Вы писали:
Б>>В реальности для решения таких задач будут применять не СУБД, а скорее map-reduce, типа spark (java) или dask (python). S>Там .Net был.
Здравствуйте, Shmj, Вы писали:
S>Каковы ваши прогнозы — какая скорость будет в сравнении с предложенными вариантами?
В каких условиях? Спарк это не решение для одной машины. Обычно происходит так: где то в дешевом хранилище (s3/azure storage), либо в хранилище другой системы накапливаются первичные данные. Потом нам надо эти данные обработать. Для этого в облаке арендуется на несколько часов/дней кластер из 100500 машин, на котором разворачивается спарк. Потом все это быстро через кластер прогоняется, результат сохраняется и кластер релизится.
Говорить о производительности спарка внутри одной машины бессмысленно.
... << RSDN@Home 1.3.17 alpha 5 rev. 62>>
Re[5]: Почему не смогли применить готовое решение для простой задач
Здравствуйте, Shmj, Вы писали:
НС>>Только, опять же, это все имеет смысл когда мы говорим о реальных задачах с кучей дополнительных требований. А абстрактно, в рамках тестового задания, все это лишено смысла, потому что цель — понять твои реальные навыки и умения, а не решить задачу сортировки. S>Найти готовое решение — это наиболее ценный навык из всех, которые только могут быть.
Для этого есть другие типы интервью, например system design, где тебе дают описание сценариев, упрощенных, но приближенных к боевым. И вот тут от тебя как раз ждут грамотного использования готовых решений. А вот в тестовых заданиях на кодирование и алгоритмы, внезапно, проверяют навыки кодирования и знание алгоритмов, а не навыки архитекта.
... << RSDN@Home 1.3.17 alpha 5 rev. 62>>
Re[4]: Почему не смогли применить готовое решение для простой задач
Здравствуйте, Ночной Смотрящий, Вы писали:
НС>СУБД созданы для сценария, в котором очень большой объем хранения, хранение длительное, а вот процент обновления данных невелик.
А как же импорт данных? Он может быть и велик.
НС>Если уж искать готовые решения, то смотреть надо в сторону каких нибудь NoSQL движков, заточенных под такое.
А как смотреть? Опишите сколько времени займет и как искать.
Re[6]: Почему не смогли применить готовое решение для просто
Здравствуйте, Ночной Смотрящий, Вы писали:
НС>В каких условиях? Спарк это не решение для одной машины. Обычно происходит так: где то в дешевом хранилище (s3/azure storage), либо в хранилище другой системы накапливаются первичные данные. Потом нам надо эти данные обработать. Для этого в облаке арендуется на несколько часов/дней кластер из 100500 машин, на котором разворачивается спарк. Потом все это быстро через кластер прогоняется, результат сохраняется и кластер релизится. НС>Говорить о производительности спарка внутри одной машины бессмысленно.
А на одной машине он что работать не может? Поможет ли в решении задачи на одной машине?
Re[6]: Почему не смогли применить готовое решение для простой задач
Здравствуйте, Ночной Смотрящий, Вы писали:
НС>Для этого есть другие типы интервью, например system design, где тебе дают описание сценариев, упрощенных, но приближенных к боевым. И вот тут от тебя как раз ждут грамотного использования готовых решений. А вот в тестовых заданиях на кодирование и алгоритмы, внезапно, проверяют навыки кодирования и знание алгоритмов, а не навыки архитекта.
И каким было бы решение для данного сценария?
Re[6]: Почему не смогли применить готовое решение для просто
S>>Каковы ваши прогнозы — какая скорость будет в сравнении с предложенными вариантами?
НС>В каких условиях? Спарк это не решение для одной машины. Обычно происходит так: где то в дешевом хранилище (s3/azure storage), либо в хранилище другой системы накапливаются первичные данные. Потом нам надо эти данные обработать. Для этого в облаке арендуется на несколько часов/дней кластер из 100500 машин, на котором разворачивается спарк. Потом все это быстро через кластер прогоняется, результат сохраняется и кластер релизится. НС>Говорить о производительности спарка внутри одной машины бессмысленно.
бессмысленно говорить о том о чем не имеешь представления. я показал скорость и все три строчки решения на спарк на одной машине: http://rsdn.org/forum/job/8348407
Здравствуйте, Shmj, Вы писали:
НС>>СУБД созданы для сценария, в котором очень большой объем хранения, хранение длительное, а вот процент обновления данных невелик. S>А как же импорт данных? Он может быть и велик.
Это крайне редкая операция, под него никто не оптимизирует всерьез.
НС>>Если уж искать готовые решения, то смотреть надо в сторону каких нибудь NoSQL движков, заточенных под такое. S>А как смотреть?
Головой.
S>Опишите сколько времени займет и как искать.
Бессмысленный вопрос.
... << RSDN@Home 1.3.17 alpha 5 rev. 62>>
Re[7]: Почему не смогли применить готовое решение для просто
Здравствуйте, Shmj, Вы писали:
S>Здравствуйте, vaa, Вы писали:
S>>>Там .Net был. vaa>>
vaa>>.NET for Apache® Spark™
vaa>>A free, open-source, and cross-platform big data analytics framework
S>Каковы ваши прогнозы — какая скорость будет в сравнении с предложенными вариантами?
Запомнил спарк по одной статье, там правда на джава было, но вообщем там был выигрыш примерно как у ракеты и 3-х колесного велосипеда.
именно по скорости. так что флаг в руки. штука отличная. правда дотнет тут не причем. софта такого класса на дотнете так и не видно.
а вот java хоть ее и ругают имеет не меньше нативных решений чем плюсы (наверно, я не углублялся сильно, первое впечатление).
которые в большинстве еще и опенсорс и фри.
Re[3]: Почему не смогли применить готовое решение для простой задач
Здравствуйте, Shmj, Вы писали:
scf>>Действительно, было бы интересно заценить производительность решения, которое читало бы файл с диска, форматировало под требования sort (линуксовая утилита), пайпом отправляло в sort, форматировало обратно и сохраняло в целевой файл.
S>А эта sort разве не 100% в памяти работает?
Не-а.
У меня несколько раз было, что переполнялся /tmp его временными файлами. Приходилось переопределять TMPDIR на что-то толстое.
Re[4]: Почему не смогли применить готовое решение для просто
Здравствуйте, netch80, Вы писали:
N>Не-а. N>У меня несколько раз было, что переполнялся /tmp его временными файлами. Приходилось переопределять TMPDIR на что-то толстое.
Ну это лишь один из примерно 5 тыс. разных вариантов, как решить задачу. Проверить 5 тыс. вариантов, если уделять каждому по 10 минут — это почти 5 месяцев работы. Может какой-то готовый найдете идеальный — но 5 месяцев на поиски...
По сути мы не решили главного — вопрос нахождения базовых реализаций.
Здравствуйте, Shmj, Вы писали: S>Но нет же! Делали делали — и ничего не сделали. Все нужно писать в нуля руками. Спорят сейчас в комментах где взять b-tree на C#, чтобы в памяти
Здравствуйте, Shmj, Вы писали:
S>Ну это лишь один из примерно 5 тыс. разных вариантов, как решить задачу. Проверить 5 тыс. вариантов, если уделять каждому по 10 минут — это почти 5 месяцев работы.