Re[3]: Почему не смогли применить готовое решение для просто
От: Ночной Смотрящий Россия  
Дата: 27.09.22 14:21
Оценка: +2
Здравствуйте, Shmj, Вы писали:

S>А в чем особенность данного случая — индекс по двум полям?


Индекс гарантированно полезен если ты один раз его пишешь, а потом много раз читаешь. А вот если ты читаешь его тоже один раз — тут могут быть всякие неожиданности.
... << RSDN@Home 1.3.17 alpha 5 rev. 62>>
Re[3]: Почему не смогли применить готовое решение для просто
От: Ночной Смотрящий Россия  
Дата: 27.09.22 14:21
Оценка:
Здравствуйте, Shmj, Вы писали:

Б>>В реальности для решения таких задач будут применять не СУБД, а скорее map-reduce, типа spark (java) или dask (python).

S>Там .Net был.

https://dotnet.microsoft.com/en-us/apps/data/spark
... << RSDN@Home 1.3.17 alpha 5 rev. 62>>
Re[5]: Почему не смогли применить готовое решение для просто
От: Ночной Смотрящий Россия  
Дата: 27.09.22 14:21
Оценка:
Здравствуйте, Shmj, Вы писали:

S>Каковы ваши прогнозы — какая скорость будет в сравнении с предложенными вариантами?


В каких условиях? Спарк это не решение для одной машины. Обычно происходит так: где то в дешевом хранилище (s3/azure storage), либо в хранилище другой системы накапливаются первичные данные. Потом нам надо эти данные обработать. Для этого в облаке арендуется на несколько часов/дней кластер из 100500 машин, на котором разворачивается спарк. Потом все это быстро через кластер прогоняется, результат сохраняется и кластер релизится.
Говорить о производительности спарка внутри одной машины бессмысленно.
... << RSDN@Home 1.3.17 alpha 5 rev. 62>>
Re[5]: Почему не смогли применить готовое решение для простой задач
От: Ночной Смотрящий Россия  
Дата: 27.09.22 14:25
Оценка: +1
Здравствуйте, Shmj, Вы писали:

НС>>Только, опять же, это все имеет смысл когда мы говорим о реальных задачах с кучей дополнительных требований. А абстрактно, в рамках тестового задания, все это лишено смысла, потому что цель — понять твои реальные навыки и умения, а не решить задачу сортировки.

S>Найти готовое решение — это наиболее ценный навык из всех, которые только могут быть.

Для этого есть другие типы интервью, например system design, где тебе дают описание сценариев, упрощенных, но приближенных к боевым. И вот тут от тебя как раз ждут грамотного использования готовых решений. А вот в тестовых заданиях на кодирование и алгоритмы, внезапно, проверяют навыки кодирования и знание алгоритмов, а не навыки архитекта.
... << RSDN@Home 1.3.17 alpha 5 rev. 62>>
Re[4]: Почему не смогли применить готовое решение для простой задач
От: Shmj Ниоткуда  
Дата: 27.09.22 18:44
Оценка:
Здравствуйте, Ночной Смотрящий, Вы писали:

НС>СУБД созданы для сценария, в котором очень большой объем хранения, хранение длительное, а вот процент обновления данных невелик.


А как же импорт данных? Он может быть и велик.

НС>Если уж искать готовые решения, то смотреть надо в сторону каких нибудь NoSQL движков, заточенных под такое.


А как смотреть? Опишите сколько времени займет и как искать.
Re[6]: Почему не смогли применить готовое решение для просто
От: Shmj Ниоткуда  
Дата: 27.09.22 18:47
Оценка:
Здравствуйте, Ночной Смотрящий, Вы писали:

НС>В каких условиях? Спарк это не решение для одной машины. Обычно происходит так: где то в дешевом хранилище (s3/azure storage), либо в хранилище другой системы накапливаются первичные данные. Потом нам надо эти данные обработать. Для этого в облаке арендуется на несколько часов/дней кластер из 100500 машин, на котором разворачивается спарк. Потом все это быстро через кластер прогоняется, результат сохраняется и кластер релизится.

НС>Говорить о производительности спарка внутри одной машины бессмысленно.

А на одной машине он что работать не может? Поможет ли в решении задачи на одной машине?
Re[6]: Почему не смогли применить готовое решение для простой задач
От: Shmj Ниоткуда  
Дата: 27.09.22 18:49
Оценка:
Здравствуйте, Ночной Смотрящий, Вы писали:

НС>Для этого есть другие типы интервью, например system design, где тебе дают описание сценариев, упрощенных, но приближенных к боевым. И вот тут от тебя как раз ждут грамотного использования готовых решений. А вот в тестовых заданиях на кодирование и алгоритмы, внезапно, проверяют навыки кодирования и знание алгоритмов, а не навыки архитекта.


И каким было бы решение для данного сценария?
Re[6]: Почему не смогли применить готовое решение для просто
От: Gt_  
Дата: 27.09.22 18:55
Оценка: +1
S>>Каковы ваши прогнозы — какая скорость будет в сравнении с предложенными вариантами?

НС>В каких условиях? Спарк это не решение для одной машины. Обычно происходит так: где то в дешевом хранилище (s3/azure storage), либо в хранилище другой системы накапливаются первичные данные. Потом нам надо эти данные обработать. Для этого в облаке арендуется на несколько часов/дней кластер из 100500 машин, на котором разворачивается спарк. Потом все это быстро через кластер прогоняется, результат сохраняется и кластер релизится.

НС>Говорить о производительности спарка внутри одной машины бессмысленно.

бессмысленно говорить о том о чем не имеешь представления. я показал скорость и все три строчки решения на спарк на одной машине: http://rsdn.org/forum/job/8348407
Автор: Gt_
Дата: 31.08 14:18

оно по любому обгонит любое решение на субд, где нужно загрузить данные, построить индекс.
Отредактировано 27.09.2022 18:56 Gt_ . Предыдущая версия .
Re[7]: Почему не смогли применить готовое решение для простой задач
От: Ночной Смотрящий Россия  
Дата: 27.09.22 19:42
Оценка:
Здравствуйте, Shmj, Вы писали:

S>И каким было бы решение для данного сценария?


Какого сценария?
... << RSDN@Home 1.3.17 alpha 5 rev. 62>>
Re[5]: Почему не смогли применить готовое решение для простой задач
От: Ночной Смотрящий Россия  
Дата: 27.09.22 19:42
Оценка:
Здравствуйте, Shmj, Вы писали:

НС>>СУБД созданы для сценария, в котором очень большой объем хранения, хранение длительное, а вот процент обновления данных невелик.

S>А как же импорт данных? Он может быть и велик.

Это крайне редкая операция, под него никто не оптимизирует всерьез.

НС>>Если уж искать готовые решения, то смотреть надо в сторону каких нибудь NoSQL движков, заточенных под такое.

S>А как смотреть?

Головой.

S>Опишите сколько времени займет и как искать.


Бессмысленный вопрос.
... << RSDN@Home 1.3.17 alpha 5 rev. 62>>
Re[7]: Почему не смогли применить готовое решение для просто
От: Ночной Смотрящий Россия  
Дата: 27.09.22 19:42
Оценка: -1
Здравствуйте, Shmj, Вы писали:

S>А на одной машине он что работать не может?


На одной машине и кубер работать может, но это же не повод его так на проде гонять, верно?

S>Поможет ли в решении задачи на одной машине?


Нет.
... << RSDN@Home 1.3.17 alpha 5 rev. 62>>
Re[5]: Почему не смогли применить готовое решение для просто
От: vaa https://www.youtube.com/playlist?list=PLtrvASfI1KW7VOYRKjglcagQzWLoxlncl
Дата: 28.09.22 01:21
Оценка:
Здравствуйте, Shmj, Вы писали:

S>Здравствуйте, vaa, Вы писали:


S>>>Там .Net был.

vaa>>

vaa>>.NET for Apache® Spark™
vaa>>A free, open-source, and cross-platform big data analytics framework


S>Каковы ваши прогнозы — какая скорость будет в сравнении с предложенными вариантами?


Запомнил спарк по одной статье, там правда на джава было, но вообщем там был выигрыш примерно как у ракеты и 3-х колесного велосипеда.
именно по скорости. так что флаг в руки. штука отличная. правда дотнет тут не причем. софта такого класса на дотнете так и не видно.
а вот java хоть ее и ругают имеет не меньше нативных решений чем плюсы (наверно, я не углублялся сильно, первое впечатление).
которые в большинстве еще и опенсорс и фри.
Re[3]: Почему не смогли применить готовое решение для простой задач
От: netch80 Украина http://netch80.dreamwidth.org/
Дата: 28.09.22 08:01
Оценка:
Здравствуйте, Shmj, Вы писали:

scf>>Действительно, было бы интересно заценить производительность решения, которое читало бы файл с диска, форматировало под требования sort (линуксовая утилита), пайпом отправляло в sort, форматировало обратно и сохраняло в целевой файл.


S>А эта sort разве не 100% в памяти работает?


Не-а.
У меня несколько раз было, что переполнялся /tmp его временными файлами. Приходилось переопределять TMPDIR на что-то толстое.
Re[4]: Почему не смогли применить готовое решение для просто
От: Shmj Ниоткуда  
Дата: 28.09.22 08:19
Оценка:
Здравствуйте, netch80, Вы писали:

N>Не-а.

N>У меня несколько раз было, что переполнялся /tmp его временными файлами. Приходилось переопределять TMPDIR на что-то толстое.

Ну это лишь один из примерно 5 тыс. разных вариантов, как решить задачу. Проверить 5 тыс. вариантов, если уделять каждому по 10 минут — это почти 5 месяцев работы. Может какой-то готовый найдете идеальный — но 5 месяцев на поиски...

По сути мы не решили главного — вопрос нахождения базовых реализаций.
Отредактировано 28.09.2022 8:20 Shmj . Предыдущая версия .
Re: Почему не смогли применить готовое решение для простой задач
От: Serginio1 СССР https://habrahabr.ru/users/serginio1/topics/
Дата: 28.09.22 15:17
Оценка:
Здравствуйте, Shmj, Вы писали:
S>Но нет же! Делали делали — и ничего не сделали. Все нужно писать в нуля руками. Спорят сейчас в комментах где взять b-tree на C#, чтобы в памяти

Создание эффективной реализации сортированного списка с использованием generics
Автор(ы): Сергей Смирнов (Serginio1)
Дата: 14.08.2004
Пример реализации двухуровневого массива с помощью нового средства С# — generics. Сравнение производительности различных реализаций сортированных списков.

Там есть и Б+ деревья.
и солнце б утром не вставало, когда бы не было меня
Re[5]: Почему не смогли применить готовое решение для просто
От: Ночной Смотрящий Россия  
Дата: 05.10.22 10:53
Оценка:
Здравствуйте, Shmj, Вы писали:

S>Ну это лишь один из примерно 5 тыс. разных вариантов, как решить задачу. Проверить 5 тыс. вариантов, если уделять каждому по 10 минут — это почти 5 месяцев работы.


Только если у тебя абсолютно нулевой бэкграунд.
... << RSDN@Home 1.3.17 alpha 5 rev. 62>>
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.