Gt_>>ты ушел, но я то запомнил твой перл о декларативных питон скриптах для работы с tensorflow. IB>Так они и есть декларативные. Если вы этого не понимаете, то я вам ни чем не могу помочь ))
ты то понятно что не можешь, с твоими то познаниями. это я тебе могу помочь
Gt_>>тренд я напомнил, прислонить hive sql к parquet/csv/json секундное дело, просто create table .. stored as textfile location '/folder' Gt_>>причем табличку делают один раз, а потом просто закидывают новый файлик в фолдер. IB>Еще раз, медленно. Прислонять sql к hdfs для выбора файлов не надо, он там и так есть, прислонять его надо к содержимому этих самых файликов. Когда язык питон, а данные в csv или в json-e, то без вариантов, сидишь и скалдываешь.
я так смотрю кругозор за 15 так и остался на уровне школоло. не надо тебе медленно, надо сосредоточиться. второй раз разжевываю: обрабатывать данные в формате parquet, csv, json и прочих можно и на декларативном sql. сами данные. не надо файлики выбирать, речь об обработке данных из файлов перед тем как скормить ML фреймворку. когда-то многие аналитики реально все трансформации в sql делали, но теперь декларативный sql у них не модно. и я разжувал почему.
IB>Вот был бы шарп, обрабатывали бы все linq-ом, а питон увы, до линка пока не дорос.
шарп ? в одном потоке насилуя одно ядро ? смешно. какое может быть сравнение с питон скриптами которые они запросто и на кластере yarn выполняют ?
IB>Совершенно верно, тенденции просматриваются. Например, тот же яндекс наелся ручного выпиливания питоном по csv и начал делать свой SQL-подобный язык, который обладает нужными свойствами. Действительно, люди хотят большего.
да выкинет яндекс эту муть точно так же как выкинул почту на оракле. то что яндекс сделал ставку на C++ и проиграл уже давно понятно.
и в догонку — структурированные данные в даталейк модно грузить в хорошо структурированные хранилища, например в parquet файлики. зачастую ровно в те же star схемы, что ранее грузили в рсубд, что бы не возиться с уже созданными под рдбмс BI/отчетами. почему ? да потому что sql на эти же файлики отлично работает. есть hive sql, есть impala, есть spark sql, но тем кому удобней чем-то с более широкими возможностями, типа аналитиков, отходят от sql. и ETL отходят. и доставка данных теперь всякими kafka модно, тоже то где раньше sql властвовал.