Данные пишутся в delta table в порядке возрастания даты/времени. Нужно извлечь все значения с датой больше определенного значения. Как это эффективно сделать в Spark?
C>Данные пишутся в delta table в порядке возрастания даты/времени. Нужно извлечь все значения с датой больше определенного значения. Как это эффективно сделать в Spark?
partition
Re[2]: Spark, delta table. как индексировать данные?
Gt_>>просто делаешь delta таблицу с партицией по дате
C>Есть разные варианты как это сделать, так что не "просто".
чего сложного в создании партиционированой таблички ? ну да, можно SQL синтаксис, можно в java/scala синтаксисе ... но создать табличку мягко говоря не рокет саенс.
использовать тоже: можно SQL синтаксис, можно в java/scala синтаксисе, главное что бы в запросе поле с датой, по которому нарезаны партиции фигурировало, вот и все.
Re[6]: Spark, delta table. как индексировать данные?
Gt_>>главное что бы в запросе поле с датой, по которому нарезаны партиции фигурировало, вот и все.
C>Нет, не всё. Похоже, что ты вообще не понимаешь о чем пишешь.
это все, зачем ты споришь, если не имеешь даже общего представления о технологии ? тем более со мной.
If a partition column is defined by one of the preceding expressions, and a query filters data using the underlying base column of a generation expression, Delta Lake looks at the relationship between the base column and the generated column, and populates partition filters based on the generated partition column if possible. For example, given the following table:
Python
spark.sql('SELECT * FROM default.events WHERE eventTime >= "2020-10-01 00:00:00" <= "2020-10-01 12:00:00"')
Delta Lake automatically generates a partition filter so that the preceding query only reads the data in partition date=2020-10-01 even if a partition filter is not specified.
Re[8]: Spark, delta table. как индексировать данные?