синхронизация данных ?*
От: takTak  
Дата: 23.05.19 21:11
Оценка:
задача состоит в том, чтобы обеспечить near real time streaming данных из одних on-premises sql server баз данных в другие sql server базы данных, на данный момент эта же задача обеспечивается с переменным успехом кучей point-to-point sql jobs, которые с разной периодичностью выполняют какие-то хранимки, теоретически объём данных может непропорционально возрасти, так что стали по сторонам оглядываться, чтобы понять что вообще в подобных случаях рекомендуется...

из средств самого sql сервера имеeтся вроде как Change Data Capture, чтобы передавать только непосредственные изменения, эти изменения можно было бы стримить дальше до цели через кафку, насколько много ручной работы получится, что делается, когда меняется схема исходной или конечной базы данных ? нет ли каких-то коммерческих программных сред, чтобы этот процесс конфигурировать с помощью каких-то wizard?

есть ещё SQL Server Log shipping /transaction log, но вроде как с ним возникнет слишком много всяких телодвижений и скриптов, есть availability groups synchronization, может что-то ещё есть?

гуглятся всевозможные продуктыо которых я , например, никогда и не слышал , может, есть в этой сфере какие-то стандартные решения "почти из коробки"?
Re: синхронизация данных ?*
От: Denis Ivlev  
Дата: 24.05.19 05:45
Оценка:
Здравствуйте, takTak, Вы писали:

T>задача состоит в том, чтобы обеспечить near real time streaming данных из одних on-premises sql server баз данных в другие sql server базы данных


Не понятно, любая современная субд поддерживает репликацию, включаешь ее и реплика сама синхронизируется с мастером.
Re[2]: синхронизация данных ?*
От: takTak  
Дата: 24.05.19 06:08
Оценка:
T>>задача состоит в том, чтобы обеспечить near real time streaming данных из одних on-premises sql server баз данных в другие sql server базы данных

DI>Не понятно, любая современная субд поддерживает репликацию, включаешь ее и реплика сама синхронизируется с мастером.


сорри, я неясно выразился, речь идёт, в конечном счёте, о синхронизации данных, используемых разными приложениями, каждое из которых имеет свою базу данных

на сегодняшний момент нужные какому-то приложению данные подтаскиваются из базы данных другого приложения и копируются в другую базу данных, есть ещё подобие data warehouse/dwh, куда все данные раз в неделю сливаются
Re: синхронизация данных ?*
От: torvic Голландия  
Дата: 24.05.19 06:41
Оценка:
Здравствуйте, takTak, Вы писали:
T> может, есть в этой сфере какие-то стандартные решения "почти из коробки"?
насколько я понимаю cdc+kafka и есть стандартное решение,
по крайней мере у нас рассматривается аналогичный вариант:
postgresql -> debezium -> kafka -> ...
Re[2]: синхронизация данных ?*
От: takTak  
Дата: 24.05.19 07:30
Оценка:
T>> может, есть в этой сфере какие-то стандартные решения "почти из коробки"?
T>насколько я понимаю cdc+kafka и есть стандартное решение,
T>по крайней мере у нас рассматривается аналогичный вариант:
T>postgresql -> debezium -> kafka -> ...

т.е. у вас эта комбинация хотя бы на уровне PoC уже используется?
потребителей/подписчиков стримов ручками пишете или можно что-то мышкой в каком-то продукте "накликать" ?

ещё непонятно, что делать, когда , например, меняется какая-то таблица в исходной базе: какое-то версионирование возможно ? как все эти стримы наблюдать: есть какое-то мониторинговое решение для отслеживания самих сообщений и возможных проблеми ли нужно всё самим делать ?
Re[3]: синхронизация данных ?*
От: torvic Голландия  
Дата: 24.05.19 13:56
Оценка:
Здравствуйте, takTak, Вы писали:
T>т.е. у вас эта комбинация хотя бы на уровне PoC уже используется?
нет, руки не дошли пока, spike только сделали
T>потребителей/подписчиков стримов ручками пишете или можно что-то мышкой в каком-то продукте "накликать" ?
руками, т.к. используем spark streaming, с другой стороны дел на несколько строк кода

T>ещё непонятно, что делать, когда , например, меняется какая-то таблица в исходной базе: какое-то версионирование возможно ? как все эти стримы наблюдать: есть какое-то мониторинговое решение для отслеживания самих сообщений и возможных проблеми ли нужно всё самим делать ?

DDL операции не отслеживаются, просто сообщение поменяется
kafka tools: есть cli и gui
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.