Перевод мировых атомных часов на одну секунду привёл к массовому зависанию серв
От: Odi$$ey Россия http://malgarr.blogspot.com/
Дата: 02.07.12 15:41
Оценка:
Перевод мировых атомных часов на одну секунду привёл к массовому зависанию серверных приложений

Кто-нить может объяснить с чего бы это на сервере могут возникнуть проблемы из-за того, что на каких-то там атомных часах накинули секунду?
Re: Перевод мировых атомных часов на одну секунду привёл к массовому зависанию с
От: Аноним  
Дата: 02.07.12 18:12
Оценка: +1
Здравствуйте, Odi$$ey, Вы писали:

OE>Кто-нить может объяснить с чего бы это на сервере могут возникнуть проблемы из-за того, что на каких-то там атомных часах накинули секунду?


NTP + баг в Linux kernel:

Some of the reports that the issue is resolved by calling:
$ date -s "`date`"
suggests that it might be due to clock_was_set() not being called
after the leap second was added, causing some hrtimer confusion.

Re[2]: Перевод мировых атомных часов на одну секунду привёл к массовому зависани
От: jazzer Россия Skype: enerjazzer
Дата: 03.07.12 00:39
Оценка:
Здравствуйте, Аноним, Вы писали:

А>Здравствуйте, Odi$$ey, Вы писали:


OE>>Кто-нить может объяснить с чего бы это на сервере могут возникнуть проблемы из-за того, что на каких-то там атомных часах накинули секунду?


А>NTP + баг в Linux kernel:


А>

А>Some of the reports that the issue is resolved by calling:
А> $ date -s "`date`"
А>suggests that it might be due to clock_was_set() not being called
А>after the leap second was added, causing some hrtimer confusion.


+1

уже и патч есть:
https://lkml.org/lkml/2012/7/1/27
jazzer (Skype: enerjazzer) Ночная тема для RSDN
Автор: jazzer
Дата: 26.11.09

You will always get what you always got
  If you always do  what you always did
Re[2]: Перевод мировых атомных часов на одну секунду привёл к массовому зависани
От: Odi$$ey Россия http://malgarr.blogspot.com/
Дата: 03.07.12 02:38
Оценка:
Здравствуйте, Аноним, Вы писали:

OE>>Кто-нить может объяснить с чего бы это на сервере могут возникнуть проблемы из-за того, что на каких-то там атомных часах накинули секунду?


А>NTP + баг в Linux kernel


ну синхронизирует сервер время, ну видит, что у него часы на секунду убежали, ну поставит правильное время — этож типовая операция, часы на компах хреновенькие, она по десять раз в неделю должна вызываться. Чего эта секунда-то так напрягла?
Re[3]: Перевод мировых атомных часов на одну секунду привёл к массовому зависани
От: dukdin  
Дата: 03.07.12 02:53
Оценка: :))) :)
Здравствуйте, Odi$$ey, Вы писали:

OE>ну синхронизирует сервер время, ну видит, что у него часы на секунду убежали, ну поставит правильное время — этож типовая операция, часы на компах хреновенькие, она по десять раз в неделю должна вызываться. Чего эта секунда-то так напрягла?


не думай о секундах свысока. наступит время сам поймешь. наверное
Re[3]: Перевод мировых атомных часов на одну секунду привёл к массовому зависани
От: jazzer Россия Skype: enerjazzer
Дата: 03.07.12 02:58
Оценка:
Здравствуйте, Odi$$ey, Вы писали:

OE>ну синхронизирует сервер время, ну видит, что у него часы на секунду убежали, ну поставит правильное время — этож типовая операция, часы на компах хреновенькие, она по десять раз в неделю должна вызываться. Чего эта секунда-то так напрягла?


таймауты в ядре полетели, в результате почти все процессы стали жрать по 100% CPU (т.е. зависания не было, просто все мрачно тормозило).
"time -s now" проблему решил.
jazzer (Skype: enerjazzer) Ночная тема для RSDN
Автор: jazzer
Дата: 26.11.09

You will always get what you always got
  If you always do  what you always did
Re: Перевод мировых атомных часов на одну секунду привёл к массовому зависанию с
От: Cyberax Марс  
Дата: 03.07.12 03:06
Оценка: 30 (2)
Здравствуйте, Odi$$ey, Вы писали:

OE>Перевод мировых атомных часов на одну секунду привёл к массовому зависанию серверных приложений

OE>Кто-нить может объяснить с чего бы это на сервере могут возникнуть проблемы из-за того, что на каких-то там атомных часах накинули секунду?
Вот тут подробное объяснение: http://lwn.net/SubscriberLink/504744/631de7ed0bdff4e8/

Короче говоря, баг, который вызывал немедленный таймаут некоторых фьютексов.
Sapienti sat!
Re[3]: Перевод мировых атомных часов на одну секунду привёл к массовому зависани
От: Cyberax Марс  
Дата: 03.07.12 03:06
Оценка: +1 :))
Здравствуйте, jazzer, Вы писали:

J>+1

J>уже и патч есть:
J>https://lkml.org/lkml/2012/7/1/27
Только смысла в нём на ближайшиее года 3 нет
Sapienti sat!
Re[2]: Перевод мировых атомных часов на одну секунду привёл к массовому зависани
От: Odi$$ey Россия http://malgarr.blogspot.com/
Дата: 03.07.12 04:05
Оценка:
Здравствуйте, Cyberax, Вы писали:

C>Вот тут подробное объяснение: http://lwn.net/SubscriberLink/504744/631de7ed0bdff4e8/


а, так получается учет этих секунд (корявый и непротестированный) заранее засунули в код операционки, а NTP тут как раз ни при чем?
Re[3]: Перевод мировых атомных часов на одну секунду привёл к массовому зависани
От: Cyberax Марс  
Дата: 03.07.12 04:21
Оценка:
Здравствуйте, Odi$$ey, Вы писали:

C>>Вот тут подробное объяснение: http://lwn.net/SubscriberLink/504744/631de7ed0bdff4e8/

OE>а, так получается учет этих секунд (корявый и непротестированный) заранее засунули в код операционки, а NTP тут как раз ни при чем?
NTP нужен для того, чтобы указать ядру когда именно надо вставить секунду коррекции. Он сработал совершенно нормально, кстати.

В общем, через 3 года снова повиснет. В 2008-м такая же история была.
Sapienti sat!
Re[4]: Перевод мировых атомных часов на одну секунду привёл к массовому зависани
От: Anton Batenev Россия https://github.com/abbat
Дата: 03.07.12 21:19
Оценка:
Здравствуйте, jazzer, Вы писали:

j> таймауты в ядре полетели, в результате почти все процессы стали жрать по 100% CPU (т.е. зависания не было, просто все мрачно тормозило).


Зависание тоже было на многих серверах (в основном XEN). Проблема достаточно масштабна — так, например, в ДЦ hetzner из за взлета CPU увеличилось потребление энергии на мегаватт (о чем они сегодня с опозданием сообщили).
avalon 1.0rc3 build 430, zlib 1.2.3.4
 
Подождите ...
Wait...
Пока на собственное сообщение не было ответов, его можно удалить.