Здравствуйте, prrt, Вы писали:
P>В один прекрасный момент сервер самопроизвольно перезагрузился. В логах ничего нет, при просмотре journalctl всё идет как обычно, потом одна запись: P>-- Reboot -- P>и дальше обычный лог загрузки системы. После перезагрузки сервер работает как обычно. P>Подскажите, как определить, из-за чего произошел reboot? Возможно ли это из-за какого-то программного сбоя (хотя никаких segmentation fault не было) или такая запись в логе означает, что сервер перезагрузили вручную кнопкой?
Отключение кнопкой пишется в логах, если программный сбой, то не segmentation fault, а kernel panic.
Выше отписано, что это сервер, посмотри в логах ipmi-я ошибки или предупреждения. Есть шансы, что аппаратный сбой.
Вообще если это стабильный и мейнстрим linux (red hat / debian) со штатным ядром, без левых драйверов, то вероятность kernel panic стремиться к нулю. Самый вероятный вариант — сбой железа (вероятней всего память). Менее вероятный — неудачная конфигурация железа, левые дрова. Маловероятно, но возможно и озвученное Stanislaw K идея.
В один прекрасный момент сервер самопроизвольно перезагрузился. В логах ничего нет, при просмотре journalctl всё идет как обычно, потом одна запись:
-- Reboot --
и дальше обычный лог загрузки системы. После перезагрузки сервер работает как обычно.
Подскажите, как определить, из-за чего произошел reboot? Возможно ли это из-за какого-то программного сбоя (хотя никаких segmentation fault не было) или такая запись в логе означает, что сервер перезагрузили вручную кнопкой?
Здравствуйте, prrt, Вы писали:
P>В один прекрасный момент сервер самопроизвольно перезагрузился. В логах ничего нет, при просмотре journalctl всё идет как обычно, потом одна запись: P>-- Reboot -- P>и дальше обычный лог загрузки системы. После перезагрузки сервер работает как обычно. P>Подскажите, как определить, из-за чего произошел reboot? Возможно ли это из-за какого-то программного сбоя (хотя никаких segmentation fault не было) или такая запись в логе означает, что сервер перезагрузили вручную кнопкой?
Здравствуйте, Stanislaw K, Вы писали:
SK>злоумышленники установили руткит?
Для этого, как я понимаю, нужно загрузить ОС, войти в неё и что-то там сделать плохое, т.е. надо знать пароли, успеть подчистить логи... Либо подключить загрузочный диск, загрузиться с него, и потом что-то записать на системный. Но это как-то слабо верится. Да и сервер размещен в дата-центре, зачем кто-то там будет этим заниматься? Время, ушедшее на ребут составляет около 3-4 минут. Вроде многовато для простого reboot, может просто питание отключилось на эти несколько минут?
Здравствуйте, prrt, Вы писали:
SK>>злоумышленники установили руткит? P>Для этого, как я понимаю, нужно загрузить ОС, войти в неё и что-то там сделать плохое, т.е. надо знать пароли, успеть подчистить логи... Либо подключить загрузочный диск, загрузиться с него, и потом что-то записать на системный. Но это как-то слабо верится. Да и сервер размещен в дата-центре,
Для этого не надо иметь физического доступа, знать пароли и чистить логи.
Нужно удаленно, по сети, "подключится". Залогиниться по ssh или воспользоваться уязвимостью веб сайта или фтп. или еще что то.
Что то спокойно делать несколько недель. воспользоваться уязвимостью установленного пакета ПО. повысить привилегии. установить свое ПО. и т.д.
3-4 минуты, вполне возможно что злоумышленник перезагрузился, почистил логи и перезагрузился еще раз. теперь он тоже имеет контроль над твоей системой.
Но это только версия, конечно. Обычно(с) логи не чистят. Или чистят не все логи.
P>зачем кто-то там будет этим заниматься?
Потому что может.
P>Время, ушедшее на ребут составляет около 3-4 минут. Вроде многовато для простого reboot, может просто питание отключилось на эти несколько минут?
А что говорит датацентр? 3-4 минуты отключения питания, это ахтунг, и повод 50% скидки на следующий квартал.
Здравствуйте, Stanislaw K, Вы писали:
SK>А что говорит датацентр? 3-4 минуты отключения питания, это ахтунг, и повод 50% скидки на следующий квартал.
Дата-центр утверждает, что никаких работ не проводилось и питание не отключалось. Странно всё это. И, главное, непонятно, что сейчас еще можно сделать, чтобы докопаться до истины.
Здравствуйте, prrt, Вы писали:
SK>>А что говорит датацентр? 3-4 минуты отключения питания, это ахтунг, и повод 50% скидки на следующий квартал.
P>Дата-центр утверждает, что никаких работ не проводилось и питание не отключалось. Странно всё это. И, главное, непонятно, что сейчас еще можно сделать, чтобы докопаться до истины.
Еще большой вопрос, до какой истины ты хочешь докопаться?
Забрать с хоста все логи за последний месяц и внимательно читать. Логи хоста хранились только на нем? на удаленный syslog не копировались?
Можно взять аналогичный сервер, установить на него такую же систему, с тем же набором ПО и патчей, обновить до такой же версии как на подозрительном сервере, и бинарно сравнить.
Нужно взять список используемого ПО, взять security bulleten и читать читать читать..
Но вопрос прежний — до какой истины ты хочешь докопаться? Зачем? Какую цель преследуешь?
Здравствуйте, Stanislaw K, Вы писали:
SK>Еще большой вопрос, до какой истины ты хочешь докопаться?
Найти причину перезагрузки.
SK>Забрать с хоста все логи за последний месяц и внимательно читать. Логи хоста хранились только на нем? на удаленный syslog не копировались?
Логи не копировались, уже изучены, ничего в них нет.
SK>Можно взять аналогичный сервер, установить на него такую же систему, с тем же набором ПО и патчей, обновить до такой же версии как на подозрительном сервере, и бинарно сравнить.
Вряд ли это вирус. На сервере нет ни веб сервера, ни почтового, ни ftp. Очень узкоспециализированный он, работает один демон, написанный специально для решения ряда задач исключительно для работы на этом сервере и всё.
SK>Нужно взять список используемого ПО, взять security bulleten и читать читать читать..
Не используется там никакое стандартное ПО. Голый линукс и специализированный демон.
SK>Но вопрос прежний — до какой истины ты хочешь докопаться? Зачем? Какую цель преследуешь?
Найти причину перезагрузки.
В общем, после продолжительного штудирования Интернета, нашел, что, такого рода перезагрузки обычно бывают в двух случаях:
— проблемы с питанием
— hardware problems.
Первый случай отрицают в дата-центре, второй чаще всего возникает по двум причинам:
— Плохая память (memtest в руки)
— Перегрев.
Для проверки перегрева надо будет поставить логирование всех параметров — температура процессоров, винчестеров и пр. Пока что из этого и буду исходить.
Здравствуйте, prrt, Вы писали:
SK>>Еще большой вопрос, до какой истины ты хочешь докопаться? P>Найти причину перезагрузки.
SK>>Забрать с хоста все логи за последний месяц и внимательно читать. Логи хоста хранились только на нем? на удаленный syslog не копировались? P>Логи не копировались, уже изучены, ничего в них нет.
За месяц? Внимательно?
SK>>Нужно взять список используемого ПО, взять security bulleten и читать читать читать.. P>Не используется там никакое стандартное ПО. Голый линукс и специализированный демон.
голый линукс — это ядро. ssh это уже ПО третьих производителей.
SK>>Но вопрос прежний — до какой истины ты хочешь докопаться? Зачем? Какую цель преследуешь? P>Найти причину перезагрузки.
P>В общем, после продолжительного штудирования Интернета, нашел, что, такого рода перезагрузки обычно бывают в двух случаях: P>- проблемы с питанием P>- hardware problems. P>Первый случай отрицают в дата-центре, второй чаще всего возникает по двум причинам: P>- Плохая память (memtest в руки)
может быть, но как это возможно на сервере? без отметок в логах? сэкономили на памяти ECC RDRAM? это вообще не сервер а бытовой ПЦ?
P>- Перегрев.
В датацентре перегрев? Это ахтунг еще хуже пропадающего электричества.
snmp мониторинг какую температуру чипсета показывает? smartctl температуру жесткого диска?
P>Для проверки перегрева надо будет поставить логирование всех параметров — температура процессоров, винчестеров и пр. Пока что из этого и буду исходить.