Кто пользуется софтовым RAID-массивом, тому пригодится мой только-что обретенный опыт.
Началось все с того, что буквально три часа назад мой сервер меня обрадовал сообщением от mdadm. Смысл сообщения в том, что от второго массива был отсоединен один из дисков в результате ошибки.
После подключения было обнаружено, что к устройству /dev/md1 подключен только один из двух дисков. В том время как в системе второй диск и виден и функционирует. Слегка запаниковав, я пошел простым путем — почитав man mdadm, просто добавил к /dev/md1 устройство /dev/sdb1, которые и отсоединилось…
Но меня ждал жестокий сюрприз — mdadm после попытки синхронизировать диски выдал сообщение «faulty spare rebuilding». Первая мысль была — диск убился. Вторая мысль пришла через 5 минут — а не порытся ли в интернете. Мое спокойствие было вознаграждено и я почитал какой-то пост в интернете на английском языке, из которого понял в общих чертах, что в данном случае какая-то проблема со SMART.
Поставив пакет smartmontools, я вывел всю инфу по сбойному диску, в которой не нашел никаких отклонений. После некоторых раздумий, я запустил тест диска по команде smartctl —test=short /dev/sdb… Пришлось ждать целых 2 минут, пока закончится тестирование (сразу скажу, в примере написано про test-long, так вот я его советую запускать только при явных проблемах, т.к. работает он порядка 4-5 часов 🙂 ).
И «о чудо, Волька ибн не помню кто»! Тестирование не показало никаких отклонений на устройстве и я снова попытался подсоединить раздел к массиву… И был таки вознагражден наблюдением неуклонно растущего процента синхронизации без ошибок.
Вывод очень простой: даже если Вы не используете SMART, его показатели зачастую все равно влияют на работоспособность устройств, поэтому для профилактики все таки периодически запускайте тестирование и проверку SMART-статуса устройств. Ошибок возможно не будет, но при этом скорее всего перестанут паниковать другие программы.