|   |   | 
| 
 | Печальный опыт с RAID 10 | ☑ | ||
|---|---|---|---|---|
| 0
    
        Повелитель 30.06.21✎ 14:44 | 
        Вчера смотрю на одном из наших серверов из RAID 10 пропал диск.
 Диски HDD по 1Tb. Послал сисадмина поменять. Решили на горячую сделать. До этого много раз так делали и всё было хорошо. На RAID 10 лежала основная база и системные базы MS SQL. В 11:36 админ поменял диск, но видимо случайно задел шлейф другого диска и из RAID 10 ушло сразу 2 диска и он поплыл. MS SQL и базы перестали запускаться. Диски вернули как были, даже тот что вышел из строя подхватился. Началось автоматическое перестроение RAID, которое длилось 2.5 часа. Естественно в этом время база не работала, закрыли Торговый зал на технический перерыв. После того как RAID восстановился, MS SQL отказался работать. Так как опыта с подобным восстановлением не было, то в итоге почитав мануалы и попробовав восстановить MS SQL, я его просто переустановил. В итогде на это ушло ещё 30 минут. После переустановки MS SQL, база рабочая тоже отказалась работать. Хорошо были бэкапы и логи транзакции. Последняя копия была на 11:20. Поднял базу из бэкапов, потом по одному накатил каждый файл журнала транзакции, еще минут 30-40. Закончили в 16:30 Итого сервер не работал 5 часов. За 16 потерянных минут (с 11:20 до 11:36), не много документов было, все нашли и перезабили в 1с руками. Благо сбой был до обмена с центральным сервером, который по плану был бы в 11:40, а то был бы еще рассинхрон с центральной базой. Вот так вот поменяли на горячую диски в RAID. Выводы сделаны, в том числе и по расположению системных баз. Для себя решили, что на горячую больше диски в RAID менять не будем. Лучше пусть 10 минут подождут. Решил с вами поделится опытом. | |||
| 1
    
        ДенисЧ 30.06.21✎ 14:46 | 
        "админ ... задел шлейф другого диска"
 А виноват рейд... | |||
| 2
    
        polosov 30.06.21✎ 14:47 | 
        (0) Чтобы такого не было давно стойки придумали и юниты со специальными контейнерами для винтов.
 Обычный системник ведь у вас, да? | |||
| 3
    
        Повелитель 30.06.21✎ 14:47 | 
        (1) Да он с себя вины не снимает. Но случайно получилось. Он даже не отвалился, просто видимо отошёл.     | |||
| 4
    
        Повелитель 30.06.21✎ 14:48 | 
        (2) Да обычный     | |||
| 5
    
        Arbuz 30.06.21✎ 14:52 | 
        (2) Корзины для съёмных контейнеров есть и для "обычных системников".     | |||
| 6
    
        Chai Nic 30.06.21✎ 14:53 | 
        На горячую диски менять можно, только если они в хотсвапной корзине.     | |||
| 7
    
        Chai Nic 30.06.21✎ 14:54 | 
        +(5) Именно, с наступлением эпохи сата это давно не экзотика     | |||
| 8
    
        polosov 30.06.21✎ 14:56 | 
        (5) На пару винтов?     | |||
| 9
    
        fisher 30.06.21✎ 14:58 | 
        (0) Спасибо, что поделился. Техника безопасности пишется потерянными данными и временем.     | |||
| 10
    
        d4rkmesa 30.06.21✎ 15:11 | 
        (0) Было дело, диски "уходили" из raid'а просто от того, что кто-то рядом прошел, а сервер лежал, грубо говоря, на полу на поддоне(еще не завезли стойку). Помню, настроил новый сервер и уехал в отпуск, а начальница звонит в 4 утра, и я совсем не в курсе, как выглядит перестроение raid. Ну, теперь знаете, как это выглядит на практике.     | |||
| 11
    
        d_monah 30.06.21✎ 15:19 | 
        (9) Ну поделился и поделился.Если для вас 5 часов критично,примите меры.Стойка,замок,упс,юнит с резервом по БП,резерв по сети,удаленный архив и тд.Да дороже будет.ну а что вы хотели?Еще неплохо отделались     | |||
| 12
    
        XMMS 30.06.21✎ 15:32 | 
        Я бы всё же смотрел в сторону резервирования сервера.
 Чтобы было куда переткнуть ключи, накатить бэкап и запустить. Иногда процесс восстановления может занять гораздо больше времени, чем "стоимость" потерянной с последнего бэкапа информации. | |||
| 13
    
        fisher 30.06.21✎ 15:53 | 
        (11) Товарищ уже принял гораздо более дешевые меры - не злоупотреблять горячей заменой, если не уверен в ее полной безопасности. И это хороший совет и хороший пример, что может пойти не так во время горячей замены.     | |||
| 14
    
        d_monah 30.06.21✎ 16:48 | 
        (13) Что то пойти не так может пойти в 100500 случаях которые я знаю и еще столько, о чем я и подумать не мог.Я например никогда не в чем не уверен,только с определенной вероятностью.На месте ТС я бы и с железом,стоиками и прочим поработал+не злоупотреблял бы.Вот тогда норм.     | |||
| 15
    
        d_monah 30.06.21✎ 16:49 | 
        (14) Ну по крайней мере он получил опыт))),больше не полезет,это бесценно)).Сам косячил в молодости))     | |||
| 16
    
        ptiz 30.06.21✎ 16:57 | 
        Тоже сталкивались. Наш отважный админ решил поменять диск на горячую. Базе капут. 4 часа активной работы - ёк. Аукалось нам это еще год. Админ больше у нас не работает.
 Горячая замена - только после бэкапа и выгона всех. | |||
| 17
    
        Seriy_Volk 30.06.21✎ 17:04 | 
        (0) мы все учились понемногу... В нынешних реалиях неаккуратный админ, зацепивший шлейф не самое большое зло. Личный опыт :
 новый (полгода в работе) сервер, на нем RAID 10 из 10 SSD дисков. На диски гарантия пять лет + 4 диска в хотспаре, т.е. соломку вроде подстелили. Итог - сдыхает один диск, массив начинает перестраиваться и в процессе ребилда сдыхает второй диск ИЗ ЭТОЙ же пары. Ответ вендора - проблемная прошивка, меняем по гарантии. В конечном итоге поменяли по гарантии все дисски из этой партии, сдохли в течение года. | |||
| 18
    
        Злопчинский 30.06.21✎ 23:43 | 
        (3) я так случайно тестовую мусорную базу потер. а там бухи пару месяцев какой-то учет восстанавливали...     | |||
| 19
    
        d_monah 01.07.21✎ 00:03 | 
        (18) Тер боевую,истинно веруя что это тест.Заодно научился бэкапы делать регулярно и перед каждыми изменениями     | |||
| 20
    
        acanta 01.07.21✎ 00:11 | 
        Перемещала рабочую базу в соседний каталог, в процессе работы неловким движением. Никто не заметил. А затем обратно (когда нашла куда делась с винта боевая база).     | |||
| 21
    
        Злопчинский 01.07.21✎ 00:30 | 
        во времена ЕС1840 набрал 
 xdel, рука пошла на ввод, увидел/сообразил что стою не в том каталоге но уже поздно.. потерся каталог со всеми подкаталогами. 4Мб из 20МБ диска ушли в никуда. Все что нажито непосильным трудом, научные программы, перетазенное с БЭСМ5 с FOREX и переколдирвоание в watcom-ий фортран кучу прог и прочая и прочая... Но тогда было легче. было понятно что какая программа делает, где что сидит. Короче - восстановил все. | |||
| 22
    
        Почему 1С 01.07.21✎ 07:37 | 
        Не знаю что сделал наш админ, но у нас при выходе из строя одного диска из RAID1, после замены диска оказалась свободное место на весь объем диска. Я так понял он каким то образом умудрился новый диск сделать целевым.     | |||
| 23
    
        Chai Nic 01.07.21✎ 08:00 | 
        (22) Когда-то в начале двухтысячных я так уронил сервер. Вместо "rebuild" на новом диске в raid5 выбрал "take online". Хорошо бэкапы были)     | |||
| 24
    
        Kongo2019 01.07.21✎ 08:03 | 
        (0)Случайно задел шлейф другого диска -  тут не понял, в корзине нет шлейфов же? Там жесткая плата с разъемами.     | |||
| 25
    
        lodger 01.07.21✎ 08:21 | 
        (24) RAID10 - это отсылка к режиму работы контроллера. и ничего не было сразу сказано о конструкции.
 по факту - системный блок с паутиной проводов, как в любом домашнем компе ленивого айтишника. | |||
| 26
    
        d_monah 01.07.21✎ 09:19 | 
        (25) Читая "на горячую" можно предположить что там корзины,ХотСвап))),но можно и по другому)).Вы видели неленивого айтишника?Вам повезло,они в Красной книге.Если здоровались за руку,руки не мыть!!!Детям и внукам будете рассказывать     | |||
| 27
    
        ДенисЧ 01.07.21✎ 09:26 | 
        (26) У неленивого руки в пыли. Поэтому руки мыть обязательно     | |||
| 28
    
        d_monah 01.07.21✎ 09:30 | 
        (27) Да и черт с этой пылью,больше грязи-шире морда.Зато это НАСТОЯЩИЙ НЕЛЕНИВЫЙ АЙТИШНИК!     | 
 
 | Форум | Правила | Описание | Объявления | Секции | Поиск | Книга знаний | Вики-миста |