Рассказ про аварию в ЦОДе RU VDS

habr.com — "Коротко: 17 июня около часа ночи мы потеряли два ввода питания от города из-за аварии на подстанции, затем — один из дизелей, что вызвало «мигание» питания в подземном дата-центре. Итог инцидента — простой около 12 часов примерно 7–10 % машин одного из 14 наших ЦОДов." "...оказывается, что тяжело менять коммутатор, когда ты держишь руками патрубок дизеля."
Новости, Компьютеры | buba 09:06 21.06.2023
2 комментария | 63 за, 0 против |
#1 | 11:08 21.06.2023 | Кому: Всем
> Самое печальное — коммутатор защищённого сегмента, который включился, но работал неправильно. Это сегмент, в котором стоит DDoS-защита, то есть через него подключено около 7 % IP-адресов ЦОДа. Коммутатор зарезервирован по принципу HOT SWAP, то есть точно такой же лежит в коробке в шкафу в админской.

Вот это вообще прекрасно.

> ы не думали строить кластер из двух коммутаторов, потому что не похоже, что DDoS-защита относится к критичным сегментам


Ну, провайдеру конечно виднее, относится антидудос к критичному сервису или нет. Особенно последние года полтора, мда.

> В целом это, наверное, — самый тяжёлый наш кризис, потому что мы его переживали при 100-процентно заполненном машзале. Когда гермозона стоит полупустой, есть резерв по мощности


Да ну что вы парни, это не кризис, это вам просто немножко не повезло - не иметь резервов мощности. Все так делают, у всех прокатывает, ну не получилось, не фартануло - не переживайте, у вас все равно договорная ответственность как правило не превышает ежемесячный платеж.

Это не только вы яростно экономите на резервах, это и заказчики ваших услуг надеются сэкономить на нормальной инфраструктуре и персонале по ее обслуживанию, так что вы вроде как и не виноваты. Ну или не только вы. Мне ни вас, ни заказчиков не жалко. Два года отработал в облачном провайдере. Ушел потому, что патологическое жлобство владельцев и экономия на всём при резком росте клиентской базы не оставляли мне никаких шансов выдерживать те договорные обязательства, которые притаскивали манагеры по продажам. Просто стало понятно, что рано или поздно рванет - и в этот момент лучше тут уже не быть, чтобы не забрызгало.

Рвануло через два года иском от крупной компании, не нашедшей бэкапы данных за прошлый месяц в тот момент, когда они очень занадобились. Просто закончилось место и глубина хранения оказалась чуть меньше договорной.
#2 | 12:18 21.06.2023 | Кому: bazuka_joe
>
> интересно зачем им понадобились бекапы за прошлый месяц

Видимо, что-то не то накрутили или вообще грохнули, а спохватились поздно. Вон, в Росавиации - https://vott.ru/entry/607032?page=1 - по предварительным итогам расследования вообще хохлодиверсия была, безопасники просохатили.

С т.з. поставщика услуги - вообще не его собачье дело, его задача сервис обеспечивать.
Войдите или зарегистрируйтесь чтобы писать комментарии.