Рассказ про аварию в ЦОДе RU VDS
habr.com "Коротко: 17 июня около часа ночи мы потеряли два ввода питания от города из-за аварии на подстанции, затем — один из дизелей, что вызвало «мигание» питания в подземном дата-центре. Итог инцидента — простой около 12 часов примерно 7–10 % машин одного из 14 наших ЦОДов." "...оказывается, что тяжело менять коммутатор, когда ты держишь руками патрубок дизеля."
Вот это вообще прекрасно.
> ы не думали строить кластер из двух коммутаторов, потому что не похоже, что DDoS-защита относится к критичным сегментам
Ну, провайдеру конечно виднее, относится антидудос к критичному сервису или нет. Особенно последние года полтора, мда.
> В целом это, наверное, — самый тяжёлый наш кризис, потому что мы его переживали при 100-процентно заполненном машзале. Когда гермозона стоит полупустой, есть резерв по мощности
Да ну что вы парни, это не кризис, это вам просто немножко не повезло - не иметь резервов мощности. Все так делают, у всех прокатывает, ну не получилось, не фартануло - не переживайте, у вас все равно договорная ответственность как правило не превышает ежемесячный платеж.
Это не только вы яростно экономите на резервах, это и заказчики ваших услуг надеются сэкономить на нормальной инфраструктуре и персонале по ее обслуживанию, так что вы вроде как и не виноваты. Ну или не только вы. Мне ни вас, ни заказчиков не жалко. Два года отработал в облачном провайдере. Ушел потому, что патологическое жлобство владельцев и экономия на всём при резком росте клиентской базы не оставляли мне никаких шансов выдерживать те договорные обязательства, которые притаскивали манагеры по продажам. Просто стало понятно, что рано или поздно рванет - и в этот момент лучше тут уже не быть, чтобы не забрызгало.
Рвануло через два года иском от крупной компании, не нашедшей бэкапы данных за прошлый месяц в тот момент, когда они очень занадобились. Просто закончилось место и глубина хранения оказалась чуть меньше договорной.