Чудеса надежности ЦОД – или «пять девяток по-лондонски»

Аватар пользователя Mr.Wolf

В качестве эпиграфа:

доступность 99.999% (“пять девяток”) = 5.26 минут простоя в год!

Камрады, тут на днях случилось очередное счастье: на Лондонской бирже металлов прервались торги. И возобновились всего лишь через более, чем пять часов. Ну, событие в целом – не катастрофичное (а жаль), хотя и довольно неприятное для многих участников. Мы же все знаем, что у бледнолицых всё работает надежно, ЦОДы водой не заливает, электричество в розетках не кончается, а только зеленеет на постоянной основе. А тут – такая вот пакость. Вроде как – непорядочек.  Визгу вокруг особо не было – отметились наши РБК (писать то надо хоть что-нибудь). К слову, сайт самой биржи – невозмутим по этому поводу, как и фейс покерного специалиста. 

А вот как раз в РБКшном материале прозвучала следующая мысль, которая и привлекла внимание:

Это произошло из-за отключения электроэнергии в стороннем центре обработки данных

Поскольку про ЦОДы – как бы немножко в теме – полез смотреть: что же случилось? Делюсь полу-машинным переводом.

В понедельник, 10 января, ночью, европейский оператор центра обработки данных Interxion пережил сбой в своем центральном лондонском кампусе, из-за отсутствия обслуживания в его центре обработки данных LON1 в течение нескольких часов, а пользователи жаловались, что компания хранила молчание о том, что происходит.

Ely's Yard, за зданием Old Truman Brewery, в котором находится LON1.

Инцидент, по-видимому, начался вскоре после 18:00 UTC в понедельник вечером с отключения электроэнергии на участке LON1 в Ист-Энде города, который удобно расположен недалеко от финансового района и технического центра «Силиконовая кольцевая развязка» в Шордиче.

К несчастью для Interxion, в данном случае встроенное резервирование электроснабжения не спасло ее, так как в здании произошел сбой нескольких линий электропередач. Хуже того, кажется, что электронное распределительное устройство, предназначенное для переключения питания на местный генератор, также вышло из строя, и это помешало компании переключаться между питанием от сети и питанием от резервного генератора.

Многие пользователи сообщили, что во время сбоя представители Interxion были недоступны, никакой информации о причинах сбоя и сроках восстановления клиентам сообщено не было.

К 21:24 UTC Interxion, по-видимому, удалось восстановить некоторые системы объекта, и продолжились попытки восстановить питание остальной части объекта. Было 01:36 UTC на следующее утро, когда вся лондонская инфраструктура одного из клиентов снова заработала в полном объеме.

Interxion (произносится как Interaction) имеет объекты в 11 европейских странах и 13 городских агломерациях. Он был приобретен в 2020 году американским центром обработки данных Digital Realty в рамках сделки, которая на тот момент оценивалась в 8,4 миллиарда долларов.

После настойчивых обращений на следующий день Interxion сообщил: «В понедельник, 10 января, в 18:10 на объекте Interxion на Хэнбери-стрит (LON1) произошел критический перебой в подаче электроэнергии, который затронул часть оборудования управления сетью и вызвал перебои в работе служб в LON1.

«Проблема была быстро выявлена, и службы начали возобновлять работу с 19:45 по 22:30, когда объект вернулся в рабочее состояние».

Представитель компании добавил, что извинился «всем пострадавшим клиентам и партнерам, а также за трудности со связью во время сбоя».

«В настоящее время проводится полное расследование, чтобы определить основную причину сбоя, результаты которого будут использованы для обеспечения еще более отказоустойчивой инфраструктуры в будущем. Мы по-прежнему гордимся своей репутацией в области глобальной надежности и доступности и поддерживаем время безотказной работы «пять девяток» за последние 14 лет».

И та самая Лондонская биржа металлов имела счастье хоститься в этом самом ЦОДе LON1, который «гордится своей репутацией и поддерживает время безотказной работы «пять девяток».

Электронные торги были недоступны около пяти часов с 01:00 и возобновились только в 6:15 утра следующего дня.

Причем здесь девятки?

Мне очень понравилась фраза:

Мы по-прежнему гордимся своей репутацией в области глобальной надежности и доступности и поддерживаем время безотказной работы «пять девяток» за последние 14 лет.

По информации компании - простой был с 18.10 по 22.30 = 4 часа 20 минут = 260 минут.  

Таким образом, коль скоро компания заявляет, что «поддерживает время безотказной работы «пять девяток» - она берет на себя обязательства в ближайшие 50 лет не допустить ни одного простоя!

Вы им верите?

 

Авторство: 
Авторская работа / переводика
Комментарий автора: 

Есть такой анекдот про ёжика и аутотренинг.

Какими же лохами надо считать своих клиентов, чтобы, во-первых – впарить им фигню под соусом «мы тут аж пять девяток!», потом – обрушить их (клиентский) бизнес своим тупым факапом – и продолжить пудрить мозги про «еще лучше, чем пять девяток, но завтра!».

Печалька – что наши ЦОДы - не лучше. Потому как никто никогда не считал реальную надежность систем объектов ЦОД. Ибо – «не царское это дело».

P.S. По информации из разных источников – после сбоя внешнего питания, на объекте не сработали АВР, а ИБП отвалились после выработки запаса. Имеющиеся 14 дизелей не были активированы. У идиотов  специалистов не хватило ума задублировать АВР? Или оба канала хором отвалились? И это – на «пяти девятках»?

Комментарии

Аватар пользователя 3xl
3xl(11 лет 2 месяца)

Вы им верите?

 

Конечно! джентльменам верят на слово!

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 1 месяц)

Так победимЪ! (с)

Аватар пользователя Советчик
Советчик(6 лет 2 недели)

Особенно понравилось про электронику не давшую переключится на дизель-генератор. В ЦОДе в котором мне приходилось бывать переход на дизель осуществляется раз в месяц для тестирования оборудования. Это не считая двух независимых линий электроснабжения.

Комментарий администрации:  
*** Уличен в антисоветской лжи и набросах - https://aftershock.news/?q=comment/7625227#comment-7625227 ***
Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 1 месяц)

Реально бывает по-разному. Но то, что тестить надо регулярно - не вопрос, а правило.

Видать - для туземцев? :-)

Аватар пользователя Виталий.
Виталий.(11 лет 2 месяца)

Более того!В аварийном дизель-генераторе,в массивном корпусе двигателя должен быть в наличии ТЭН (теплоэлектронагреватель).Обычно "пальчикового"исполнения.(циллиндрической формы)Его задача-постоянно поддерживать повышеную температуру двигателя для максимально короткого периода до постановки под нагрузку с холостых оборотов.

Как такая система не сработала-загадка.Справедливо замечено,что должны быть регулярные проверки.Но,и это не всё.

Ежедневно,такой генератор должен осматриваться по контрольным показателям с внесением в журнал под личную подпись вместе с лицом обеспечивающим доступ к контролю.

Аватар пользователя Виталий.
Виталий.(11 лет 2 месяца)

Для доступа в помещение АДГ нужно заблаговременно подать заявку начальству.После одобрения-получить "бумажку".Одновременно с выдачей бумажки идёт сигнал на охрану в подземный бункер,где сидит боец в бронике с калашом.Он,на указанный период снимает с сигнализации помещение АДГ.Доступ к охраннику-через тамбур-шлюз.Через который проити ну практически не всем можно.Не всем может это удаться даже во вчерашнем дне.(Кличко)

По бумажке получаем ключ от отпирания механического замка,предварительно убедившись,что синализация отключена по индикации на двери помещения.Далее-ввод регулярно изменяемого кода доступа через клавиатуру.После-прислонение "таблеток"для открытия эл.маг. замка.Последний штрих-индивидуальные магнитные карты к считывателям и мы в помещении АДГ.

Визуальный контроль помещения.(Целостность,функционирование приточно-вытяжной вентиляции...)Снятие параметров...От уровня масла(щупом по старинке,до снятия ошибок по сообщениям от микроэлектроники)Заполнение журнала с внесением текущих параметров.От температуры в помещении до времени наработки...И свобода!Пока сигнализация не включилась и не объявили тревогу в том числе в соответствующие службы вне объекта.:)

Аватар пользователя Aijy01
Aijy01(11 лет 8 месяцев)

Сурово!

Аватар пользователя Xenon_Raider
Xenon_Raider(9 лет 5 месяцев)

  Ваша охрана оружие хоть на предохранитель ставит, пока вы проводите осмотр? Или там паранойя вписана в инструкции по охране объекта?  

Аватар пользователя tiriet
tiriet(11 лет 2 месяца)

это не паранойя. это нормальный режимный объект высокой важности.

Аватар пользователя Офисный планктон

От затопления это спасёт?

Аватар пользователя tiriet
tiriet(11 лет 2 месяца)

так же, как и от ядерной бомбы.

Аватар пользователя Офисный планктон

Вероятность затопления намного выше. Недавно какой-то датацентр в России затопило. Там, наверное, не наводнение было, а крыша протекла или труба лопнула.

Аватар пользователя mr.Iceman
mr.Iceman(12 лет 3 месяца)

В ЦОДе в котором мне приходилось бывать переход на дизель осуществляется раз в месяц для тестирования оборудования.

Сие называются "аварийные учения", и по регламенту любой мало-мальски уважаемой организации они должны выполняться регулярно. В период минимальной нагрузки, естессно, и с оповещением смежников.

Аватар пользователя МысльВслух
МысльВслух(5 лет 3 недели)

еще зависит от категории ЦОДа

Аватар пользователя Антон Шилов
Антон Шилов(4 года 10 месяцев)

У идиотов  специалистов не хватило ума задублировать АВР?

Не встречал АВР, который может не сработать.

А ручками совсем не судьба была переключиться на генераторы?

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 1 месяц)

По информации компании - смогли, и сделали быстро. Всего то за несколько часов...

Аватар пользователя GD_SPb
GD_SPb(9 лет 6 месяцев)

Встречал.

Но руками все переключается

Аватар пользователя feodor89
feodor89(6 лет 3 месяца)

Руками нужен правильный специалист. Пока разбудили, пока похмелили, пока довезли 

Вот часов 5 и прошло

 

Аватар пользователя Er0p
Er0p(9 лет 1 месяц)

Было за последние 14 лет. Про 50 наперед никто не обещал.

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 1 месяц)

для обеспечения еще более отказоустойчивой инфраструктуры в будущем.

Как бы - обещали...

Или они доступность считают без учета реальных простоев?

Аватар пользователя GD_SPb
GD_SPb(9 лет 6 месяцев)

АВР не надо дублировать. АВР должен иметь ручной запуск.

Ну и человека хоть какой-нибудь квалификации.

И топливо не тырить.

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 1 месяц)

Там топлива было 140 тонн. Случайно - не стыришь.

А АВР, как и все каналы распределения - надо дублировать в обязательном порядке, коль скоро хочешь иметь хотя бы три девятки.

Аватар пользователя ОзЁров
ОзЁров(6 лет 11 месяцев)

Ну так они же сейчас все на алгоритмах . Все переключения и подключения - дистанционно.

Сейчас такие "специалисты" , что даже не знают где рубильники расположены и тем более как они выглядят и уж тем более как их переключать .smile8.gif

 

Аватар пользователя Aijy01
Aijy01(11 лет 8 месяцев)

Что? 

А как же старый добрый рубильник?????

У меня на даче за 10 лет "1 категория" (после ИБП) выключалась только ВРУЧНУЮ, для ремонта или переделки электропроводки.

Условно, "ни единого разрыва!" 

Лошары. 

Аватар пользователя theshowcase
theshowcase(11 лет 6 месяцев)

Специально на Хабр глянул, а там тишина на данную тему. Когда я работал на флоте, на тех ещё советских компонентах ГРЩ переход в случае аварии со вспомогача на резервный генератор автоматически полторы минуты делал на нашем проекте судна. Техника 50х годов была, дослуживала.

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 1 месяц)

Скажу по-секрету, сейчас в проекты обычно закладывают порядка 15 минут на старт дизелей и выведение их на нужную мощность (если не ДИБП). Тут понадобилось несколько часов.

Аватар пользователя theshowcase
theshowcase(11 лет 6 месяцев)

Не, у нас на навесной генератор на главном уже запущенном перекидывалось, потому не 15 мин. Вспомогач же на режим минут 5 выводился.

Аватар пользователя забодайка
забодайка(7 лет 10 месяцев)

Скажу по-секрету,

Ещё лет пять назад, на М1 было 25 мин.    И это было ТИР 3.    Если сейчас 15 мин, то  это какой  нынче уровень?

Про девятки ничего не слышал

Девятка- был цод  АТС -9

 

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 1 месяц)

ТИР 3 - это не про надежность, а про обслуживаемость.

15 минут - это время, за которое современный дизель реально запустить максимум с третьего раза - и вывести на режим. 

Можно больше - но тогда аккумуляторов на ИБП надо вешать больше, а они дорогие и менять их надо раз в пять лет. 

Аватар пользователя amorales
amorales(7 лет 6 месяцев)

Ну есть же ещё ДДИБП, там вообще без просадки напряжения дизель запускается. 0 секунд прирывание

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 1 месяц)

Да, ДДИБП - бывают. Но не везде. Это раз.

На самом деле любой "ИБП" - это как раз устройство, которое предназначено чтобы исключить прерывание подачи электроэнергии. Динамический - или статический - не важно.

Я же писал про дизель-генератор. Так вот, в составе ДДИБП - тоже есть дизельный мотор. Который, в нормальном состоянии - заглушен. Ротор генератора крутится, маховик крутится - и при пропадании внешнего питания подается команда на пуск дизеля. Но он ведь не обязан запуститься! Конечно, это из ряда вон выходящая ситуация при нормальном обслуживании - но она возможна. И после запуска движок всё равно должен набрать мощность и раскрутить генератор. В случае ДДИБП - это будет быстро, поскольку ротор генератора и так уже крутится. 

Аватар пользователя vadim144
vadim144(12 лет 5 месяцев)

   Волне возможно, что кто-то решил ночную торговлю металлом остановить. И приказали ЦОД обрушить.

Аватар пользователя redial
redial(4 года 9 месяцев)

И в очередной раз, тренер проигравшей команды заявил журналисту, что в следующий раз они будут играть ЕЩЁ лучше...

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 1 месяц)

Ага. И - что важно - все ему поверили. Джентельмен ведь!

 

Аватар пользователя Барсук
Барсук(3 года 1 месяц)

А зачем Фрейнлих на фасад прилепили?

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 1 месяц)

Это не я. Это они. Чего-​то задумали. Или так всех пытались предупредить о том, что у природы нет плохой погоды...

Аватар пользователя jerry
jerry(11 лет 4 месяца)

Это Энди Уорхол, похоже.

Аватар пользователя gruzzy
gruzzy(9 лет 11 месяцев)

Этож молодой Аркадий Райкин!

Аватар пользователя Vladyan
Vladyan(9 лет 1 месяц)

Хорошо хоть не Кикабидзе. 

"Ларису Ивановну хочу!"  smile3.gif

Скрытый комментарий Повелитель Ботов (без обсуждения)
Аватар пользователя Повелитель Ботов

Перспективный чат детектед! Сим повелеваю - внести запись в реестр самых обсуждаемых за последние 4 часа.

Комментарий администрации:  
*** Это легальный, годный бот ***
Аватар пользователя Repptilia Vulgaris
Repptilia Vulgaris(2 года 10 месяцев)

Очевидно же, что отключение или отказ чего-то в требуемое время - это тоже очень мощный и прибыльный инструмент во всех отраслях человеческой деятельности. Невозможно себе позволить не использовать его ) 

Аватар пользователя Моисей Абрамович

Неистово плюсую!

Все обсуждают технические аспекты произошедшего и изумляются, какие же идиоты работают энергетиками в ЦОДах, опуская при этом самое простое объяснение - отключение куска системы, завязанного на данное заведение было кому-то нужно, и отключение было намеренно осуществлено компанией-оператором. А подходящее объяснение придумали потом.

Теперь представьте, что таким же образом положат центры обработки для связи, логистики и энергетики в зацифровизированной "по самое не балуйся" городской агломерации. Ну и до кучи, ваш Personal ID перестанет подтверждаться на входе в супермаркет. Потом, если доживете, вам объяснят что это была коварная хакерская атака. Проверить истинность данного утверждения у вас не будет ровно никакой возможности.

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 1 месяц)

Я порой - тоже сторонник конспирологических теорий. Но это, к сожалению - не тот случай. Ибо как пишут - во-первых, задело кучу других клиентов. А во-вторых - биржа в телефонном режиме (по-старинке, через звонки брокерам с поручениями) продолжала работать. 

Аватар пользователя Repptilia Vulgaris
Repptilia Vulgaris(2 года 10 месяцев)

Да тут и конспирологии-то нет. Ведь столько можно всякого "нужного и интересного" сделать таким образом. А что кого задело, так лес рубят, щепки летят, как известно ) Опять же, кого надо, тех и предупредить несложно.

 

Аватар пользователя Escander
Escander(5 лет 6 месяцев)

Девятки-то урезать будут?

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 1 месяц)

Судя по тексту компании - только наращивать... :-)

То есть теперь мы все документально понимаем чего стоят пять девяток в Лондонском ЦОДе. Ждем шесть девяток!

Аватар пользователя Starcon
Starcon(6 лет 2 месяца)

Деградация инфраструктуры на марше...

Аватар пользователя ДоброКот
ДоброКот(10 лет 1 неделя)

А теперь, по итогам, у них сколько девяток за год и за последние 14 лет всё время существования?

Аватар пользователя Mr.Wolf
Mr.Wolf(5 лет 1 месяц)

Если пользоваться лженаукой математикой - то ХЗ. Ибо за токое вообще принято лишать всяких упоминаний о надежности. 

Но ведь джентельмены не напрасно относят математику к лже-наукам... Так что, думаю - будет не менее пяти. Иначе как им перед акционерами отчитываться?

Аватар пользователя Евгений64
Евгений64(5 лет 9 месяцев)

Пять лет назад у них было подобное

-"Подобные отключения на LME уже случались ранее. К примеру это было в 2016 году. Тогда торги возобновились через четыре часа."-

https://www.bloomberg.com/news/articles/2016-07-22/london-metal-exchange...

Страницы