Это сердце, которое качает жизнь в каждую жилку компании. Пока оно бьется ровно, никто о нем не вспоминает. Зато стоит случиться перебоям, как весь организм бизнеса начинает биться в конвульсиях, теряя деньги, клиентов и, что гораздо хуже, доверие.
И знаете, какой самый главный парадокс? Современный бизнес так сильно зависит от технологий, что вопрос уже не в том, случится ли авария, а в том, готовы ли мы к ней. В статье разберемся, какие факторы чаще всего приводят к сбоям и какие уроки извлечены из самых громких инцидентов. Мы поговорим не о сухой теории, а о том, что происходит на самом деле, когда «все сломалось», и как этого избежать.
Громкие ЧП, ставшие легендами
В мире IT-инфраструктуры есть свой фольклор — истории о сбоях, которые стали притчей во языцех и до сих пор служат наглядными уроками. Каждая такая история — это не просто новостной заголовок, а детальный разбор, который показывает, насколько хрупка на самом деле может быть многомиллионная инфраструктура.
Молния-убийца против Microsoft Azure
В 2018 году мощный разряд молнии в Техасе стал причиной одного из самых громких сбоев в истории Microsoft Azure. Казалось бы, молния — это же природный катаклизм. Что тут можно поделать? Но дьявол, как всегда, кроется в деталях.
Молния вызвала скачок напряжения, который не просто повредил электропитание, а, что самое обидное, вывел из строя системы охлаждения. И вот тут начался настоящий кошмар.
Температура в одном из залов начала расти так быстро, что оборудование, чтобы защитить себя, начало экстренно отключаться. Но даже этот защитный механизм не сработал достаточно быстро: часть серверов, сетевого оборудования и блоков питания просто «сгорела», не успев завершить штатный шатдаун.
И это было только начало. Восстановление заняло 21 час, что стало «самым долгим сбоем в истории VSTS». Но ирония ситуации в том, что даже сайт статуса Azure, который должен был информировать клиентов, тоже был недоступен, и команде пришлось общаться с пострадавшими пользователями через Twitter.
Эта история — идеальный пример того, как один, казалось бы, внешний фактор запускает целую цепочку внутренних системных проблем, которые можно было предотвратить.
Белка-диверсант против Yahoo
А вот это уже классический анекдот, который, к сожалению, является чистой правдой. В 2010 году рядом с дата-центром Yahoo в Санта-Кларе белка решила, что питающие кабели — это отличная закуска. Она их перегрызла, вызвав замыкание и отключение половины дата-центра.
Звучит смешно, правда? Но на самом деле это не просто забавный случай. Эксперты говорят, что такие инциденты с грызунами — не такая уж и редкость. Это идеальный пример того, как маловероятное, но не невозможное событие может привести к катастрофе, если инфраструктура спроектирована с единственной точкой отказа. В данном случае это была одна линия питания.
Если бы ЦОД использовал по-настоящему резервированные линии, идущие от разных подстанций и по разным физическим маршрутам, то белка просто не смогла бы нанести такой ущерб.
Британские авиалинии и «скачок напряжения»
В 2017 году British Airways пережила настоящий IT-апокалипсис, который стоил компании более 100 миллионов долларов и оставил 75 000 пассажиров без рейсов. Изначально CEO компании заявил, что причиной был «мощный скачок напряжения», который якобы вывел из строя даже резервные системы.
Но эксперты в голос заявили: что-то здесь не так. Любой приличный дата-центр оборудован защитой от скачков напряжения. Один такой инцидент не должен был привести к полному коллапсу, если только дизайн не был «плохим».
Позже выяснилось, что причиной стал «неконтролируемый возврат энергии» после сбоя, то есть сбой в электропитании и неудачная процедура восстановления, который повредил физические серверы. Этот пример показывает, что часто за простым объяснением скрываются системные просчеты и халатность, которые можно и нужно было предотвратить.
Российские ЧП
Свои легенды есть и у нас. Например, пожар в московском ЦОД OST в 2019 году, который ранее считался одним из самых надежных в России. Там короткое замыкание в проводке, ведущей к кондиционерам, повредило систему охлаждения и обесточило один из залов. В результате 780 виртуальных машин стали недоступны на несколько часов.
Еще один пример — крупный сбой в одном из ЦОД «Яндекса» в марте 2025 года. Там причиной стала неисправность на питающей подстанции, которая одновременно отключила обе независимые линии электропередачи.
Инцидент | Причина сбоя | Последствия | Вывод |
Microsoft Azure (2018) | Молния вызвала скачок напряжения, который повредил системы охлаждения | Перегрев оборудования, экстренное отключение, повреждение части серверов, 21 час на восстановление | Непредвиденные внешние факторы могут выявить слабые места в защите |
Yahoo (2010) | Белка перегрызла кабель электропитания | Отключение половины дата-центра | Экзотические причины реальны. Важна истинная, физически разделенная резервируемость |
British Airways (2017) | «Неконтролируемый возврат энергии» после сбоя питания | Отмена рейсов, застрявшие пассажиры, более $100 млн ущерба | За простым объяснением часто скрываются системные ошибки в дизайне |
ЦОД OST (2019) | Короткое замыкание в проводке кондиционеров | Повреждение охлаждения, отключение зала, недоступность 780 виртуальных машин | Неисправности в инженерной инфраструктуре могут быть не менее опасны, чем внешние воздействия |
«Яндекс» (2025) | Неисправность на питающей подстанции | Отключение обеих независимых линий питания | Важна не только физическая независимость, но и независимость питающих источников |
Причины, по которым «все сломалось»
Однако большинство аварий происходит по вполне прозаичным причинам. И самое опасное в них то, что одна небольшая проблема может запустить цепную реакцию и обрушить всю систему.
Электрический удар — номер один в хит-параде
Если спросить любого специалиста по ЦОД, что выходит из строя чаще всего, он, не задумываясь, ответит «электричество». По данным Uptime Institute, проблемы с питанием — самая частая причина серьезных сбоев, которая стоит за 36% всех аварий.
Причем часто виноваты не столько внешние факторы (гроза, поломка на линии), сколько внутренние — например, отказ аккумуляторов ИБП (источников бесперебойного питания).
Механизм сбоя обычно такой: отключается внешнее питание, система переходит на ИБП, затем должны запуститься дизель-генераторы. Но если что-то идет не так, например, ИБП отказывает или генераторы не запускаются, то начинается самое неприятное: каскадное отключение.
Температурный коллапс — «горячий» враг
Вторая по частоте причина простоев — это перегрев. По данным исследований, на проблемы с охлаждением приходится около 13% всех аварий. Но не нужно думать, что от перегрева серверы просто начинают «тормозить».
Как и в случае с молнией, серверы оборудованы защитой: при превышении критической температуры они экстренно отключаются. И если это происходит массово, то весь ЦОД оказывается в ауте.
Самая частая причина перегрева — не отказ кондиционера, а банальная рециркуляция горячего воздуха. Это когда горячий воздух, выходящий из задней части серверов, по каким-то причинам возвращается в «холодный» коридор, откуда поступает воздух для охлаждения.
В итоге система охлаждения начинает «сражаться сама с собой», а на отдельных стойках появляются «горячие точки», где оборудование быстро перегревается и отключается.
Огненный дракон
Риск возгораний в ЦОД вполне реален. Чаще всего пожары возникают из-за коротких замыканий, перегрева оборудования или проблем с проводкой. Но здесь есть своя специфика: если при обычном пожаре мы используем воду, то в ЦОД это исключено, так как она уничтожит оборудование.
Для тушения в ЦОД используют так называемые «чистые агенты», например, газы типа Inergen или Novec 1230. Они работают по принципу снижения концентрации кислорода в помещении до уровня, при котором горение становится невозможным (около 12,5%), но при этом этот уровень остается безопасным для человека, который может находиться в помещении.
Экзотика и форс-мажоры
Помимо банальных причин, бывают и совсем уж дикие, как в случае с белкой. Вот еще несколько примеров, которые кажутся анекдотами, но на деле приводят к миллионным убыткам.
Грызуны и насекомые. Они устраивают короткие замыкания, перегрызают кабели и строят гнезда в самых неподходящих местах.
Вода. Прорывы водопроводных труб или банальные протечки с крыши случаются чаще, чем хотелось бы.
Вибрации. Строительные работы по соседству могут вызывать вибрации, которые со временем повреждают оборудование и линии связи.
Стрельба. Есть примеры, когда оптоволоконные кабели становились мишенью для скучающих охотников.
Король ошибок — человек
Если бы меня спросили, кто самый страшный враг любого дата-центра, я бы ответил, не задумываясь: человек. По данным Uptime Institute, человеческий фактор — это прямая или косвенная причина 66-80% всех серьезных инцидентов. Вдумайтесь в эту цифру: две трети всех аварий так или иначе связаны с людьми.
И это не всегда банальная халатность. Типичные ошибки персонала делятся на две категории.
Несоблюдение регламента. В 58% случаев персонал просто не следовал существующей инструкции.
Неправильный регламент. В 45% случаев сама процедура была изначально неверной или неполной.
Примеры из практики:
случайное отключение сетевого или питающего кабеля;
неправильная настройка системы или случайное удаление виртуальной машины;
активация аварийного выключателя EPO (Emergency Power Off), когда это было не нужно.
Самая большая проблема в том, что человеческая ошибка — не просто ошибка одного конкретного человека. Это симптом системных проблем: усталости (люди чаще ошибаются, когда они утомлены), плохо прописанных инструкций, недостатка обучения или, что самое важное, отсутствия автоматизации.
Именно поэтому автоматизация — не модное словечко, а самый логичный и прямой ответ на проблему человеческого фактора. Она позволяет исключить рутинные подверженные ошибкам действия и позволяет людям сфокусироваться на действительно важных вещах.
Спасательный круг или как создать ЦОД-крепость
Но не все так плохо. Чтобы защитить свой бизнес, нужно мыслить, как архитектор крепости — строить многоуровневую защиту, чтобы провал на одном уровне не стал фатальным.
Резервное питание: N+1 и 2N на пальцах
Когда мы говорим о резервировании, мы используем букву N. Что она значит? Это минимальное количество оборудования, которое нужно для работы ЦОД на полной нагрузке.
Схема N+1 — самый базовый уровень. Представьте, что у вас есть 4 ИБП (N=4) и еще один, пятый, про запас. Если один из четырех выйдет из строя, запасной возьмет его нагрузку. Это как иметь запасное колесо в машине. Дешевле и проще, но защищает только от одного сбоя.
Схема 2N — уже совсем другой уровень. Это значит, что у вас есть два полностью независимых комплекта оборудования. Если один комплект (например, 4 ИБП) выйдет из строя, второй комплект из 4 ИБП продолжит работать. Это как иметь две одинаковых машины, работающих параллельно. Надежнее, но и дороже.
И здесь кроется очень важный нюанс. Некоторые ЦОД выдают за резервное питание две линии, идущие от одной и той же подстанции. Но, как показали случаи с белкой или сбоем «Яндекса», если сбой случится на самой подстанции, то обе линии тут же отключатся.
Настоящая отказоустойчивость требует, чтобы линии шли по разным физическим маршрутам и от разных источников.
Резервирование охлаждения
Принцип тот же. Системы охлаждения тоже должны быть избыточны, чтобы в случае отказа одного чиллера или кондиционера резервный тут же включился. Для повышения эффективности используют так называемые «горячие» и «холодные» коридоры, чтобы разделить потоки воздуха и избежать рециркуляции, о которой мы говорили выше.
Пожарная безопасность
Помимо использования «чистых агентов», в ЦОД применяются и другие меры. Например, системы раннего обнаружения дыма (системы автоматической пожарной безопасности), способные отличить реальный пожар от газовой утечки в системе охлаждения.
ИТ-резервирование: бэкапы и DRP
Резервирование касается не только физической инфраструктуры. IT-системы тоже должны быть защищены. Здесь на помощь приходят два понятия:
RTO (Recovery Time Objective) — как быстро нужно восстановить работу после сбоя;
RPO (Recovery Point Objective) — какой объем данных мы готовы потерять.
Эти две цифры определяют всю стратегию бэкапов и плана аварийного восстановления (DRP). Чем меньше RTO и RPO, тем дороже и сложнее система, но и тем быстрее можно восстановиться после ЧП.
Мониторинг и автоматизация
Мониторинг — наши глаза и уши в дата-центре. Он позволяет следить за температурой, состоянием ИБП, нагрузкой на оборудование и может оповестить о проблеме до того, как она превратится в катастрофу.
А вот следующий уровень — это предиктивная аналитика на основе ИИ. Современные системы могут анализировать исторические данные и показания датчиков, чтобы предсказать отказ оборудования еще до того, как он случится. Это позволяет заменить вышедший из строя компонент в плановом порядке, а не в пожарном.
Что делать, когда все-таки упало
Даже самая надежная крепость может пасть. И вот тут на первый план выходит не технология, а люди и процессы.
План реагирования в первые минуты
У каждого ЦОД должен быть четкий план реагирования, где расписана каждая минута после инцидента. Типовой план включает:
Обнаружение. Инцидент фиксируется (звонок в диспетчерскую, автоматическое оповещение).
Оповещение. Ответственные сотрудники получают уведомление, и каждый знает свою роль.
Сдерживание. Команда работает над локализацией проблемы, чтобы она не распространилась дальше.
Устранение и восстановление. Когда проблема локализована, начинается ее устранение и восстановление сервисов.
Клиенты: говорить, говорить и еще раз говорить
В моменты сбоя главный враг — это тишина. Если клиенты ничего не знают, они начинают нервничать, звонить в поддержку и распускать слухи. Лучшее, что можно сделать — это общаться:
мгновенно (как только вы узнали о проблеме, немедленно сообщите об этом клиентам, даже если еще не знаете причину);
регулярно (давайте обновления, даже если они сводятся к «мы все еще работаем»);
честно (признайте вину, если она есть, но без лишних эмоций и пустых обещаний. Не обещайте исправить все через 15 минут, если это не так. Клиенты ценят честность).
Используйте все каналы связи: статусную страницу, социальные сети, прямые звонки ключевым клиентам.
Разбор полетов
После того как все восстановлено, начинается самое важное — разбор инцидента, или «постмортем». Это не поиск виноватого для показательной порки, а детальный анализ произошедшего, чтобы понять коренные причины и предотвратить их в будущем.
В рамках такого анализа собирается вся хронология событий и данные мониторинга и ищутся ответы на вопросы:
что пошло не так,
почему не сработала защита,
что можно сделать, чтобы этого больше не повторилось.
Публикация таких отчетов, как это делают крупные техкомпании — отличный способ восстановить доверие клиентов и показать, что вы извлекли урок.
Если подвести черту, то в битве за надежность побеждает тот, кто играет на опережение. Тот, кто инвестирует в избыточность, в автоматизацию и в людей. И конечно, постоянно учится на чужих ошибках.
Но мир не стоит на месте, и будущее дата-центров уже не за горами — это полностью автономные ЦОД. Это самоуправляемые системы, где человек больше не нужен для рутинных операций.
Роботы на магнитных дорожках меняют вышедшие из строя диски, дроны с тепловизорами патрулируют залы, выявляя «горячие точки», а центральный ИИ управляет всем, оптимизируя нагрузку и предсказывая поломки.
Это логичный ответ на проблему человеческого фактора. Автономные системы позволяют кодифицировать лучшие практики и оптимизировать работу без риска, связанного с усталостью или давлением. Это устраняет самую главную причину сбоев.
Технологии для этого уже существуют. Вопрос лишь в том, готовы ли мы их применять. Те, кто строит многоуровневую защиту, выигрывают. Остальные — теряют данные, деньги и клиентов.



Начать дискуссию