Кога американската облачна платформа AWS падна на 20 октомври, милиони корисници низ светот одеднаш останаа без омилените апликации, плаќања и сервисите за работа. Прекинот започна во регионот US-EAST-1 во Вирџинија и се прошири како бран: Snapchat, Fortnite, Reddit, Venmo, па дури и сервиси на самиот Amazon, беа делумно или целосно недостапни. Првичните наоди укажуваат на проблем со DNS и внатрешната мрежа на EC2 што ја извади од такт инфраструктурата околу load balancer-ите; дури и кога AWS соопшти „целосно ублажување“, дел услуги се мачеа со заостанати опашки на барања. Овој инцидент повторно ја оголи ранивоста на глобалната мрежа кога критични функции се концентрирани кај мал број облачни провајдери.
Зошто ваквите падови се повторуваат? Прво, концентрациски ризик. Повеќе од две илјади компании и јавни сервиси во Европа и САД зависат од неколку дата-центар региони. Кога US-EAST-1 „кивне“, половина интернет добива температура. Експерти со години предупредуваат дека оваа архитектура создава системски ризик: дури и релативно „мала“ грешка во мониторинг подсистем може да произведе лавина.
Второ, комплексност и меѓузависности. Современите апликации се „собрани“ од десетици управувани сервиси (DNS, load balancers, опашки, бази, кешови). Кога еден слој ќе тргне наопаку, се појавува каскада – не затоа што секој дел е слаб, туку затоа што спрегите се долги и невидливи. Во овој случај, DNS резолуцијата и интерните мрежни патеки иницираа лавина на грешки која ги затрупа системите со повторни обиди и задоцнети пораки.
Трето, историјата се римува. Ова не е прв пат US-EAST-1 да го „извади кабелот“ од интернетот: забележливи прекини има во 2021 и 2023, а 2024/2025 донесоа уште неколку звучни инциденти во поширокиот екосистем. Токму овие повторувања ја јакнат тезата дека редундансата на хартија не секогаш се претвора во реална отпорност.
Што значи ова за обичниот корисник и за бизнисите? За корисникот, падот е непријатна пауза. За бизнисите, тој е ризик со цена: изгубени трансакции, нарушен углед, прекината поддршка. Не помага ниту „брзото враќање“ – опашките на пораки и заостанатите работи знаат да потреат со часови. Затоа сè погласни се повиците за третирање на хиперскелерите како критична инфраструктура со построг надзор и обврски за транспарентност.
Има ли лек? Постојат четири практични лекции. Прво, мултирегион: критичните делови да работат во барем два независни региони со активен-активен дизајн, наместо „топол резерва“ што никој не го тестира. Второ, мултиклауд каде што е рационално: барем платежни и автентикациски јадра да имаат излез на друг провајдер. Трето, „chaos engineering“ – намерно тестирање на прекини за да се открие каде архитектурата пука пред да пукне во живо. Четврто, трпелива деградација: услугите да „стареат грациозно“ (read-only, кеширани одговори, редукција на функции) наместо да паѓаат тотално. Овие принципи се стандардни, но ретко се имплементираат доследно – сè додека еден ден не стане предоцна.
Долгорочно, интернетот ќе остане кревок ако јавниот и приватниот сектор не ја распределат одговорноста порамномерно: повеќе независни точки на неуспех, појасни протоколи за известување и технички „поштенски сандачиња“ (status APIs) што ќе им овозможат на клиентите да реагираат автоматски кога облакот греши. Сè додека најголем дел од сообраќајот и логиката живеат „под ист кров“, ќе живееме и со истите ризици.