
Un powszechna awaria sieci Cloudflare Wtorek spowodował globalne zakłócenia, przez które miliony użytkowników miały problemy z dostępem do popularnych usług, takich jak X y ChatGPTMiędzy innymi. Incydent, który miał miejsce w południe (czasu hiszpańskiego), uwypuklił, jak bardzo powiązana jest infrastruktura obsługująca Internet.
Amerykańska firma, kluczowa w CDN i cyberbezpieczeństwopotwierdził, że bada falę błędy 500 oraz awarie panelu sterowania i interfejsu API podczas prac nad stopniowym odzyskiwaniem danych. W Hiszpanii i w pozostałych krajach Europy mnożyły się zgłoszenia, które dotyczyły wszystkiego, od sieci społecznościowych po rozrywkę cyfrową, a w mniejszym stopniu także usług finansowych.
Chronologia występowania
Pierwsze alarmy zarejestrowano około 12:30 (czasu półwyspowego)ze szczytem problemów około godziny 13:00. Cloudflare potwierdziło sytuację krótko przed godziną 1:00, około 12:48i zaczął wdrażać środki łagodzące; 13:15 Wiele usług zaczęło odzyskiwać sprawność, chociaż w niektórych środowiskach nadal występowały drobne awarie.
Według źródeł w samej firmie wykryto nietypowy wzrost ruchu w kierunku jednej ze swoich usług 11:20Spowodowało to wysoki poziom błędów w wielu komponentach sieci. Chociaż znaczna część ruchu nadal płynęła, degradacja powodowała zauważalne przerwy w powszechnie stosowanych zastosowaniach.
Usługi o dużym wpływie objęte
Zasięg był szeroki i obejmował platformy testowe w kilku kategoriach, ze szczególnym uwzględnieniem X (dawniej Twitter) y ChatGPTZgłaszano również incydenty w narzędziach do tworzenia i przechowywania danych, grach online i niektórych witrynach korporacyjnych o dużym natężeniu ruchu, co stanowiło efekt domina niezwykłe.
- Sieci społecznościowe i komunikacja: X, Posłuchaj mnie i portalu monitorującego Downdetector Wykazywały błędy lub długi czas ładowania.
- Sztuczna inteligencja i produktywność: ChatGPT, Canva, Dropbox a niektóre usługi biznesowe były okresowo niedostępne.
- Finanse i usługi: zgłaszano problemy Coinbase i korporacyjnych stron internetowych, takich jak MoodyUżytkownicy wspomnieli o szczególnych trudnościach w takich podmiotach jak CaixaBank.
- Rozrywka i gry wideo: League of Legends i aplikacje rozrywkowe, takie jak Grindr Mieli przerwy.
- Transport i telekomunikacja: incydenty w NJ Transit i tymczasowe przerwy lub degradacja operatorów, takich jak Movistar.
Oprócz wpływu na klientów, Usługi wewnętrzne Cloudflare W ramach działań naprawczych firma wskazała konkretne działania, takie jak: tymczasowe wyłączenie WARP w Londynie w celu ustabilizowania sieci i późniejszej reaktywacji, gdy poziom błędów ulegnie normalizacji.
Co poszło nie tak i co jest znane
W swojej pierwotnej komunikacji firma określiła odcinek jako Wewnętrzna degradacja usługi i zapewniono, że wdrażane są zmiany mające na celu przyspieszenie odbudowy. Na razie Brak dowodów na atak zewnętrznyHipoteza operacyjna wskazuje na problem w obrębie własnej infrastruktury, który jest nadal w fazie analizy.
W szczytowym momencie incydentu użytkownicy napotkali powszechne błędy 500 i niepowodzeń ładowania treści, oprócz incydentów w panel sterowania i Interfejs API CloudflareFirma poinformowała, że będzie publikować aktualizacje na swojej stronie ze statusem (cloudflarestatus.com) i dogłębną analizę na jego blogu (blog.cloudflare.com).
Wpływ w Hiszpanii i Europie
Większość alertów w Hiszpanii pojawiała się wczesnym popołudniem, w godzinach pracy i podczas szczytowego korzystania z komputerów stacjonarnych. Osoby dotknięte użytkownicy indywidualni i firmy, ze szczególną widocznością w mediach społecznościowych, na platformach AI i usługi bankowe i telekomunikacyjne w którym odnotowano sporadyczne incydenty.
Dla organizacji europejskich, które są od nich zależne Cloudflare jako CDN i warstwa bezpieczeństwaSkutkiem tego były skoki opóźnień, częściowe przerwy w działaniu i błędy routingu, a zespoły IT wdrażały środki awaryjne, Powrót do zdrowia postępował w globalnej sieci firmy.
Resetowanie i następne kroki
Cloudflare ogłosiło, że poziom błędów malał Po wprowadzeniu zmian i rozprzestrzenieniu się odzyskiwania w całej sieci, priorytetem stało się natychmiastowe aby zapewnić stabilność ruchu a następnie przeprowadzić analizę przyczyn źródłowych, aby zapobiec podobnym zdarzeniom.
Incydent ten ponownie otwiera debatę na temat zależność od dużych dostawców infrastruktury. Nastąpiło to po ostatnich incydentach Awarie AWS y Lazuri podkreśla, że lokalna awaria może rozprzestrzeniać efekty na dużą skalę gdy miliony usług opierają się na tych samych krytycznych warstwach.
Upadek pozostawił jasny obraz: pojedyncze osłabione ogniwo Mogłoby to mieć reperkusje w wielu sektorach jednocześnie. Ponieważ większość platform jest już w pełni operacyjna, uwaga skupia się teraz na raporcie technicznym, który szczegółowo opisuje... Co poszło nie tak i jak temu zaradzono? i jakie zmiany zostaną wprowadzone w celu wzmocnienia odporności ekosystemu cyfrowego.
