Miliardy dat v ohrožení: nejčastější příčiny, proč selhávají i nejmodernější datová centra

Datová centra slouží jako úložiště a zpracovávají obrovské objemy dat, která pohánějí cloudové služby, e-commerce, sociální sítě a mnoho dalších oblastí. I když je navrhují tak, aby byla maximálně spolehlivá, stejně se můžou potýkat s různými problémy. Podíváme se na nejčastější problémy, které správcům datových center způsobují vrásky na čele, a prozradíme, co je jejich příčinou.

Výpadky napájení 

Největším strašákem pro každé datové centrum jsou výpadky napájení. Jak vážné to může být, ukázal případ z roku 2017, kdy výpadek proudu v londýnském datovém centru British Airways způsobil zrušení více než stovky letů a chaos na letištích. I když měla serverovna záložní systémy, ty selhaly. A není to ojedinělý případ.

Pokud selžou záložní zdroje, pak i krátkodobý výpadek elektřiny způsobí okamžité zastavení všech systémů. Datová centra sice zpravidla mají záložním generátory a UPS systémy (nepřerušitelné zdroje napájení), ale i ty občas selžou. Nejčastěji kvůli baterii – pokud se pravidelně netestují a neobměňují, nemusí v kritický okamžik zafungovat a dodat tolik potřebou energii.

Přehřívání serverů 

Obrovské množství výkonných serverů v datovém centru generuje také nezměrné množství tepla. Proto je chlazení jednou z priorit, kterou musí mít datová centra perfektně funkční. Stačí výpadek klimatizace nebo nesprávně navržené proudění vzduchu a teplota rychle vyletí nad bezpečnou úroveň. Servery se pak automaticky vypínají, aby předešly poškození. V horším případě dokonce vznikají i nevratná poškození hardwaru. Systémy také nejsou často vybavené k tomu, aby se vypořádaly s rekordními vlnami veder z posledních let.

Jeden z nejznámějších případů se stal v roce 2022, kdy během vlny veder došlo k výpadku Google Cloud a Oracle Cloud v Londýně – chlazení nestíhalo odvádět teplo při extrémních venkovních teplotách přes 40 °C. 

Lidský faktor 

Přestože datová centra už dneska směřují k maximální automatizaci, stále tu má svou významnou roli člověk. A lidé občas chybují. Špatně nastavená konfigurace síťových prvků, nesprávně provedená údržba nebo omylem odpojený důležitý kabel – to vše způsobuje značné problémy. Někdy stačí jediný překlep v nastavení a část serverovny přestane pracovat.

Například v roce 2017 došlo k masivnímu výpadku služeb Amazon AWS S3, který postihl velkou část amerického internetu – a příčinou bylo to, že technik při údržbě systému udělal chybu v terminálovém příkazu. Ten pak kromě víceméně nepotřebných serverů restartoval i další z nich a spustila se lavina. Nakonec výpadek dospěl do bodu, kdy bylo nutné postupně restartovat všechny dílčí servery S3, což trvalo asi čtyři hodiny.

Podobných případů se již stala celá řada. Proto datová centra zavádějí systémy prevence podobných chyb – například vyžadují schválení kritických příkazů více osobami nebo používají automatické kontroly konfigurací.

Kybernetické útoky 

Nesmíme opomenout ani fakt, že jsou datová centra terčem kybernetických útoků. Vzpomeňme na rok 2011, kdy se česká aukční platforma Aukro.cz stala terčem DDoS útoku, který přetížil servery v datovém centru polské centrály. Tento útok způsobil dočasnou nedostupnost portálu pro uživatele. Kromě útoků zvenčí se datacentra potýkají i s běžnějšími síťovými potížemi – přetížením ve výkonnostních špičkách, výpadky připojení nebo problémy se směrováním dat.

Centra se proto na kyberbezpečnost obzvláště zaměřují a mají zpravila mnohem lepší zabezpečení, než kterého by byla schopná většina firem. To ale neznamená, že útočníky nelákají, naopak. 

Jak problémům předcházet?

Zkušenosti z provozu datových center ukazují, že většině problémů se dá předejít pravidelnou údržbou a monitoringem. Správci proto zavádějí automatické systémy, které sledují všechny zásadní parametry – od teploty přes zatížení sítě až po stav baterií v záložních zdrojích. Důležitá je samozřejmě také pravidelná modernizace vybavení a školení personálu.

Běžně se také uplatňuje redundance – důležité systémy jsou zdvojené nebo ztrojené, data se zálohují na geograficky oddělená místa. Díky tomu – i když jeden systém selže, provoz datového centra může běžet dál. 

Tip: Víte, že monitoring datových center v reálném čase zabrání podle predikcí odborníků až 60 % incidentů? Přečtěte si o tom více na adrese https://neutralne.cz/vite-ze-monitoring-datovych-center-v-realnem-case-zabrani-podle-predikci-odborniku-az-60-incidentu/.

Zdroj foto: Pixabay

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *