We współczesnych firmach jednym z najistotniejszych elementów, który wpływa nie tylko na rynkową konkurencyjność przedsiębiorstwa, ale również na jego sprawne działanie, jest zagwarantowanie szeroko rozumianej ciągłości biznesowej. W wypadku systemów i infrastruktury IT zapewnienie tej ciągłości sprowadza się przede wszystkim do zdefiniowania i realizacji procesów odtwarzania awaryjnego (Disaster Recovery, DR). Chodzi tu opracowanie zbioru polityk, procesów oraz procedur związanych ze wznowieniem i utrzymywaniem działania systemów i infrastruktury IT o znaczeniu krytycznym dla biznesu. Disaster Recovery Center odgrywa kluczową rolę w zapewnieniu dostępności usług i szybkiego odzyskiwania danych, nawet w przypadku poważnych awarii głównego centrum danych.
Innymi słowy, Disaster Recovery, czyli wspomniany przed chwilą zbiór procedur i procesów związanych z odtwarzaniem ciągłości biznesowej przedsiębiorstwa po katastrofie lub innej awarii, jest częścią szerszej koncepcji określanej jako Business Continuity Managament. Koncepcja ta obejmuje swoim zasięgiem przywrócenie do działania wszystkich obszarów organizacji po nagłym, niespodziewanym zdarzeniu o charakterze katastrofy lub awarii na skalę całego przedsiębiorstwa. Może być to zarówno katastrofa naturalna, taka jak pożar, trzęsienie ziemi powódź czy zalanie, jak również poważna awaria systemów krytycznych przedsiębiorstwa spowodowana czynnikiem technicznym bądź ludzkim – i to zarówno przypadkowym, jak i celowym.
Należy jednak pamiętać, że Disaster Recovery koncentruje się wyłącznie na przywróceniu działania krytycznych procesów biznesowych w obszarze IT, lub szerzej ICT, a nie na przywróceniu ciągłości działania całego przedsiębiorstwa. Warto tu też podkreślić, że w praktyce o procedurze Disaster Recovery mówi się najczęściej w kontekście dużych awarii, takich jak np. awaria serwerowni, wszystkich komputerów w firmie czy wręcz awarii całego centrum danych. Disaster Recovery nie dotyczy pojedynczych stacji roboczych czy serwerów. Tutaj za przywrócenie ciągłości działania odpowiadają procedury związane z backupem i awaryjnym odtwarzaniem danych z kopii bezpieczeństwa. Recovery Center działa 24/7 i jest geograficznie oddalone od głównej infrastruktury, co zapewnia ciągłość działania aplikacji bez zauważalnych przestojów dla użytkowników.
Disaster Recovery Plan, czyli DRP
Do niedawna o procedurach Disaster Recovery mówiono w odniesieniu do dużych systemów informatycznych i telekomunikacyjnych, zwłaszcza w kontekście całego centrum danych. Przed tego typu katastrofami zabezpieczały się do niedawna jedynie duże, międzynarodowe organizacje i korporacje – takie jak, przede wszystkim, banki i instytucje finansowe lub operatorzy telekomunikacyjni, a więc firmy, których istnienie zależy od ciągłego dostępu do usług, gdzie każda, nawet najmniejsza przerwa generuje ogromne, liczone w setkach milionów dolarów straty.
Obecnie w procedury Disaster Recovery inwestują średnie i duże firmy o rozproszonych strukturach. Innymi słowy są to najczęściej przedsiębiorstwa wielooddziałowe, często z oddziałami porozrzucanymi po całym świecie, gdzie awaria systemu lub infrastruktury IT uniemożliwia normalne funkcjonowanie przedsiębiorstwa. Zastosowanie Disaster Recovery umożliwia bowiem skrócenie czasów RTO (Recovery Time Objective) i RPO (Recovery Point Objective) do poziomu bliskiemu 0, dzięki czemu firma może funkcjonować praktycznie bez przerwy, o czym za chwilę, nie obawiając się większych awarii czy katastrof.
Najważniejszym dokumentem przy opracowywaniu strategii Disaster Recovery, jest Disaster Recovery Plan, czyli Plan Awaryjny. Tego typu plan opisuje całość zastosowanego rozwiązania i musi zawierać takie elementy, jak: analizę ryzyka i wymagań biznesowych, katalog procesów oraz aplikacji objętych planem z określeniem ich parametrów oraz schemat organizacyjny dla projektu klasy Disaster Recovery. Schemat organizacyjny musi zawierać rozróżnienie na schemat, który odpowiada strukturze organizacyjnej przy zwykłej, codziennej pracy oraz schemat struktury organizacyjnej, która to struktura obowiązuje w czasie katastrofy lub awarii – podobnie jak ma to miejsce w armii w czasie pokoju i wojny. Oprócz tego w dokumencie DRP znaleźć się muszą schematy i procedury procesów związanych z samym procesem Disaster Recovery oraz różne scenariusze działań podejmowanych w wypadku awarii lub katastrofy. Oczywiście, Plan Awaryjny jest dokumentem żywym, który podlega cyklicznym rewizjom i zmianom związanym z rozwojem firmy zarówno pod względem technologicznym, jaki organizacyjnym.
Cała idea Disaster Recovery Plan opiera się na przeprowadzeniu kalkulacji ryzyka związanego z utratą firmowych danych zanim jeszcze do niej dojdzie. Zakłada się tutaj, że w każdej chwili może dojść do niemożliwej do przewidzenia awarii, o znacznym zasięgu, która może sparaliżować działanie infrastruktury systemów IT i w konsekwencji działanie całości lub części przedsiębiorstwa. Patrząc na powyższe punkty, które opisują co powinien zawierać Plan Awaryjny, widać wyraźnie, że plan ten w momencie awarii systemu, pozwoli nam uniknąć gorączkowej i chaotycznej akcji ratunkowej, która przynosi zazwyczaj więcej strat niż pożytku.
Kalkulacja ryzyka
Aby przygotować kalkulację ryzyka, musimy w tym celu wziąć pod uwagę dwa najważniejsze, wspomniane już wskaźniki – RPO i RTO. Pierwszy z nich określa jak długo firma może sobie poradzić bez dostępu do swoich danych, a po przywróceniu – na ile są aktualne. Innymi słowy, czas ten mówi na jak długą przerwę w działaniu systemu firma może sobie pozwolić i sprzed ilu godzin dane mają charakter kluczowy. RPO umożliwia oszacowanie jakie będą straty i ile mogą one kosztować przedsiębiorstwo. W wypadku giełdy czy międzynarodowego banku inwestycyjnego wskaźnik RTO to dosłownie sekundy, w wypadku zaś małego, niszowego sklepu internetowego, nawet dzień przestoju nie powinien spowodować zbyt dużych strat związanych z prowadzeniem biznesu. W tym ostatnim wypadku, dane z backupu wykonanego w nocy, mające czas RPO na poziomie 24 godzin powinny w zupełności wystarczyć.
Z kolei parametr RTO określa maksymalny czas, w którym konieczne jest odzyskanie danych i pełne wznowienie działania systemu. W celu oszacowania tego parametru należy wziąć pod uwagę pierwszy wskaźnik RPO, a także możliwości infrastruktury informatycznej, przepustowość sieci oraz pracowników działu IT. Warto pamiętać, że zgodnie z danymi statystycznymi zebranymi dla rynku amerykańskiego, 93% przedsiębiorstw, które nie miały dostępu do kluczowych danych dłużej niż dziesięć dni, upadło w ciągu roku od awarii, a 50% z nich zbankrutowało od razu.
Jak już wspomnieliśmy, w szacowaniu obu wskaźników istotne jest prawidłowe ustalenie potencjalnych strat dla przedsiębiorstwa związanych z awarią oraz kosztów wdrożenia systemu Disaster Recovery. Wszystkie te koszty muszą się wzajemnie bilansować. Warto też pamiętać, że według klasyfikacji SHARE istnieje obecnie siedem poziomów dla zabezpieczeń klasy Disaster Recovery – od najprostszych systemów backupu, w których Plan Awaryjny nie jest zdefiniowany, a czas odtworzenia nie jest określony, po automatyczne, trwające milisekundy przełączanie się na zapasowe centrum danych. To dlatego istotne jest zastanowienie się również nad tym, jakie rozwiązania będą odpowiednie dla naszej firmy i infrastruktury. Najczęściej, najlepiej zainwestować w szybsze i bezpieczniejsze systemy backupowe, takie jak np. dostępny w chmurze Xopero Cloud dysponujący elementami dużego systemu Disaster Recovery, który ochroni krytyczne z punktu widzenia działalności firmy procesy. W innym wypadku warto zrezygnować z samodzielnego przywracania kopii zapasowej i zdecydować się, aby nasze dane chroniła zewnętrzna firma, która zrobi to szybko i sprawnie.
Co to jest Disaster Recovery Plan (DRP)?
Kluczowe elementy skutecznego DRP
Skuteczny Disaster Recovery Plan (DRP) to nie tylko zbiór procedur, ale przede wszystkim kompleksowe podejście do zarządzania ryzykiem i ochrony środowiska IT. Kluczowe elementy skutecznego DRP to:
- Procesy, procedury i polityki – jasno zdefiniowane procesy, procedury i polityki są niezbędne do zarządzania awariami w środowisku IT. Muszą one obejmować wszystkie aspekty odtwarzania systemów, w tym tworzenie kopii zapasowych, monitorowanie systemów oraz procedury odzyskiwania danych.
- Zespół ds. odtwarzania awaryjnego – oddelegowanie odpowiedniego zespołu pracowników pozwoli zachować organizacji odpowiednią operacyjność w sytuacji wystąpienia realnego incydentu. Zespół ten powinien być odpowiedzialny za tworzenie, wdrażanie oraz monitorowanie Disaster Recovery Plan, a także za zarządzanie procesami odzyskiwania danych po awarii.
- Testowanie i optymalizacja – regularne testowanie oraz optymalizowanie planu Disaster Recovery jest niezbędne, aby móc zachować zawsze aktualną i efektywną strategię odzyskiwania danych po awarii. Testy pozwalają na identyfikację potencjalnych problemów i ich eliminację zanim dojdzie do rzeczywistej awarii.
- Kopie zapasowe – kopia zapasowa krytycznych danych jest niezbędnym elementem każdego planu awaryjnego. Regularne tworzenie kopii zapasowych oraz ich przechowywanie w bezpiecznym miejscu, takim jak zapasowe centrum danych, zapewnia, że dane będą dostępne nawet w przypadku poważnej awarii.
- Recovery Point Objective (RPO) i Recovery Time Objective (RTO) – określenie RPO i RTO pozwoli organizacji na ustalenie priorytetów i zaplanowanie działań w przypadku awarii. RPO określa, ile danych firma może sobie pozwolić stracić, natomiast RTO określa maksymalny czas, w którym systemy muszą zostać przywrócone do działania.
Zespół ds. odtwarzania awaryjnego
Oddelegowanie odpowiedniego zespołu pracowników pozwoli zachować organizacji odpowiednią operacyjność w sytuacji wystąpienia realnego incydentu. Zespół ds. odtwarzania awaryjnego powinien składać się z osób odpowiedzialnych za:
- Tworzenie, wdrażanie oraz monitorowanie Disaster Recovery Plan – zespół musi być odpowiedzialny za opracowanie i aktualizację planu odzyskiwania, a także za jego wdrożenie i monitorowanie.
- Zarządzanie procesami odzyskiwania danych po awarii – zespół powinien koordynować wszystkie działania związane z odzyskiwaniem danych, w tym przywracanie kopii zapasowych i uruchamianie systemów.
- Współpracę z innymi zespołami – zespół ds. odtwarzania awaryjnego musi współpracować z innymi zespołami w organizacji, aby zapewnić ciągłość działania środowiska IT. Współpraca ta obejmuje zarówno komunikację wewnętrzną, jak i zewnętrzną, w tym z dostawcami usług IT i partnerami biznesowymi.
Podsumowanie
Disaster Recovery Plan (DRP) to nieodzowny element strategii każdego przedsiębiorstwa działającego w branży e-commerce. Skuteczny DRP pozwoli organizacji na zapewnienie ciągłości działania środowiska IT po wystąpieniu awarii, minimalizację strat finansowych i szybkie przywrócenie działania sklepu. Wdrażając kompleksowy plan odzyskiwania, firmy mogą zabezpieczyć swoje wrażliwe dane klientów i zapewnić, że nawet w przypadku poważnej awarii, operacje będą mogły być szybko wznowione. Disaster Recovery plan DRP p to klucz do utrzymania stabilności i bezpieczeństwa operacyjnego w dynamicznym środowisku biznesowym.