Disaster recovery cz. I – aspekty organizacyjne

We współczesnych firmach jednym z najistotniejszych elementów, który wpływa nie tylko na rynkową konkurencyjność przedsiębiorstwa, ale również na jego sprawne działanie, jest zagwarantowanie szeroko rozumianej ciągłości biznesowej. W wypadku systemów i infrastruktury IT zapewnienie tej ciągłości sprowadza się przede wszystkim do zdefiniowania i realizacji procesów odtwarzania awaryjnego (Disaster Recovery, DR). Chodzi tu opracowanie zbioru polityk, procesów oraz procedur związanych ze wznowieniem i utrzymywaniem działania systemów i infrastruktury IT o znaczeniu krytycznym dla biznesu.

Innymi słowy, Disaster Recovery, czyli wspomniany przed chwilą zbiór procedur i procesów związanych z odtwarzaniem ciągłości biznesowej przedsiębiorstwa po katastrofie lub innej awarii, jest częścią szerszej koncepcji określanej jako Business Continuity Managament. Koncepcja ta obejmuje swoim zasięgiem przywrócenie do działania wszystkich obszarów organizacji po nagłym, niespodziewanym zdarzeniu o charakterze katastrofy lub awarii na skalę całego przedsiębiorstwa. Może być to zarówno katastrofa naturalna, taka jak pożar, trzęsienie ziemi powódź czy zalanie, jak również poważna awaria systemów krytycznych przedsiębiorstwa spowodowana czynnikiem technicznym bądź ludzkim – i to zarówno przypadkowym, jak i celowym.

Należy jednak pamiętać, że Disaster Recovery koncentruje się wyłącznie na przywróceniu działania krytycznych procesów biznesowych w obszarze IT, lub szerzej ICT, a nie na przywróceniu ciągłości działania całego przedsiębiorstwa. Warto tu też podkreślić, że w praktyce o procedurze Disaster Recovery mówi się najczęściej w kontekście dużych awarii, takich jak np. awaria serwerowni, wszystkich komputerów w firmie czy wręcz awarii całego centrum danych. Disaster Recovery nie dotyczy pojedynczych stacji roboczych czy serwerów. Tutaj za przywrócenie ciągłości działania odpowiadają procedury związane z backupem i awaryjnym odtwarzaniem danych z kopii bezpieczeństwa.

Disaster Recovery Plan, czyli DRP

Do niedawna o procedurach Disaster Recovery mówiono w odniesieniu do dużych systemów informatycznych i telekomunikacyjnych, zwłaszcza w kontekście całego centrum danych. Przed tego typu katastrofami zabezpieczały się do niedawna jedynie duże, międzynarodowe organizacje i korporacje – takie jak, przede wszystkim, banki i instytucje finansowe lub operatorzy telekomunikacyjni, a więc firmy, których istnienie zależy od ciągłego dostępu do usług, gdzie każda, nawet najmniejsza przerwa generuje ogromne, liczone w setkach milionów dolarów straty.

Obecnie w procedury Disaster Recovery inwestują średnie i duże firmy o rozproszonych strukturach. Innymi słowy są to najczęściej przedsiębiorstwa wielooddziałowe, często z oddziałami porozrzucanymi po całym świecie, gdzie awaria systemu lub infrastruktury IT uniemożliwia normalne funkcjonowanie przedsiębiorstwa. Zastosowanie Disaster Recovery umożliwia bowiem skrócenie czasów RTO (Recovery Time Objective) i RPO (Recovery Point Objective) do poziomu bliskiemu 0, dzięki czemu firma może funkcjonować praktycznie bez przerwy, o czym za chwilę, nie obawiając się większych awarii czy katastrof.

Najważniejszym dokumentem przy opracowywaniu strategii Disaster Recovery, jest Disaster Recovery Plan, czyli Plan Awaryjny. Tego typu plan opisuje całość zastosowanego rozwiązania i musi zawierać takie elementy, jak: analizę ryzyka i wymagań biznesowych, katalog procesów oraz aplikacji objętych planem z określeniem ich parametrów oraz schemat organizacyjny dla projektu klasy Disaster Recovery. Schemat organizacyjny musi zawierać rozróżnienie na schemat, który odpowiada strukturze organizacyjnej przy zwykłej, codziennej pracy oraz schemat struktury organizacyjnej, która to struktura obowiązuje w czasie katastrofy lub awarii – podobnie jak ma to miejsce w armii w czasie pokoju i wojny. Oprócz tego w dokumencie DRP znaleźć się muszą schematy i procedury procesów związanych z samym procesem Disaster Recovery oraz różne scenariusze działań podejmowanych w wypadku awarii lub katastrofy. Oczywiście, Plan Awaryjny jest dokumentem żywym, który podlega cyklicznym rewizjom i zmianom związanym z rozwojem firmy zarówno pod względem technologicznym, jaki organizacyjnym.

Cała idea Disaster Recovery Plan opiera się na przeprowadzeniu kalkulacji ryzyka związanego z utratą firmowych danych zanim jeszcze do niej dojdzie. Zakłada się tutaj, że w każdej chwili może dojść do niemożliwej do przewidzenia awarii, o znacznym zasięgu, która może sparaliżować działanie infrastruktury systemów IT i w konsekwencji działanie całości lub części przedsiębiorstwa. Patrząc na powyższe punkty, które opisują co powinien zawierać Plan Awaryjny, widać wyraźnie, że plan ten w momencie awarii systemu, pozwoli nam uniknąć gorączkowej i chaotycznej akcji ratunkowej, która przynosi zazwyczaj więcej strat niż pożytku.

Kalkulacja ryzyka

Aby przygotować kalkulację ryzyka, musimy w tym celu wziąć pod uwagę dwa najważniejsze, wspomniane już wskaźniki – RPO i RTO. Pierwszy z nich określa jak długo firma może sobie poradzić bez dostępu do swoich danych, a po przywróceniu – na ile są aktualne. Innymi słowy, czas ten mówi na jak długą przerwę w działaniu systemu firma może sobie pozwolić i sprzed ilu godzin dane mają charakter kluczowy. RPO umożliwia oszacowanie jakie będą straty i ile mogą one kosztować przedsiębiorstwo. W wypadku giełdy czy międzynarodowego banku inwestycyjnego wskaźnik RTO to dosłownie sekundy, w wypadku zaś małego, niszowego sklepu internetowego, nawet dzień przestoju nie powinien spowodować zbyt dużych strat związanych z prowadzeniem biznesu. W tym ostatnim wypadku, dane z backupu wykonanego w nocy, mające czas RPO na poziomie 24 godzin powinny w zupełności wystarczyć.

Z kolei parametr RTO określa maksymalny czas, w którym konieczne jest odzyskanie danych i pełne wznowienie działania systemu. W celu oszacowania tego parametru należy wziąć pod uwagę pierwszy wskaźnik RPO, a także możliwości infrastruktury informatycznej, przepustowość sieci oraz pracowników działu IT. Warto pamiętać, że zgodnie z danymi statystycznymi zebranymi dla rynku amerykańskiego, 93% przedsiębiorstw, które nie miały dostępu do kluczowych danych dłużej niż dziesięć dni, upadło w ciągu roku od awarii, a 50% z nich zbankrutowało od razu.

Jak już wspomnieliśmy, w szacowaniu obu wskaźników istotne jest prawidłowe ustalenie potencjalnych strat dla przedsiębiorstwa związanych z awarią oraz kosztów wdrożenia systemu Disaster Recovery. Wszystkie te koszty muszą się wzajemnie bilansować. Warto też pamiętać, że według klasyfikacji SHARE istnieje obecnie siedem poziomów dla zabezpieczeń klasy Disaster Recovery – od najprostszych systemów backupu, w których Plan Awaryjny nie jest zdefiniowany, a czas odtworzenia nie jest określony, po automatyczne, trwające milisekundy przełączanie się na zapasowe centrum danych. To dlatego istotne jest zastanowienie się również nad tym, jakie rozwiązania będą odpowiednie dla naszej firmy i infrastruktury. Najczęściej, najlepiej zainwestować w szybsze i bezpieczniejsze systemy backupowe, takie jak np. dostępny w chmurze Xopero Cloud dysponujący elementami dużego systemu Disaster Recovery, który ochroni krytyczne z punktu widzenia działalności firmy procesy. W innym wypadku warto zrezygnować z samodzielnego przywracania kopii zapasowej i zdecydować się, aby nasze dane chroniła zewnętrzna firma, która zrobi to szybko i sprawnie.

Leave a Reply Anuluj pisanie odpowiedzi