یک روز کاری معمولی است و تیم مشغول انجام وظایف همیشگی است، ناگهان مطلع میشوید سروکله رخدادی پیدا شده است. از صدا و لحن نگران مشتری، همکار و مدیر متوجه میشوید که این رخداد یک رخداد عادی نیست. به بررسی رخداد و کارکردهایی میپردازید که بر اثر رخداد پیشآمده، به درستی عمل نمیکنند. هرچه پیشتر میروید، وسعت و عمق خرابیها بیشتر نگرانتان میکند.
ریشهیابی چنین رخدادی و پیدا کردن راهکار یا راهکار موقت برای بازگرداندن سرویس، کاری دشوار و نفسگیر است. مشتری کارکردهای اصلی سرویس خود را از دست داده و شما، گیج و آشفته، مولفههای مختلف سرویس را بررسی میکنید تا بتوانید ریشه بروز رخداد را پیدا کنید.
رخداد دامنه دار (Major Incident) استرس زا است. حتی وقتی هنوز اتفاق نیفتادهاند، ترس از بروز آنها همواره با تیمی است که قبلاً تجربه مواجه با این دست رخدادها را داشته است. انتخاب این بازی دست ما نیست، اما کاری که از ما برمیآید این است که آگاهانه، مسئولانه و منضبط با رخداد دامنه دار روبهرو شویم.
رخداد های دامنه دار کابوسهای حوزه فناوری اطلاعات (IT) هستند، بر عملکرد و نتایج کسبوکار تأثیر منفی میگذارند و روال عادی و درست امور را برهم میزنند. آنها را نمیشود دوست داشت؛ اجتنابناپذیرند. اما، پیش از به وقوع پیوستنشان، در ساحل امن نبودشان، میشود مثل امروز، اینجا نشست و برای مواجه حرفهایتر با آنها و مدیریت رخداد دامنه دار آماده شد.
در ادامه، سعی شده تا با ارائه هفت راهکار، روشهای موثری برای مدیریت رخداد دامنه دار پیش پای شما بگذاریم تا بتوانید در برابر رخدادهای احتمالی پیش رو، قویتر و حرفهایتر و سازمانیافتهتر عمل کنید.
در ITIL 4 رخداد دامنه دار چنین تعریف شده است: «رخداد هایی که تأثیر چشمگیری بر کسبوکار داشته و نیاز به تصمیمگیریهای هماهنگ و فوری دارند.» رخداد های دامنه دار ذاتاً چالشبرانگیز هستند.
۱. حقایق را در مورد رخداد پیشآمده بررسی کنید
نخستین کاری که باید در مواجهه با یک رخداد دامنه دار انجام دهید این است که مطمئن شوید در جریان همه وقایعی که اتفاق افتادهاند هستید و چیزی از قلم نیفتاده است. در ادامه، برای کمک به شما در رسیدگی به اموری که پس از بروز رخداد با آنها مواجه میشوید، چند پرسش کلیدی آماده کردهایم.
- آیا همه در امنیت هستند؟ آیا رخداد دامنه دار پیشآمده خطرات آنی در پی خواهد داشت؟ پیش از هر چیز و مهمتر از هر کاری، مطمئن شوید که افرادتان از هر خطری مصون و از همه خطرات احتمالی به دور هستند. شرایط ناراحتکنندهای است، میدانم. اما در نظر داشته باشید که این یک شرایط کاملاً واقعی است. بهویژه، اگر رخداد جاری به ژنراتورها، نگهداری UPS ها یا کارهای الکتریکی مرتبط باشد، میتوانید تصور کنید که ممکن است چه خطراتی در پی داشته باشد.
- این رخداد کدام سرویس را تحت تاثیر قرار میدهد؟
- این موضوع چه تاثیری بر کسبوکار دارد؟
- چه حوزهای از کاربران تحتتاثیر این رخداد دامنه دار قرار میگیرند؟ این موضوع بر یک تیم یا مکان مشخصی تاثیرگذار است یا تمام افراد را درگیر میکند؟
- کدام تیم پشتیبانی در حال رفع رخداد است؟ آیا افراد مناسبی درگیر موضوع هستند؟
- آیا لازم است تیمهای پشتیبانی دیگر را هم مطلع کنیم؟
- این اتفاق چه زمانی آغاز شده است؟ آیا از زمان شروع تا بدین لحظه، تغییراتی رخ داده است؟
- آیا راهکار موقتی برای حل و مدیریت رخداد دامنه دار وجود دارد؟
- آیا میتوانید تخمین بزنید که چه زمانی میتوانید سرویس را به حالت توافقشده بازگردانید؟
- آیا به کمک پیمانکارتان نیاز دارید؟
- آیا نیاز است به مشتریانتان، که درگیر موضوع خواهند شد، اطلاع دهید؟
- آیا لازم است که ملاحظات امنیتی را افزایش دهید؟
- آیا ریسک انطباقپذیری یا مُجازی وجود دارد که نیاز به افزایش داشته باشد؟
- آیا لازم است از قابلیتهایی استفاده کنید که برای بازیابی سرویس، در صورت بروز فاجعه، طراحی کردهاید؟
- آیا پیشخوان مرتبط با خدمت ارائهشده (Service Desk) قادر به پاسخگویی حجم تماسهای ایجادشده است؟
- آیا مشخص شده که چه زمانی میتوانید به مشتری قول بازیابی سرویس را بدهید؟
اطلاعات اولیه را به گونهای جمعآوری کنید که بتوانید پاسخگوی همه (یا دستکم بیشتر) پرسشهای مشتریان (بازدیدکنندگان) و مدیران ارشد باشید.
۲. سریعتر به افراد مرتبط با رخداد دامنه دار اطلاع دهید
در دنیای ایدهآل، در شرایط عادی، شما فهرست از پیش تعریفشدهای از افراد متخصص دارید که، در صورت بروز رخداد دامنه دار، لازم است آنها را سریعتر در جریان بگذارید. از پیش معین شده که، در این شرایط، نحوه ارتباطات بین افراد متخصص چگونه باشد که اطلاعات سریع و به صورت خودکار تبادل شود. زیرساختهای این کار نیز مهیا شده است.
اما احتمالاً چیزی که در واقعیت اتفاق میافتد با شرایط ایدهآل تفاوت دارد! در هنگام بروز رخداد دامنه دار، مطمن شوید که «اطلاعات درست» به «افراد مناسب» و «در زمان مناسب» منتقل شده است.
در شرایط یک رخداد دامنه دار، ممکن است مجبور شوید با برخی یا حتی همه افراد و گروههای زیر ارتباط برقرار کنید:
- مشتریان عصبانی
- ذینفعان کسبوکار و مدیران ارائه خدمات
- تیمهای فنی تحت فشار
- نهادهای نظارتی
- بخشهای اطلاعرسانی و صاحبان محصول و ارتباط با مشتریان
مطمئن شوید که افراد مناسبی با ذینفعان مرتبط صحبت میکنند. برای نمونه، در صورت نیاز به تعامل با ذینفعانِ خارج از سازمان، همراهان و تیمهای حقوقیتان را درگیر کنید.
اگر در این تعاملات با مشکلی روبهرو شدید، تمرکزتان بهویژه بر انتقال اطلاعات صحیح، شفاف و قابل فهم باشد. درصورت وجود راهکار موقت مرتبط با رخداد، مطمئن شوید که مشتری از آن راهکار مطلع است و به نحوه انجام آن اشراف کامل دارد.
هنگام درگیر شدن با رخدادهای دامنه دار، از کامل بودن اطلاعات در زمینههای زیر اطمینان حاصل کنید:
- عنوان و مرجع رخداد
- تأثیر بر کسبوکار
- خدمات و کاربران متأثر از رخداد
- هر گونه راهحل موقت و یا اطلاعات خودیاری
- جزییات تماس با پیشخوان خدمت (یا همان میز خدمت)
- زمان ارائه نسخه اصلاحی
۳. یک برنامه عملیاتی تدارک ببینید
سراغ تیم پشتیبانی خود بروید و یک برنامه عملیاتی تدارک ببینید. اطمینان حاصل کنید که تمام افراد و تیمهای اصلی را جمع کردهاید. به گونهای که هیچچیز از قلم نیفتاده باشد و بتوانید به سرعت موارد را کشف کنید.
در نقش مدیر رخدادهای دامنه دار، هماهنگی و تسهیل انجام اقدامات برعهده شماست. به افراد متخصص اعتماد کنید و فضایی آرام برای آنها مهیا کنید تا بتوانند بر روی موضوع تمرکز کنند. افراد تیم پشتیبانی و پیشخوان خدمت را همچون ابرقهرمانانی تصور کنید که باید بتوانند بر این رخداد دامنهدار چیره شوند؛ شاید این تصور بتواند به شما کمک کند.
معمولاً حین تلاش برای رفع رخداد دامنه دار، نیاز دارید که بتوانید اطلاعات را فوراً با افراد مسئول تبادل کنید. از تمام ابزارهای ارتباطی نظیر کنفرانس تلفنی یا جلسات اسکایپی کمک بگیرید و مطمئن شوید که زیرساختهای ارتباطی شما در دسترس هستند.
قرارمان این باشد که از این لحن استفاده کنید: سریع، کارآمد و مهربان. به یاد داشته باشید که افراد به قدر کافی استرس دارند و زیر فشار هستند و گاهی اوقات وضعیت بههیچوجه ایدهآل نیست. هنگام برخورد با ذینفعان، اوضاع میتواند پرتنشتر هم بشود.
در ادامه، برای آرام نگه داشتن اوضاع، چند پیشنهاد ارائه شده است:
موقعیت | چه باید گفت |
فرد ارشدی به کارشناسان شما حرفهای بیهودهای میزند (برای روشن شدن موضوع، باید بگویم که یاوهگویی هرگز پذیرفته نیست، اما میتوانید بعداً به این امر رسیدگی کنید.) هدف شما دورنگهداشتن تیم کاری از تنشها و تنشزدایی از فضاست. تلاش برای تنظیم پروتکلهای رفتاری میانفردی را به زمان دیگری موکول کنید. | «از بازخورد شما متشکریم، اما فعلاً لازم است که تمرکز ما بر حل مشکل باشد. پس از رفع مشکل، به این موضوع میپردازیم.» |
هیچکس نمیداند چه اتفاقی افتاده و افراد وحشتزدهاند. | «اوضاع درست میشود، لطفاً اجازه بدهید قدم به قدم مراحل تعیینشده در برنامه اجرایی را انجام دهیم. آیا فردی هست که لازم باشد به گروه بپیوندد؟ همهچیز را پوشش دادهایم؟» |
یک مقام ارشد، به سبب در اختیار نداشتن اطلاعات و جزئیات کافی، وحشتزده شده است. | «شرایط تحت کنترل است. ما در مورد یک برنامهزمانی برای اجرای اقدامات به توافق رسیدهایم. این برنامه تا چند ثانیه دیگر برای شما ایمیل خواهد شد.» |
۴. به صورت برنامهریزیشده، ذینفعان را از وضعیت اقدامات مطلع کنید
به صورت برنامهریزیشده به ذینفعان بازخورد دهید و آنها را از روند پیشرفت اقدامات مطلع کنید. اگر متعهد شدهاید که در زمان مقرری یک اقدام را اجرایی کنید، به آن پایبند بمانید. با ارائه بازخورد زمانبندیشده، خود را از درگیر شدن با پاسخگویی به پیگیریهای متعدد نجات دهید. پیگیری مستقیم تیمهایی که در رفع رخداد دامنه دار مشارکت دارند، باعث سرخوردگی و تأخیر بیشتر میشود.
۵. با تیم مدیریت تغییر مشارکت کنید
هنگامی که راهکار رفع یک رخداد دامنه دار مشخص شد، راهکار را آزمون و بررسی کنید تا از صحت آن مطمئن شوید. فردی که برای آزمون انتخاب میشود، نباید شخصی باشد که راهکار را طراحی کرده است. در وضعیت موجود، هر اشتباهی میتواند شرایط را دشوارتر کند.
چنانچه، برای ارائه راهکار، نیازی به تغییر در هر یک از مولفههای سازمان هست، مطابق روال مدیریت تغییرات اضطراری عمل کنید. در برخی سازمانها، تغییر اضطراری نیاز به تشکیل کمیته راهبری تغییرات اضطراری دارد. در برخی دیگر، بلافاصله یک نسخه اجرایی برای رفع اشکالی که منجر به رخداد شده، به عنوان پچ، ارائه میشود. در برخی دیگر باید منتظر یک انتشار اضطراری باشید.
رویه مدیریت تغییر هر چه که هست، با آن مشارکت کنید.
۶. فراموش نکنید که هر رخداد باید یک خاتمه (closure) داشته باشد!
پس از استقرار راهکار، بررسیهای لازم را انجام دهید تا از اثربخشی راهکار مطمئن شوید. با برخی از کاربرانی که از رخداد متأثر شده بودند تماس بگیرید تا مطمئن شوید که همهچیز درست کار میکند. وقتی مطمئن شدید که همهچیز همانطور است که باید باشد، یک اعلان نهایی ارسال کنید. این اعلان نهایی اطلاع میدهد که رخداد رفع شده و سرویس به وضعیت عادی بازگشته است.
۷. تجربههای این رخداد دامنه دار را ثبت کنید.
وقتی این رخداد برطرف شد، پنج یا ۱۰ دقیقه وقت بگذارید تا اقدامات کلیدی و تجربیاتی را که آموختهاید، پیش از بازگشت تیم به شرایط عادی، مرور کنید. بعدها میتوانید بررسی جامعتری داشته باشید. اما اکنون، چند دقیقه برای آگاهی از رویدادهای کلیدی وقت صرف کنید تا احیاناً چیزی از یاد نرود و فراموش نشود.
وقتی رخداد برطرف شد و توانستید بهخوبی از پس مدیریت رخداد دامنه دار برآیید، همه افراد مرتبط با رخداد از شرایط اضطرار رها شده و به شرایط کاری عادی بازگشتهاند (شرایط BAU یا Business As Usual) جلسهای برای بررسی و بازبینی وقایع تدارک ببینید. در این جلسه، از مشارکت تیم مدیریت مشکل و تیم بهبود مستمر استفاده کنید. نکته اساسی، در مورد رخدادهای دامنه دار، تمرکز بر علت بروز آنها و طراحی اجرای راهکارهایی است که مطمئن شویم این رخدادها دوباره بروز نخواهند کرد.
هنگام بررسی و مرور رخداد، محیط امنی برای بررسی موضوع فراهم کنید. به این شکل که میتوانید گزارشی صادقانه از این رخداد ارائه کنید که میتواند شامل تمام موانع موجود، مشکلات، اطلاعات اضافی درباره علل ریشهای رخداد و اقدامات پیشگیرانه برای جلوگیری از تکرار رخداد باشد. روی «مدیریت مشکل» کار کنید، اطلاعات راهکارهای موقت و راهکارهای مرتبط با مشکل را به پایگاه دانش یا پایگاه داده مرتبط انتقال دهید؛ بدینترتیب فرصتهای بهبود مستمر شناسایی میشوند.
منبع: www.joetheitguy.com
این یادداشت، در رسانه اینترنتی راه پرداخت نیز منتشر شده است.
برای مطالعه سایر یادداشت های گروه فناوری پرند در رسانه اینترنتی راه پرداخت، اینجا کلیک کنید.