در گذشته کارشناسان فناوری اطلاعات همیشه در انتظار تماس از جانب کاربران برای اعلام مشکل و قطعی بودند و بعد از تماس، مشکل آنها را بررسی و سرویس را به مدار باز میگرداندند.
در این بین، شرکتهای بزرگ تولید کننده محصولات برای رفع این کاستی، ابزارهای مانیتورینگ طراحی کردند تا بتوانند پیش از اعلام کاربر متوجه مشکلات سیستم شوند.
این ابزارها به صورت خودکار عملکرد سیستمهای فناوری اطلاعات را بررسی میکنند و گزارش و هشدارهای مربوط به هر سیستم را در اختیار مدیران مربوطه قرار میدهند تا قبل از وقوع اختلال، اقدامات مقتضی صورت پذیرد. این راهکار به شناسایی، کنترل و نهایتاً کاهش رویدادها کمک شایانی میکند.
مدیریت رویداد برای رضایت کاربران
رویدادها تغییراتی هستند که برای مدیریت یک CI یا سرویس فناوری اطلاعات دارای اهمیت است و فرآیند مدیریت رویداد، شامل کنترل و مدیریت هر رویدادی است که ممکن است در طول عملکرد سرویس رخ دهد.
این فرآیند یکی از پرکاربردترین فرآیندهای چارچوب ITIL است که با طراحی و استقرار بهینه آن در سطح سازمان میتوانید تاثیرات شگرفی در بهبود کیفیت خدمترسانی و نهایتاً رضایت کاربران ایجاد کنید.
از جمله وظایف فرآیند مدیریت رویداد، شناسایی رویدادها به صورت خودکار و تجزیه و تحلیل آنها و انجام اقدامات کنترلی مناسب است.
البته باید در نظر داشته باشیم زمانی که کاربر اعلام مشکل میکند، یک «رخداد» اتفاق افتاده است و دیگر رویداد نیست.
برای درک این موضوع، به مثال زیر دقت کنید:
تصور کنید ساعت ۱۲، ابزارهای مانیتورینگ، مشکلی روی یکی از سرویسهای سازمان ثبت میکنند و کارشناسان فناوری اطلاعات شروع به بررسی و رفع مشکل میکنند. ولی کاربر استفاده کننده ساعت ۱۴ متوجه قطعی سیستم میشود و مراتب را ثبت میکند و مطابق SLA در انتظار رفع قطعی در مدت ۴ ساعت است.
در این شرایط، کارشناسان فناوری اطلاعات با تشخیص زود هنگام رخدادها زمان بیشتری برای برطرف نمودن آنها در اختیار دارند. در نتیجه شاهد بهبود و افزایش زمان پاسخدهی به رخدادها و همچنین کاهش زمان وقفه خواهیم بود و با توجه به ثبت خودکار، بهبود زمان تشخیص نیز حاصل میشود.
با توجه به مثال فوق و ثبت خودکار وقایع و مشخصشدن زمان دقیق قطعی سرویس، میتوان گزارش دقیقی از مدتزمان قطعی سیستم (downtime) و مدتزمانی که سیستم به طور صحیح کار کرده است (uptime) را در اختیار داشت.
تشخیص رویداد، انتخاب مسیر بعدی
با توجه به گزارشات انبوه سیستمهای مانیتورینگ مراکز داده در خصوص فعالیتهای مهم یا امنیتی سرورها مانند تشخیص نفوذ، زمان اعتبار لایسنسها، تغییر شرایط محیط مانند تغییر دما، افزایش یا کاهش رطوبت و یا تأثیر افزایش غلظت هوا در اثر دود و… این سؤال پیش میآید که چگونه این حجم از داده را مدیریت کنیم؟ کدام یک از دادهها برای ما حائز اهمیت است؟ کدام یک از رویدادها را ثبت و اعلام نماییم و چه اقداماتی در مواجه با رویدادهای کلیدی انجام دهیم؟
برای پاسخ به سؤالات فوق، ITIL رویدادها را به سه دسته تقسیم میکند:
دسته اول (information): رویدادهایی که بر عملکردهای عادی و منظم دلالت دارد و صرفاً از جنس اطلاعات است. مانند ورود و خروج کاربر به یک سیستم نرمافزاری و یا تهیه موفقیتآمیز تهیه نسخه پشتیبان
دسته دوم (Warning): رویدادهایی که نشاندهنده نزدیکشدن یک سرویس یا سیستم به آستانه توافقشده است. در این شرایط قبل از قطعی سیستم به صورت پیشگیرانه اقدام به ثبت یک Proactive Problem مینماییم تا قبل از اینکه بر خدمت تأثیر گذارند، مسئولین مربوطه آن را رفع کنند.
دسته سوم (Exception): جدیترین نوع رویداد است که بیانگر اختلال یا توقف در روند ارائه سرویس است که در این شرایط با توجه به نوع مشکل یکی از فرآیندهای Incident Management یا Problem Management یا Change Management آغاز میشود. رویدادها اصولاً ورودی فرآیندهای دیگر هستند.
به طور مثال تصور کنید میزان استفاده پردازشگر یک سیستم به ۵۰ درصد رسیده باشد. در این شرایط فقط یک پیام اطلاعرسانی دریافت میکنید، یعنی رویدادی از جنس اطلاعات، اما اگر در فرآیند مدیریت رویداد آستانهای برای این مورد تعریف کرده باشید (مثلاً ارسال پیام در صورت استفاده ۷۰ درصدی پردازشگر) این رویداد از جنس هشدار است و میبایست به صورت پیشگیرانه اقدامی صورت گیرد. اما اگر به هر علتی اقدامی صورت نپذیرفت یا اقدامات انجام شده کافی نبود و پردازشگر به ۸۰ درصد برسد، سیستم متوقف و یا به شدت کند میشود که این رویداد از جنس استثنا بوده و میبایست فرآیند مدیریت رخداد آغاز شود.
چرخه حیات رویداد
در ادامه برای درک بهتر فرآیند رویداد، چرخه حیات آن را با هم بررسی خواهیم نمود. این فرآیند شامل فعالیتهای زیر است:
- نظارت بر سرویسها
- تشخیص و ثبت رویدادها
- فیلتر کردن رویداد (رویدادهایی که از جنس اطلاعات هستند و باید نادیده گرفته شوند را فیلتر میکنیم.)
- تحلیل رویدادها
- پاسخ به رویداد (صرف نظر از نوع رویداد، باید تمام آنها ثبت و در صورت لزوم، بر اساس شدت و نوع رویداد به افراد یا تیمهای مربوطه جهت رسیدگی ارجاع شود. در شرایط وقوع استثناهای شدید که سیستم متوقف میشود به صورت خودکار یک رخداد، مشکل یا تغییر ایجاد شود.
- بستن رویداد (در فرآیند مدیریت رویداد پس از ثبت و اقدام به ارجاع به فرآیند رخداد، مشکل یا درخواست تغییر، رویداد مربوطه در سیستم مدیریت رویداد بسته میشود.)
حرف آخر
رویدادها به صورت روزانه به وقوع میپیوندند و استفاده از یک ابزار مانیتورینگ مناسب جهت ثبت و گزارشگیری از آن ضروری است. در این بین ابزارهای ITSM برای پیادهسازی مدیریت رویداد میتوانند با این ابزارهای مانیتورینگ یکپارچه شوند و به شما این امکان را بدهند که با مشاهده عملکرد کل داراییهای IT و اطلاع از اتفاقات، بیش از وقوع رخداد به صورت پیشگیرانه اقدام نمایید و شاهد کاهش رخدادها باشید.
این یادداشت در رسانه اینترنتی راه پرداخت نیز منتشر شده است.
برای مطالعه سایر یادداشت های گروه فناوری پرند در رسانه اینترنتی راه پرداخت، اینجا کلیک کنید.