چرا مدیریت رویداد به رضایت کاربران منتهی می‌شود؟

توسط پروین اشرفی پور / یکشنبه, ۱۲ آبان ۱۳۹۸ / منتشر شده در مطالعه موردی, مقالات

زمان تقریبی مطالعه: 4 دقیقه

در گذشته کارشناسان فناوری اطلاعات همیشه در انتظار تماس از جانب کاربران برای اعلام مشکل و قطعی بودند و بعد از تماس، مشکل آن‌ها را بررسی و سرویس را به مدار باز می‌گرداندند.

در این بین، شرکت‌های بزرگ تولید کننده محصولات برای رفع این کاستی، ابزارهای مانیتورینگ طراحی کردند تا بتوانند پیش از اعلام کاربر متوجه مشکلات سیستم شوند.

این ابزارها به صورت خودکار عملکرد سیستم‌های فناوری اطلاعات را بررسی می‌کنند و گزارش و هشدارهای مربوط به هر سیستم را در اختیار مدیران مربوطه قرار می‌دهند تا قبل از وقوع اختلال، اقدامات مقتضی صورت پذیرد. این راهکار به شناسایی، کنترل و نهایتاً کاهش رویدادها کمک شایانی می‌کند.

مدیریت رویداد برای رضایت کاربران

رویدادها تغییراتی هستند که برای مدیریت یک CI یا سرویس فناوری اطلاعات دارای اهمیت است و فرآیند مدیریت رویداد، شامل کنترل و مدیریت هر رویدادی است که ممکن است در طول عملکرد سرویس رخ دهد.

این فرآیند یکی از پرکاربردترین فرآیندهای چارچوب ITIL است که با طراحی و استقرار بهینه آن در سطح سازمان می‌توانید تاثیرات شگرفی در بهبود کیفیت خدمت‌رسانی و نهایتاً رضایت کاربران ایجاد کنید.

از جمله وظایف فرآیند مدیریت رویداد، شناسایی رویدادها به صورت خودکار و تجزیه و تحلیل آنها و انجام اقدامات کنترلی مناسب است.

البته باید در نظر داشته باشیم زمانی که کاربر اعلام مشکل می‌کند، یک «رخداد» اتفاق افتاده است و دیگر رویداد نیست.

برای درک این موضوع، به مثال زیر دقت کنید:

تصور کنید ساعت ۱۲، ابزارهای مانیتورینگ، مشکلی روی یکی از سرویس‌های سازمان ثبت می‌کنند و کارشناسان فناوری اطلاعات شروع به بررسی و رفع مشکل می‌کنند. ولی کاربر استفاده کننده ساعت ۱۴ متوجه قطعی سیستم می‌شود و مراتب را ثبت می‌کند و مطابق SLA در انتظار رفع قطعی در مدت ۴ ساعت است.

در این شرایط، کارشناسان فناوری اطلاعات با تشخیص زود هنگام رخدادها زمان بیشتری برای برطرف نمودن آن‌ها در اختیار دارند. در نتیجه شاهد بهبود و افزایش زمان پاسخ‌دهی به رخدادها و همچنین کاهش زمان وقفه خواهیم بود و با توجه به ثبت خودکار، بهبود زمان تشخیص نیز حاصل می‌شود.

با توجه به مثال فوق و ثبت خودکار وقایع و مشخص‌شدن زمان دقیق قطعی سرویس، می‌توان گزارش دقیقی از مدت‌زمان قطعی سیستم (downtime) و مدت‌زمانی که سیستم به طور صحیح کار کرده است (uptime) را در اختیار داشت.

تشخیص رویداد، انتخاب مسیر بعدی

با توجه به گزارشات انبوه سیستم‌های مانیتورینگ مراکز داده در خصوص فعالیت‌های مهم یا امنیتی سرورها مانند تشخیص نفوذ، زمان اعتبار لایسنس‌ها، تغییر شرایط محیط مانند تغییر دما، افزایش یا کاهش رطوبت و یا تأثیر افزایش غلظت هوا در اثر دود و… این سؤال پیش می‌آید که چگونه این حجم از داده را مدیریت کنیم؟ کدام یک از داده‌ها برای ما حائز اهمیت است؟ کدام یک از رویدادها را ثبت و اعلام نماییم و چه اقداماتی در مواجه با رویدادهای کلیدی انجام دهیم؟

برای پاسخ به سؤالات فوق، ITIL رویدادها را به سه دسته تقسیم می‌کند:

دسته اول (information): رویدادهایی که بر عملکردهای عادی و منظم دلالت دارد و صرفاً از جنس اطلاعات است. مانند ورود و خروج کاربر به یک سیستم نرم‌افزاری و یا تهیه موفقیت‌آمیز تهیه نسخه پشتیبان

دسته دوم (Warning): رویدادهایی که نشان‌دهنده نزدیک‌شدن یک سرویس یا سیستم به آستانه توافق‌شده است. در این شرایط قبل از قطعی سیستم به صورت پیشگیرانه اقدام به ثبت یک Proactive Problem می‌نماییم تا قبل از اینکه بر خدمت تأثیر گذارند، مسئولین مربوطه آن را رفع کنند.

دسته سوم (Exception): جدی‌ترین نوع رویداد است که بیانگر اختلال یا توقف در روند ارائه سرویس است که در این شرایط با توجه به نوع مشکل یکی از فرآیندهای Incident Management یا Problem Management یا Change Management آغاز می‌شود. رویدادها اصولاً ورودی فرآیندهای دیگر هستند.

به طور مثال تصور کنید میزان استفاده پردازشگر یک سیستم به ۵۰ درصد رسیده باشد. در این شرایط فقط یک پیام اطلاع‌رسانی دریافت می‌کنید، یعنی رویدادی از جنس اطلاعات، اما اگر در فرآیند مدیریت رویداد آستانه‌ای برای این مورد تعریف کرده باشید (مثلاً ارسال پیام در صورت استفاده ۷۰ درصدی پردازشگر) این رویداد از جنس هشدار است و می‌بایست به صورت پیشگیرانه اقدامی صورت گیرد. اما اگر به هر علتی اقدامی صورت نپذیرفت یا اقدامات انجام شده کافی نبود و پردازشگر به ۸۰ درصد برسد، سیستم متوقف و یا به شدت کند می‌شود که این رویداد از جنس استثنا بوده و می‌بایست فرآیند مدیریت رخداد آغاز شود.

چرخه حیات رویداد

در ادامه برای درک بهتر فرآیند رویداد، چرخه حیات آن را با هم بررسی خواهیم نمود. این فرآیند شامل فعالیت‌های زیر است:

نظارت بر سرویس‌ها
تشخیص و ثبت رویدادها
فیلتر کردن رویداد (رویدادهایی که از جنس اطلاعات هستند و باید نادیده گرفته شوند را فیلتر می‌کنیم.)
تحلیل رویدادها
پاسخ به رویداد (صرف نظر از نوع رویداد، باید تمام آن‌ها ثبت و در صورت لزوم، بر اساس شدت و نوع رویداد به افراد یا تیم‌های مربوطه جهت رسیدگی ارجاع شود. در شرایط وقوع استثناهای شدید که سیستم متوقف می‌شود به صورت خودکار یک رخداد، مشکل یا تغییر ایجاد شود.
بستن رویداد (در فرآیند مدیریت رویداد پس از ثبت و اقدام به ارجاع به فرآیند رخداد، مشکل یا درخواست تغییر، رویداد مربوطه در سیستم مدیریت رویداد بسته می‌شود.)

حرف آخر

رویدادها به صورت روزانه به وقوع می‌پیوندند و استفاده از یک ابزار مانیتورینگ مناسب جهت ثبت و گزارش‌گیری از آن ضروری است. در این بین ابزارهای ITSM برای پیاده‌سازی مدیریت رویداد می‌توانند با این ابزارهای مانیتورینگ یکپارچه شوند و به شما این امکان را بدهند که با مشاهده عملکرد کل دارایی‌های IT و اطلاع از اتفاقات، بیش از وقوع رخداد به صورت پیشگیرانه اقدام نمایید و شاهد کاهش رخدادها باشید.

این یادداشت در رسانه اینترنتی راه پرداخت نیز منتشر شده است.

برای مطالعه سایر یادداشت های گروه فناوری پرند در رسانه اینترنتی راه پرداخت، اینجا کلیک کنید.

برچسب ها: مدیریت رویداد

درباره پروین اشرفی پور

من در رشته مهندسی فناوری اطلاعات تحصیل کردم و با توجه به علاقه ای که به مباحث مدیریت خدمات فناوری اطلاعات دارم، به کسب تجربه در این حوزه و ارتباط با مشتریان پرداختم و در حال حاضر در تیم توسعه بازار گروه فناوری پرند، مشغول فعالیت هستم.

وبلاگ گروه فناوری پرند

چرا مدیریت رویداد به رضایت کاربران منتهی می‌شود؟

مدیریت رویداد برای رضایت کاربران

تشخیص رویداد، انتخاب مسیر بعدی

چرخه حیات رویداد

حرف آخر

درباره پروین اشرفی پور

دیدگاهتان را بنویسید لغو پاسخ

بی‌خبر نمانید!

آدرس ایمیل خود را وارد کنید تا پربازدیدترین محتواهای وبلاگ گروه فناوری پرند را در ایمیل خود دریافت کنید.

ارائه‌دهنده راهکارهای مدیریتی مبتنی بر ITIL