هدف فرآیند مدیریت رویداد شناسایی رویدادها، تجزیه و تحلیل آنها و تعیین اقدام کنترلی صحیح (در صورت وجود) است. با این کار، فرآیند مدیریت رویداد پایه و اساسی قوی برای ضمانت خدمات، گزارشدهی و بهبود خدمات فراهم میکند.
روزانه هزاران رویداد در سرتاسر زیرساخت فناوری اطلاعات شما اتفاق میافتد. در شرکتهای بزرگ این تعداد میتواند میلیونی یا میلیاردی باشد. چرا؟ زیرا یک رویداد صرفاً یک تغییر در وضعیت یک خدمت فناوری اطلاعات یا قلم پیکربندی (CI) است که برای مدیریت آن بسیار مهم است.
سروری که از حالت آنلاین به حالت idle درمیآید میتواند یک رویداد باشد، یا تکمیل یک اسکریپت تعمیر و نگهداری سرور به طور منظم؛ ارزشش را دارد که دربارهشان بدانید و حتی ممکن است اقدامی باشد که بخواهید درنهایت انجام دهید.
مهم است که بدانید نظارت بر رویدادها با فرآیند مدیریت رویداد یک چیز نیستند. عمل نظارت قطعاً جزوی از فرآیند مدیریت رویداد است، از این نظر که راهی مفید برای تشخیص رویدادها به هنگام رخ دادن آنهاست. از سوی دیگر، تمرکز مدیریت رویداد بر بیرون کشیدن معنا از رویدادهاست تا به تیم IT کمک کند که اقدامات مناسب را (در صورت لزوم) انجام دهد.
دامنه و مزایای فرآیند مدیریت رویداد
فرآیند مدیریت رویداد را میتوان در تمام جنبههای مدیریت خدمات که نیاز به کنترل دارند و میتوانند خودکارسازی شوند ـ از شبکهها، سرورها و برنامههای کاربردی تا شرایط محیطی مانند تشخیص آتش و دود و امنیت ـ به کار برد.
از آنجا که فرآیند مدیریت رویداد تقریباً در هر بخش از مدیریت خدمات در سازمان فناوری اطلاعات شما قابل استفاده است، مزایای بسیار گستردهای دارد. به صورت کلی، روشهای مؤثر مدیریت رویداد میتوانند:
- بنیانی محکم برای خودکارسازی اجزای اصلی عملیات IT شما فراهم کنند.
- زمان تشخیص و پاسخگویی به رخدادها، تغییرات، استثنائات و غیره را بهبود بخشند.
- در نتیجهی موارد بالا، مدت زمان از کار افتادن خدمات (downtime) را کاهش دهند.
بنابراین، موفقیت به نظر شما چگونه است؟ در فرآیند مدیریت رویداد، موفقیت این است که بتوانید هر رویدادی (یا تغییر وضعیتی) را که برای مدیریت خدمات IT شما و اقلام پیکربندیای که آنها را پشتیبانی میکنند بسیار مهم است، شناسایی کنید، ارتباط برقرار کنید و اقدامات مناسب را انجام دهید.
چه تفاوتی بین رویداد و رخداد وجود دارد؟
این پرسش فوقالعادهای است و پاسخ سادهای هم دارد. رخدادها وقفههایی بدون برنامهریزی قبلی یا کاهش چشمگیر کیفیت خدمات فناوری اطلاعات هستند. وقتی رخدادی اتفاق میافتد، یک جای کار ایراد دارد و مشکلی پیش آمده است. از سوی دیگر، رویدادها تغییراتی در وضعیت خدمات، اقلام پیکربندی یا تقریباً هر مورد مهمی در زیرساخت IT شما هستند.
با این حساب، یک رخداد میتواند یک رویداد باشد؟ همهی رخدادها رویداد هستند، زیرا قطع شدن یا کاهش کیفیت خدمات یک تغییر در وضعیت آن خدمت به حساب میآید. اما همهی رویدادها رخداد نیستند، زیرا یک افزایش مصرف، ورود به سیستم کاربری یا تکمیل سرویس پشتیبانگیریِ خودکار نشاندهندهی یک تغییر وضعیت است، اما اختلال یا افت کیفیت خدمات محسوب نمیشود.
در ITIL سه نوع رویداد تعریف شده است:
رویدادهای اطلاعاتی
این رویدادها معمولاً به هیچ نوع پاسخی نیاز ندارند، زیرا آنها بهروزرسانی وضعیت پایه یا دادههای تولیدشده برای کمک به گزارشدهی و غیره هستند. لاگها و گزارشها نمونههای خوبی از این دسته رویدادها هستند.
رویدادهای هشداردهنده
هشدارها شاخصهای فعالیتهایی هستند که بیش از حدِ معمول هستند؛ مانند یک آستانهی نزدیک شدن. مانند یک هشدار طوفان یا گردباد. یک هشدار به این معنی است که شما باید شرایط را کنترل کنید تا از بدتر نشدن اوضاع اطمینان حاصل کنید. یا در صورت لزوم، برای جلوگیری از وخیمتر شدن اوضاع، اقدام مناسب را انجام دهید. یک مثال از این نوع رویداد میتواند رسیدن ظرفیت سرور به 75درصد باشد، یا اینکه انجام یک معاملهی استاندارد 15درصد بیشتر از حد معمول به طول بیانجامد.
رویدادهای استثنائی
رویدادهای استثنایی شاخصهایی هستند که نشان میدهند مشکلی وجود دارد. ممکن است روی خدمات (و کسبوکارهایی که آنها پشتیبانی میکنند) تأثیر منفی بگذارد. از کار افتادن شبکه یا سرور (در ازای صرفاً رسیدن به ظرفیت) مثالی از یک استثناست.
چه فعالیتهای دیگری را میتوان به عنوان یک رویداد در نظر گرفت و روند فرآیند مدیریت رویداد را آغاز کرد؟ از استثناها تا فرآیندهای خودکار تا تغییر وضعیتهای ساده در یک سرور یا پایگاه داده. این فهرست را میتوان همینطور ادامه داد. هیچ حد و مرزی ندارد.
در نهایت، این وظیفهی IT است که تعیین کند چه نوع فعالیتهایی را رویدادهای اطلاعاتی، رویدادهای هشداردهنده یا رویدادهای استثنائی در نظر بگیرند. گرچه به عنوان یک قاعدهی کلی، زمانی که یک رویداد فقط برای بهدست آوردن بینش و اطلاعرسانی برای تصمیمگیری بهتر است، شما آن را در ردهی رویدادهای «اطلاعاتی» دستهبندی خواهید کرد. رویدادهای «هشداردهنده» معمولاً مواردی هستند که ممکن است برای نظارت دقیق یا حتی مداخله برای کمک به جلوگیری از وقوع استثناها نیاز باشند. «استثناها» یعنی چیزی واقعاً اشتباه است که معمولاً به اقدامات فوری نیاز دارند.
چرا فرآیند مدیریت رویداد به رضایت کاربران منتهی میشود؟
فعالیتهای کلیدی فرآیند مدیریت رویداد
در مرحلهی طراحی خدمت فناوری اطلاعات خود، باید برای هر نوع قلم پیکربندی (CI) که در ارائهی خدمت دخیل است، انواع رویدادهایی که باید تولید شوند و نحوهی تولید آنها را تعیین کنید. چرخهی حیات معمول رویداد:
۱. وقوع رویداد
رویدادها ۲۴*۷*۳۶۵ اتفاق میافتند. در فرآیند مدیریت رویداد ITIL، نکتهی کلیدی در تعریف انواع رویدادهایی است که برای عملکرد شما مهم هستند و به شما اطمینان میدهند که سیستم مناسبی برای شناسایی رویدادها در اختیار دارید.
۲. اعلان رویداد
اعلانها معمولاً توسط ابزارهای نظارت یا اقلام پیکربندی ارسال میشوند. در این مرحله، اعلانها صرفاً اعلام میکنند که یک رویداد رخ داده است. و به طور معمول، هنوز برای درک معنی یا تأثیر رویداد تفسیر نشدهاند.
۳. شناسایی رویداد
در این مرحله، یک سیستم نظارت، عامل خودکار یا راهحل مدیریت سیستم، اعلان را دریافت میکند و معنی رویداد را مشخص میکند.
۴. ثبت رویداد
ثبت رویداد همراه با اقدامات بعدی انجام میشود. این کار ممکن است توسط راهحل مدیریت سیستمهای شما یا توسط برنامههای کاربردی / خدمات / سختافزاری که باعث رویداد شدهاند انجام شود.
۵. ارتباط و فیلتر کردن رویداد
آیا میتوان رویداد را نادیده گرفت یا اینکه لازم است به سیستم مدیریت رویدادها منتقل شود؟ غالباً رویدادهای اطلاعاتی نادیده گرفته میشوند. هشدارها و رویدادهای استثنائی اغلب به اقدامات دیگری نیاز دارند. بنابراین، اولین مرحله از این فرآیند ـ به نام ارتباط و فیلتر کردن سطح اول ـ فیلتر کردن رویدادهایی است که نباید در مقابل انتقال به سیستم مدیریت رویداد نادیده گرفته شوند. در سطح دوم ارتباط، یک موتور ارتباط، از قوانین کسبوکارِ از پیش تعریفشده، برای تعیین اهمیت هشدارها و رویدادهای استثنائی استفاده میکند و در مورد گامهای مناسب بعدی تصمیمگیری میکند.
۶. پاسخ رویداد / اقدام بعدی
به یاد داشته باشید، همهی رویدادها (و پاسخها) باید ثبت شوند. همچنین، براساس نوع و شدت رویداد، ممکن است موتور ارتباط تشخیص دهد که بهتر است این رویداد را به یک تیم یا فرد ارجاع دهد، یا در مواردی که هشدارها یا استثناها شدیدتر هستند، حتی ممکن است به صورت خودکار، یک رخداد، مشکل یا تغییر را ایجاد کند.
۷. خاتمهی رویداد
اگر یک رویداد منجر به ایجاد یک رخداد، مشکل یا تغییر شود، خاتمهی رویداد باید از طریق فرآیندهای مربوطه انجام شود. با اطمینان از ثبت صحیح رویداد و همچنین اقدامات بعدی، ازجمله پیوند به رخداد، مشکل یا درخواست تغییر متناظر، میتوان آنها را در سیستم مدیریت رویداد «خاتمه» داد. مانند بیشتر فرآیندهای ITIL، فرآیند مدیریت رویدادها هم در یک حباب اتفاق نمیافتد و با سایر فرآیندها در ارتباط است. در حالی که فرآیند مدیریت رویداد در درجهی اول با مدیریت رخداد، مدیریت مشکل و مدیریت تغییر (برای رسیدگی به استثناها) در ارتباط است، با فرآیندهای زیر نیز مرتبط است:
- مدیریت ظرفیت و مدیریت دسترسپذیری برای درک اهمیت رویدادها، آستانهها و غیره.
- مدیریت دارایی برای مدیریت وضعیت داراییها.
- مدیریت پیکربندی برای مدیریت وضعیت اقلام پیکربندی.
میزان اثربخشی فرآیند مدیریت رویداد را اندازهگیری کنید.
برای کمک به شما در سنجش میزان اثربخشی و کارآیی فرآیند مدیریت رویداد، موارد زیر تنها تعدادی از شاخصهای کلیدی عملکردی (KPI) هستند که میتوانید برای اندازهگیری میزان اثربخشی فرآیند مدیریت رویداد از آنها استفاده کنید.
- تعداد یا درصد رویدادهایی که به رخداد تبدیل میشوند.
- اقلام پیکربندیای که بیشترین رویدادها را ایجاد میکنند.
- تعداد رویدادهایی که توسط ابزار نظارت شما گزارش میشود و تفکیک آنها براساس گروه رویداد.
- درصد کل رویدادهایی که به رخداد تبدیل میشوند (یا متناوباً منجر به تغییر میشوند) و مشخصاً چه تعداد از این رخدادها توسط سیستمهای خودکار شما گزارش میشوند.
نکتههای کلیدی
در اولین قدم، تحقیقی دربارهی انواع رویدادهایی که در محیط IT سازمان شما اتفاق میافتد انجام دهید. بدانید کدام سیستمها رویدادها را ثبت میکنند، کجا ثبت میکنند و معنای رویدادها چیست.
این کار به درک بهتر رویدادها و اینکه کدام نوع از رویدادها به مراقبت بیشتری نیاز دارند کمک میکند؛ چه این کار مداخلهی انسانی باشد، چه گردش کار خودکار برای رسیدگی به تغییرات یا افزایش رخدادها.
ازآنجا که برای یک فرد (یا تیمی از افراد) از نظر انسانی، امکان نظارت و مدیریت هر رویدادی که توسط همهی سیستمهای شما ایجاد شده وجود ندارد، هدف شما این است که یک سیستم ساده و مؤثر گردش کار برای خودکارسازی موارد آسان ایجاد کنید ـ سیستمی که به تیم شما هنگامی که رویدادهای مهمتری خدمات را تهدید میکنند (یا به هر نوع کمک انسانی نیاز دارند) هشدار دهد.
در آخر، مطمئن شوید که در گزارش رویدادهای شما تمام جزئیات مورد نیاز ثبت شده باشد؛ اینکه چه اتفاقی افتاده است، چه زمانی اتفاق افتاده است، نحوهی رسیدگی به آن، به چه کسی ارجاع داده شده، و سایر جزئیات مرتبط با افراد یا سیستمها برای پشتیبانی از اقدامات انجامشده. این جزئیات به شما کمک میکند که بدانید آیا رویدادها توافقنامههای سطح خدمت یا توافقنامههای سطح عملیات را نقض میکنند تا بتوانید گزارش دقیقی تهیه کنید و خود را همچنان سازگار با توافقنامهها نگه دارید.
منبع: www.bmc.com
سلام لطفاً منابع تان را هم برای ارجاع قرار دهید. سپاس