فرآیند مدیریت مشکل بخشی از استراتژی خدمت فناوری اطلاعات است که ضامن ثبات سازمان شما بوده و نقش مهمی در تقویت و بهینهسازی واحد پشتیبانی مرکز عملیات شبکه (NOC) دارد. گرچه ممکن است عملکرد فرآیند مدیریت مشکل به اندازهی مدیریت رخداد مشهود نباشد، اما نقش آن به همان اندازه برای مرکز عملیات شبکه حیاتی است.
در مقالهی حاضر کوشیدهایم اهداف مدیریت مشکل و فعالیتهای مربوط به آن را تعریف کرده و در مورد مزایای فرآیند مدیریت مشکل برای مرکز عملیات شبکه و اهمیت نقش آن در عملکرد و دسترسپذیری زیرساخت در سازمانها، صحبت کنیم.
تعریف مدیریت مشکل
در کتابخانهی زیرساخت فناوری اطلاعات (ITIL)، به علت یا علل احتمالی یک یا چند رخداد، «مشکل» میگویند. مدیریت مشکل چارچوبی را برای کنترل مشکلات، از طریق مجموعهای از اقدامات خاص، فراهم میکند.
هدف مدیریت مشکل
هدف مدیریت مشکل یافتن علل اصلی و ریشهای مشکل، ارائهی راهحل و جلوگیری از تکرار مجدد آن است. هدف مدیریت مشکل در یک مرکز عملیات شبکه بهینه این است که در همان وهلهی اول، مانع از بروز مشکل شود. از این رو، کارکنان مسئول در فرآیند مدیریت مشکل باید از مهارتهای تحلیلی و تخصص فنی بالایی برخوردار باشند.
مقایسهی مدیریت مشکل با مدیریت رخداد
مدیریت مشکل و مدیریت رخداد دو فرآیند کاملاً متفاوت هستند. هدف مدیریت رخداد این است که یک خدمت را، در سریعترین زمان ممکن، به کمک ارائهی یک راهکار موقت بازیابی کند. اما هدف مدیریت مشکل این است که با شناسایی و ردیابی مشکلات زمینهساز، علت ریشهای یک رخداد یا سلسله رخدادها را شناسایی و آنها را برطرف کند تا بدینترتیب، از تکرار رخدادهای مشابه در آینده جلوگیری کند.
برای مطالعهی بیشتر دربارهی مدیریت رخداد، به سایر مقالات ما در برچسب مدیریت رخداد مراجعه کنید.
معمولاً مدیریت مشکل کمتر از مدیریت رخداد دیده میشود. چون کاربران تأثیر مستقیم رخدادها را احساس میکنند، اما بعید به نظر میرسد که از فعالیتهای صورتگرفته در فرآیند مدیریت مشکل آگاه باشند. چون هدف غایی فرآیند مدیریت مشکل این است که رخدادها را، پیش از اینکه به وقوع بپیوندند، متوقف کند. همین دیده نشدنِ فرآیند مدیریت مشکل و پشت پرده ماندن فعالیتهای آن، سبب شده که بسیاری از سازمانها به جای سرمایهگذاری روی فرآیند مدیریت مشکل برای جلوگیری از وقوع رخدادها، بخش عمدهای از منابع مرکز عملیات شبکه و سرمایهی خود را صرف حل کردن رخدادها بکنند.
چرخه حیات مدیریت مشکل
میتوانید برای تنظیم یک استراتژی مدیریت مشکل برای سازمانتان، از چارچوب اثباتشدهی چرخه حیات ITIL پیروی کنید. در ادامه، شرح مختصری از فعالیتهای اصلی در چرخه حیات مشکل ارائه میدهیم:
۱. شناسایی مشکل
مشکلات را میتوانید از طریق یک گزارش رخداد ـ که مشکل را با تجزیه و تحلیل رخداد پیشآمده کشف کرده ـ یا به واسطهی یک ابزار خودکارسازی، شناسایی کنید. یک مشکل معمولاً زمانی کشف میشود که یک رخداد برطرف شده و سپس، دوباره تکرار میشود. اگر کارکنان فنی از علت ریشهای رخداد مطمئن نباشند، برای آن یک پرونده ایجاد کرده و مشکل را ثبت میکنند. یا اگر یک رخداد، به وضوح، با مشکلی که قبلاً ثبت شده بوده ارتباط داشته باشد (که به آن «مشکل شناختهشده» میگویند)، آن رخداد جدید را با پروندهی مشکلی که از قبل ثبت شده، مرتبط میکنند.
۲. ثبت مشکل
اگر یک مشکل قبلاً ثبت نشده باشد و هیچ سابقهای از آن در سیستم وجود نداشته باشد، باید آن را به عنوان یک مشکل ثبت کرد. در ثبت مشکل باید اطلاعاتی از قبیل تاریخ و زمان شناسایی مشکل، اطلاعات کاربر، شرح مشکل، کاربران و خدمات متأثر و رخدادهای مرتبط با آن درج شوند.
۳. دستهبندی و اولویتبندی مشکل
مشکلات باید دستهبندی و اولویتبندی شوند تا بشود ترتیب رسیدگی به آنها را به درستی اولویتبندی کرد. هر مشکل باید از نظر منطقی در یک دسته قرار بگیرد و در صورت لزوم، براساس انواع مشکلاتی که یک سازمان ممکن است با آنها روبهرو شود، میشود زیرشاخههایی برای هر دسته در نظر گرفت. اگر بخواهیم از متداولترین دستهبندی مشکلات مثال بیاوریم، میتوانیم به مشکلات شبکه، ابر یا زیرساخت مجازی، پایگاه داده و برنامههای کاربردی اشاره کنیم. زیرشاخههای بالقوهی دستهی شبکه عبارتاند از لایهی نوری، سوئیچینگ (Switching)، مسیریابی (Routing) و مدار. برنامهی دستهبندی مشکلات و رخدادها باید یکسان باشند، چون مشکلات و رخدادها غالباً به طور مستقیم با یکدیگر مرتبط هستند.
تعیین اولویتبندی مشکلات در تصمیمگیری برای اینکه کارکنان فنی سازمان در چه زمانی و چگونه به یک مشکل رسیدگی خواهند کرد، بسیار مهم است. اولویتبندیهایی مانند شدید، متوسط، خفیف باید بر مبنای تأثیر آن مشکل بر کسبوکار و میزان فوریت مشکل باشد. بدیهی است مشکلاتی که بیشترین ریسک را برای خدمات دارند باید در اولویت قرار بگیرند.
۴. بررسی و تشخیص مشکل
در این مرحله، باید در مورد علت ریشهای مشکل تحقیق و بررسی شود. شگردهای معمول این کار عبارتاند از:
- تحلیل پروندهی مشکل، از جمله تاریخچهی آن؛
- بازبینی پایگاه داده خطای شناختهشده (Known Error) به منظور یافتن مشکلات و راهحلهای مرتبط و/یا ایجاد مجدد آن قطعی یا اختلال، برای تصمیمگیری دربارهی علت آن؛
- تحلیل لاگهای شبکه و برنامهی کاربردی.
به محض اینکه علت ریشهای مشکل تشخیص داده شود، میتوان یک راهکار موقت برای برطرف کردن مشکل ایجاد کرد.
۵. شناسایی و مستند کردن راهکار موقت (در صورت لزوم)
وقتی نمیتوان یک مشکل را به سرعت برطرف کرد، باید تلاش کرد تا با یافتن و مستندکردن یک راهکار موقت، تأثیر رخدادهای آینده را کاهش داد یا از بین برد. راهکارهای موقت را میشود در هر نقطه از چرخه حیات مشکل کشف کرد و باید آنها را در پروندهی آن مشکل ثبت و مستند کرد.
۶. ثبت یک خطای شناختهشده
پس از اتمام تحقیقات و بررسیها، باید یک خطای شناختهشده را ثبت و ایجاد کرد. این کار به تحلیلگران اجازه میدهد که در صورت بروز رخدادها و مشکلات در آینده، سریعتر بتوانند راهکار موقت را شناسایی کرده و ارائه بدهند.
۷. حل مشکل
به محض کشف راهحل، میتوان با استفاده از روند مدیریت تغییر در سازمان، آن را پیادهسازی کرد.
۸. خاتمهی مشکل
پس از آزمایش و تأیید راهحل مشکل، میتوان پروندهی آن مشکل و تمام رخدادهای مرتبط با آن را بهروزرسانی کرد و به آن مشکل خاتمه داد. مهندس مرکز عملیات شبکه که به روند خاتمهی مشکل رسیدگی میکند، باید مطمئن شود که تمام جزئیات مشکل و راهحل آن، برای ارجاع در آینده، بهدرستی ثبت شده باشند.
دربارهی مدیریت مشکل بیشتر بخوانید
مدیریت مشکل واکنشی در مقایسه با مدیریت مشکل پیشگیرانه
مدیریت مشکل میتواند به صورت واکنشی (Reactive) یا پیشگیرانه (Proactive) باشد. در هر دو رویکرد هم، چرخه حیات مشکل به یکسان اِعمال میشود.
مدیریت مشکل واکنشی
مدیریت مشکل واکنشی هنگامی اتفاق میافتد که بخواهیم یک مشکل را به عنوان پیامد مستقیم یک رخداد یا سلسلهای از رخدادها، حل کنیم. معمولاً افراد با شنیدن نام اصطلاح «مدیریت مشکل» به این رویکرد فکر میکنند. زمانی که مدیریت رخداد به دنبال بازیابی خدمات متأثر از رخداد است، مدیریت مشکل واکنشی به شناسایی علل ایجاد یک رخداد یا رخدادها میپردازد. مدیریت مشکل واکنشی، در پاسخ به رخداد(های) شدید یا درخواست ذینفعان برای یافتن علت ریشهای رخدادها، میتواند نخستین گام باشد.
مدیریت مشکل پیشگیرانه
مدیریت مشکل پیشگیرانه به معنی شناسایی و حل مشکلات، پیش از وقوع رخداد است. فعالیتهای خاص مدیریت مشکل پیشگیرانه شامل ارزیابی ریسک، تحلیل تغییرات، تحلیل خطاهای لاگهای برنامه و جستوجوهای پیشگیرانه در پایگاه داده خطای شناختهشده و اطلاعیههای مربوط به محصول است تا مشخص شود که آیا اساساً لزومی به اصلاح و تعمیرات هست یا خیر.
سرمایهگذاری روی مدیریت مشکل پیشگیرانه میتواند یک مزیت ویژه برای مرکز عملیات شبکه سازمان به شمار بیاید. چون بسیاری از کسبوکارها در سرمایهگذاری روی منابعی که متناسب با این رویکرد باشد، شکست میخورند.
بهترین روشها برای مدیریت مشکل در مرکز عملیات شبکه
در ادامه، به معرفی و شرح چند روش کارآمد برای مدیریت مشکل در مرکز عملیات شبکه میپردازیم:
- استفاده از از راهکارهای موقت اهرمی (Leverage workarounds) در صورت لزوم: در صورتی که یافتن راهحل مشکل، دشوار و زمانبَر باشد، استفاده از یک راهکار موقت ضروری است. در موارد خاص، در صورتی که راهحل مشکل قابل اجرا و مقرونبهصرفه نباشد، ممکن است راهکار موقت تبدیل به یک راهکار دائمی شود. در این موارد، آن مشکل باید در پایگاه داده خطای شناختهشده باقی بماند تا، در صورت وقوع رخدادهای مرتبط، بشود از مستندات آن راهکار موقت استفاده کرد. در صورت خودکارسازی این راهکارهای موقت، گاهی آنها میتوانند بسیار کارآمد و مؤثر باشند.
- کسب اطمینان از اینکه ساختار مرکز عملیات شبکه میتواند به نحو کارآمدی، از مدیریت مشکل پشتیبانی کند: بیشتر فعالیتهای مرکز عملیات شبکه، از جمله مدیریت مشکل و مدیریت رخداد، فعالیتهایی 7*24 هستند که به منابع اختصاصی نیاز دارند. مطمئن شوید که ساختار پشتیبانی عملیاتی سازمان شما به نحوی است که به مدیران اجازه میدهد فعالیتهای معمول را به تیمهای سطح اول، با هزینهی پایین، اختصاص بدهند و به این ترتیب، تیمهای فنی سطح بالاتر را قادر میسازند که روی مسائل پیشرفتهتری مانند تشخیص و حل مشکلات تمرکز کنند.
- در اولویت قرار دادن مدیریت مشکل پیشگیرانه: تمرین مرتبِ مدیریت مشکل پیشگیرانه به شما کمک میکند تا فرصتهای جدید برای بهبود را سریعتر و سادهتر کشف کنید. البته که خارج کردن سازمان از وضعیت واکنشی و سرمایهگذاری روی مدیریت مشکل پیشگیرانه کار سادهای نیست. اما چنانچه بتوانید روی این کار سرمایهگذاری کنید، میتوانید به جای اینکه همهی تمرکزتان را روی حل مشکلات پیشبینینشده بگذارید، روی بهینهسازی فرآیندها، فناوریها و استعدادهایتان متمرکز شوید.
- سرمایهگذاری روی کارکنان مرکز عملیات شبکه: مطمئن شوید که کارکنان مرکز عملیات شبکه از آموزشهای فنی کافی برخوردار هستند و از ارائهی فرصتهایی برای پیشرفت شغلی آنها غافل نشوید. هدفتان باید ایجاد و تقویت دانش فنی کارکنان مرکز عملیات شبکه باشد تا آنها در مواقع نیاز، تجربه و تخصص لازم برای کشف مشکلات پیچیده و یافتن راهحلها را داشته باشند. برنامهی آموزشی کارکنان مرکز عملیات شبکه باید هم شامل آموزشهای اولیه باشد و هم آموزشهای مداومی که تضمین کند کارکنان شما پیوسته در حال پیشرفت هستند. همچنین، مسیر مشخصی برای روند پیشرفت کارکنان از یک سطح به سطح بالاتر یا انتقال به بخشهای دیگر سازمان در نظر بگیرید. میتوانید با سرمایهگذاری روی کارکنانی که در حال حاضر در سطح یک کار میکنند، در بلندمدت آنها را به متخصصانی برای حل مشکلات پیچیده تبدیل کنید.
مزایای فرآیند مدیریت مشکل برای مرکز عملیات شبکه
از مزایای داشتن یک استراتژی مؤثر برای فرآیند مدیریت مشکل در مرکز عملیات شبکه میتوان به موارد زیر اشاره کرد:
- کاهش تعداد رخدادها
- تسهیل فرآیندهای پشتیبانی مرکز عملیات شبکه
- بهینهسازی فناوریها
- برخورداری از کارکنانی با دانش و کارآیی بیشتر
- ارائهی خدماتی با کیفیت بالاتر
- افزایش سطح دسترسپذیری خدمات یا افزایش آپ تایم
- کاهش هزینهها
- بهبود رضایتمندی مشتریان.
چارچوب مدیریت مشکل را میتوانید متناسب با نیازها و محدودیتهای واحد پشتیبانی مرکز عملیات شبکهی سازمان خود، جرح و تعدیل کنید. مدیریت مشکل مؤثر و کارآمد، با استفاده از هر دو رویکرد واکنشی و پیشگیرانه، میتواند به سازمانها کمک کند که ارزشهای خود را اثبات کنند، در پِی کسب بهرهوریهای جدید باشند و بر مشکلات زیرساختی غلبه کنند.
منبع: www.inoc.com
اگر به مباحث کاربردی و اخبار فناوری اطلاعات علاقهمندید، یادتان نرود آدرس ایمیلتان را در فوتر سایت (عضویت در خبرنامه) بنویسید تا شما را در جریان آخرین مطالب گروه فناوری پرند قرار دهیم.