5 סימני אזהרה על כשל בציוד קריטי

תוֹכֶן

מה זה MTBF?
ניתוב
מתגים
כוח גמיש
אין באגים, אין מתח - המדריך השלב אחר צעד שלך ליצירת תוכנה לשינוי חיים מבלי להרוס את חייך
אחסון מוגן
שרתים
MTBF: זה יכול להיכשל מדי

להסיר:

צמצום השבתה באמצעות תכנון מקדים קפדני עשוי להיות ההבדל בין צמיחה לירידה בעסקים. זה איפה שזמן ממוצע של כישלון נכנס.

אל תזלזל בכמה תאגידים של היום מסתמכים על מערכות קריטיות בכל יום ויום. זו הסיבה שהשכל הישר היחיד שלה הוא שעסק יכול לאמוד את הסיכון לכישלון בציוד. ללא כל התחייבות למועד בו ציוד כלשהו עלול להיכשל, חייבת להיות לפחות הערכה מדויקת למועד בו כבר לא יכול להיחשב אמין.

פריט ציוד אחר שאינו נראה לעין אולי לא נראה קריטי לעסק, אך כאשר מאוורר קירור בודד נכשל, גורם לגנרטור לוותר על רוח הרפאים וגורם לעשרות ואף מאות אלפי משתמשים לבעיות יקרות במשך תקופה ממושכת, אתה יכול ראה כי היכולת להעריך אילו רכיבים בתשתית שלך עלולים להיכשל - ומתי - היא בעלת חשיבות עליונה. נתונים שבהם נקבע זמן ממוצע בין כישלונות (MTBF), השיטה עליה מסתמכים אנשי IT לתת מדויק הערכות לגבי מתי ציוד קריטי ייכשל. כאן אנו מסתכלים מה הורג סוף סוף כמה סוגים נפוצים של ציוד קריטי, וכיצד MTBF יכול לעזור להציל את היום.

מה זה MTBF?

לכל פריט ציוד IT המיוצר מוקצה מספר דגם ייחודי. אלה שממלאים חלק בתשתיות קריטיות מסופקים ללקוחות עם הערכת MTBF. החישובים המורכבים לבדיקת ה- MTBF עבור פריט ציוד מתקיימים בשלב הבדיקות הארוך במחקר ופיתוח מוצרים והם ספציפיים יחסית לדגם מסוים.

אם אתם מחפשים למצוא את ה- MTBF עבור ציוד מסוים, תוכלו למצוא אותו בגיליון המפרט המפורט שסופק על ידי היצרן. אתה יכול גם ליצור קשר ישירות עם היצרן.

ניתוב

נתב בדרגה ארגונית כולל חלקים רבים, חלקם נעים ואחרים סטטיים. יחידות אספקת חשמל (PSU) ומאווררי קירור שניהם בעלי חלקים נעים, ואל אותם אלמנטים הנוטים להיות נקודות כשל, במיוחד אם היחידה אינה שוכנת במרכז נתונים נטול אבק יחסית. למרבה המזל, עם כמה קלט של מנהל מערכת רוב הנתבים ידווחו ל- SysLog מתקן, כך שניתן יהיה לסמן כל רכיב שנכשל.

מתגים

לאורך וריד דומה, הרמה הבאה ברשת ארגונית היא חומרת המיתוג. אף על פי שהמתגים בדרגת הארגון נוטים לסמוך על מאווררים, לרוב ישנם פחות מהם מאשר אלו שנמצאים בתוך שלדת נתב. אם המנגנונים המסתחררים של המעריצים שלמים, בדרך כלל מתג לקוי יתנהג באופן שגוי ברמת התוכנה, אם על ידי השבתת יציאת מתג באופן לא צפוי, או, באופן שכיח יותר, הפגנת התנהגות חריגה כמו הטלת מנות, גרימת רמות משתנות של תנועה או שינוי שגוי הגדרות מוגדרות על ידי המשתמש מבלי שהתבקש לעשות זאת.

רשת הרשתות סיסקו מפרסמת את אחד הנתבים שלה כבעל MTBF של 188,574 שעות עבור דגם Cisco Catalyst 3750G-24TS. אם נחלק את זה ב -8,765.81277 (מספר השעות בשנה), אנו רואים שלמודל זה אומדן MTBF הוא בערך 21.5 שנים. נתון זה מהווה ביטחון מסוים כשאתה מחשיב כי ציוד זה צריך לבצע ביצועים 24/7 ללא פגמים, אם כי כמובן שבפועל זה פשוט אינדיקציה לאמינותו. אף על פי כן, זה נותן למשתמשים ניחוש משכיל עד כמה זמן ניתן לצפות בציוד זה שיימשך.

כוח גמיש

ספקי כוח בלתי ניתנים להפרעה (UPS) המחוברים למספר גדול של סוללות יכולים לספק כוח גיבוי בתוך הארגון במהלך הכישוף הקצר לפני שגנרטורים מסתובבים במהלך הפסקת חשמל. תקלות תוכנה ספציפיות מסוימות יכולות להתממש בתוך UPS, כמו בכל פריט ציוד, אך באופן כללי, הסוללות שמהן הן שואבות חשמל בדרך כלל יגרמו לדאגה רבה ביותר. אם סוללת UPS מופעלת ומוטענת לעיתים קרובות, הקיבולת שלה תפחת מהר יותר וזמן ההפעלה שלה יתקצר באופן דרמטי. באופן לא מפתיע, זה אפשרי גם עבור סוללות UPS להיכשל לחלוטין. UPS יכול לדווח על מודמים ורשתות כאשר מתפתחים תקלות, אך לעתים קרובות יותר מאשר לא, UPSs ישנים יפעילו אזעקות נשמעות כאשר הבעיה מתעוררת לראשונה.

אין באגים, אין מתח - המדריך השלב אחר צעד שלך ליצירת תוכנה לשינוי חיים מבלי להרוס את חייך

אתה לא יכול לשפר את כישורי התכנות שלך כאשר לאף אחד לא אכפת מאיכות התוכנה.

אחסון מוגן

הדיסקים הקשיחים בהם אנו משתמשים כיום וסומכים עליהם במידה כה גבוהה הפכו אמינים יותר באופן משמעותי בעשור האחרון בערך. עם זאת, הם רחוקים מלהיות בלתי ניתנים לאי-תקנה, ובהתאם לאיזה מחקר אתה עשוי להאמין, נראה שהם מתפקדים כראוי במשך תקופה ארוכה יותר, תלוי במספר גורמים. (קטע דעה נהדר בנושא זה ניתן למצוא כאן ב- The Remarketer.) אם הדיווח המפורט מופעל והכונן מספק משוב על שגיאות, אז מגזרים פגומים וכשלי קריאה / כתיבה הם המפתח לאיתור כאשר דיסק בתוך מערך אחסון. נכשל. בעיה נפוצה נוספת בשרתים המשתמשים בכמה דיסקים המחוברים לבקר RAID היא שהבקר עצמו ייכשל. לרוע המזל, לפעמים דיסקים קשיחים פשוט מפסיקים לעבוד ללא אזהרה כלשהי, נושא שקשה לשמור עליו באופן מהימן.

שרתים

מלבד הכוננים המובנים בשרתים והחלקים הנעים, כמו מאווררי הקירור האמורים ו- PSUs, מספר בעיות יכולות להתעורר גם ברכיבי חומרת השרתים. דיווח ברמת התוכנה (שמתייחס לרוב ל- BIOS או לאבחון רכיבי חומרה אחרים ברמה נמוכה) הוא המפתח לאיתור כאשר הדברים נכשלו, או חשוב מכך, מראים סימנים של כישלון. נושא שאולי לא ברור מאליו הוא הנוגע ללוחות האם. זה הגיוני לחלוטין שמכונות לא אוהבות יותר מדי חום. אבל גם היום, אם לוח מעגלים מודרני נתון לאובדן חום מהיר - או עובר מלהתחמם מאוד עד שפתאום מתקרר - עלולים להופיע סדקים, מה שגורם ללוח להיכשל בצורה הרסנית. נושא שכדאי לזכור, במיוחד אם אתה מעביר ציוד בין בניינים בתוך חלונות תחזוקה ללא מסגרת זמן.

MTBF: זה יכול להיכשל מדי

חשוב ככל שתחזיות MTBF חשובות לחישוב רמות סיכון מקובלות עם כל ציוד שעליו עסק צריך להסתמך. למרבה הצער, אפילו עם כל ההבטחות הסטטיסטיות שמספקים היצרנים, הדרך הקונקרטית היחידה להבטיח את זמינות הציוד שמריץ מערכות קריטיות היא על ידי הכפלתו עד שתאפשר מעבר של פסק זמן.

כל פיסת חומרה פרטנית המשמשת בארגון מורכבת מרכיבים רבים ושונים, כך שה- MTBF האמיתי רחוק מלהיות חישוב טריוויאלי. ברור כי קריטי לא להניח עתיד של עסקים על מדידות הסבירות הללו אלא להשתמש בהן כאבן מידה לקבלת החלטות מושכלות ביחס להמשכיות עסקית ונהלי התאוששות מאסון. אחרי הכל, צמצום השבתה באמצעות תכנון מוקפד מראש עשוי להיות ההבדל בין כישלון עסקי ומצליח.