小组讨论:尹智逊、赵宝忠、刘荣、唐雪宗 Mean Time Between Failure 平均故障时间 Member赵宝忠刘荣尹智逊唐雪宗
小组讨论:尹智逊、赵宝忠、刘荣、唐雪宗 Understanding 'Mean Time Between Failure' One file One file By George Spafford, Datamation By George Spafford, DatamationGeorge SpaffordGeorge Spafford May 14, 2004 May 14, 2004
小组讨论:尹智逊、赵宝忠、刘荣、唐雪宗 Mean Time Between Failure (MTBF) 平均故障时间 常用的管理指标 常用的管理指标 系统可靠性 系统可靠性 适用于完整系统 适用于完整系统 同样适用于系统构成的部分 同样适用于系统构成的部分
小组讨论:尹智逊、赵宝忠、刘荣、唐雪宗 Mean Time Between Failure (MTBF) 定义 MTBF --故障间的平均时间 MTBF --故障间的平均时间 historical data 历史数据 historical data 历史数据 estimated by vendors 厂商的估算 estimated by vendors 厂商的估算
小组讨论:尹智逊、赵宝忠、刘荣、唐雪宗 Mean Time Between Failure (MTBF) 不可完全信赖 MTBF breaks down MTBF breaks down Example Example –30,000 MTBF 指标的系统或部分 –30,000 小时= 3.42 年 – 连续 3.42 年的可靠运行可能吗?
小组讨论:尹智逊、赵宝忠、刘荣、唐雪宗 problem 建立在统计分析和理论计算之上 建立在统计分析和理论计算之上 – 估计 – 平均 无法克服意外和环境因素,如:温度、电源等 无法克服意外和环境因素,如:温度、电源等 容错 系统 ( fault-tolerance )的成本随 MTBF 的测算 水平的提高,大幅度提高。 容错 系统 ( fault-tolerance )的成本随 MTBF 的测算 水平的提高,大幅度提高。 容错 系统 ( 硬件,软件, 文件和程序 ) 随着整合应用 的复杂性的增加,变的更加复杂,更容易造成灾 害. 容错 系统 ( 硬件,软件, 文件和程序 ) 随着整合应用 的复杂性的增加,变的更加复杂,更容易造成灾 害.
小组讨论:尹智逊、赵宝忠、刘荣、唐雪宗 Coupling, Complexity and Normal Accidents 关联性,复杂程度 与正常意外事件 的关系
小组讨论:尹智逊、赵宝忠、刘荣、唐雪宗 Normal Accidents: Living with High Risk Technologies. 《正常的意外事件 : 与高风险技术为邻》 1984,Charles Perrow 1984,Charles Perrow one big failure 是造成系统意外的原因 one big failure 是造成系统意外的原因 无法预料的交互关联作用引起的 big failure 造成的系统意外更多 无法预料的交互关联作用引起的 big failure 造成的系统意外更多 比如说:飞机的坠落 比如说:飞机的坠落
小组讨论:尹智逊、赵宝忠、刘荣、唐雪宗 关联复杂系统引起的失败 错误是显见的还是隐蔽的 错误是显见的还是隐蔽的 复杂系统的大量成分造成的关联关系是不 可预期的,造成的失败也是不可理解的 复杂系统的大量成分造成的关联关系是不 可预期的,造成的失败也是不可理解的
小组讨论:尹智逊、赵宝忠、刘荣、唐雪宗 MTBF 避免不了系统失败 系统的意外失败不可避免 系统的意外失败不可避免 安全漏洞同样不可避免 安全漏洞同样不可避免
小组讨论:尹智逊、赵宝忠、刘荣、唐雪宗 Mean Time to Repair (MTTR) 平均恢复时间 Let ‘ s face it ,意外是必然会发生的 Let ‘ s face it ,意外是必然会发生的 容错的安全感是假象 容错的安全感是假象 期待 3.42 年的不间断运行是不现实的 期待 3.42 年的不间断运行是不现实的 最重要的是当系统必然失败的时候,恢复 起来是否容易 最重要的是当系统必然失败的时候,恢复 起来是否容易
小组讨论:尹智逊、赵宝忠、刘荣、唐雪宗 高容错系统的优劣 一方面,容错系统失败的可能性小 一方面,容错系统失败的可能性小 一方面,容错系统一旦失败将不可收拾 一方面,容错系统一旦失败将不可收拾 高可用性 (High Available) 系统 高可用性 (High Available) 系统
小组讨论:尹智逊、赵宝忠、刘荣、唐雪宗 高容错系统的建设 大量投资 大量投资 硬件,软件,程序,训练和有效的文件的 一个组合 硬件,软件,程序,训练和有效的文件的 一个组合 建设 建设 – 硬件 – 软件需求 – 程序、训练、文件
小组讨论:尹智逊、赵宝忠、刘荣、唐雪宗 高容错系统与易恢复系统 具有同样的意义 具有同样的意义 – 高容错系统减少停工时间 – 易恢复系统节约恢复时间
小组讨论:尹智逊、赵宝忠、刘荣、唐雪宗 MTBF 的应用领域 IT IT 电力系统安全运行 电力系统安全运行
小组讨论:尹智逊、赵宝忠、刘荣、唐雪宗 MTBF 的应用时机 系统规模 系统规模 管理成本 管理成本 应用能力 应用能力
小组讨论:尹智逊、赵宝忠、刘荣、唐雪宗 THANKS