在本文中,Control Techniques 的首席工程师 Colin Hargis 研究了变速驱动器的可靠性和故障之间的关系。
可靠性是什么意思?
这似乎是显而易见的,但有必要仔细思考我们的意思。这并不是要掩盖问题,只是为了确保我们专注于真正重要的事情。例如,可靠性和预期寿命之间经常存在混淆,两者都很重要但不一定相关。
如果您购买了一件设备,那么您希望它能够在需要的时间内正常工作。没有什么是完美的,因此您接受它有可能比预期更早失败的可能性很小。它可能会被损坏,或者可能会无缘无故地失败。如果后者发生在保修期内,那么您希望免费更换。您还接受它最终会磨损或过时。根据设备的性质,您可能会接受它需要定期维护,可能包括更换易损件。
术语“失败”意味着设备不再满足您的需要。它可能会完全停止工作,或者可能会改变其特性,从而不再满足其规范的必要方面。
设备可能会因为遇到不适合工作的情况而停止工作。例如,环境温度可能过高,或者环境的某些其他方面超出了预期范围,因此会发生保护性跳闸,当情况得到纠正时可以重置该保护性跳闸。对于VSD,可能是负载扭矩过高,或者电源受到干扰,或者可能发生了意外的控制信号状态。如果这种情况经常发生,那么用户可能会认为设备不可靠,即使它没有故障并且符合其规格。感知的可靠性可能在某种程度上取决于设备生成的诊断数据的清晰程度和帮助程度。
也可能是,VSD 的仔细设置可以通过根据情况进行调整来避免跳闸 - 例如,通过生成和使用接近跳闸水平的某些参数的警报警告,或者通过更改其操作模式,以便行程结束后自动尝试重新启动。对于需要高可用性的应用程序,重要的是检查可能发生的异常情况,并确保驱动器设置为在遇到这些异常情况时能够正常运行。
如果您负责一个拥有大量设备一起运行的大型工厂,那么您必须接受,在任何时候,一定比例的设备都会出现故障并需要维修或更换。在这种情况下,您可能有整个工厂和每台设备的可用性目标,并且您根据已知的统计数据和可用性目标来计划维护和维修过程。在这种情况下,最常使用平均故障间隔时间 (MTBF) 等数据。
平均无故障时间 (MTBF) 和平均无故障时间 (MTTF)
MTBF的概念意味着大量相同的设备连续运行,一旦出现故障就立即更换。MTBF 就是每次故障事件之间的平均时间乘以设备数量(通常以小时为单位)。如果您还知道维修/更换的平均时间,那么您可以规划目标平均可用性,或安排一定程度的冗余以在需要时提高可用性。
MTTF 是更严格、正确的衡量标准,适用于单个设备,而不是故障后修复的完整系统。对于维修/更换时间远短于 MTTF 的电子设备,这些措施之间的差异可以忽略不计。
成熟的电子设备在其工作寿命期间会以恒定的速率出现随机故障。每个故障实际上都有一个根本原因,因此它不是严格随机的。然而,由于设备通常包含大量小部件,每个部件的故障率都非常低,因此总体效果是低但随机的故障模式。
MTTF/MTBF 数据仅在故障率恒定时才有用,这意味着故障在时间上是随机的。如果设备磨损,或者早期故障率升高,或者外部事件偶尔触发多次故障,那么简单的统计就不起作用。通过计算和现场故障分析,MTTF/MTBF进一步讨论了 MTTF 的计算。
预期寿命和磨损
一些设备的预期寿命受到一种或多种磨损机制的限制。这对于磨损的运动部件来说是最常见的。在电子驱动器中,这适用于冷却风扇和可能的继电器。一些电子元件具有明显的磨损机制;这尤其适用于电解电容器,但也可能适用于功率半导体,甚至连接器等,因为热循环会导致机械磨损或疲劳。
个别物品的预期寿命在样本之间存在随机变化,因此需要进行统计测量。L10 参数是衡量具有已知磨损机制的设备的预期寿命的一项指标,它是指大样本设备中 10% 发生故障之前的运行时间。有时 L1 数据可能可用。有时,还会给出 MTTF 数字来指示预期寿命。这里存在很大的混乱范围,因为任何复杂程度的设备在其工作寿命期间也会出现随机故障。那么需要明确 MTTF 数字是指寿命终止还是正常服务中的随机故障。
具有已知磨损机制的物品的个体寿命在样品之间也有所不同。因此,设备有可能具有良好的可靠性(较长的随机 MTTF)和较短的预期寿命,或者相反。
磨损也很可能取决于操作环境。例如,风扇的预期寿命很大程度上取决于空气温度、运行速度以及灰尘或其他污染物的存在。
早期失败
当设备是新的或很少使用时,其故障率可能会升高。这是由具有缺陷的部件引起的,这些缺陷未通过测试发现,但通过使用或时间暴露出来。设备制造商的技能之一是设计一个产品测试例程,该例程尽可能有效地揭示缺陷,但不会使用可能实际上导致故障或初期故障的过度压力。
维护
维护是管理已知预期寿命有限的零件的机会,但代价是停机和劳动力。更换可以根据简单的时间表或通过测量一些指示性参数(视情况维护)来进行。设备的设计应便于维护,可以方便地检修寿命有限的部件,也可以方便地更换整个设备。
环境
设备的可靠性始终对其环境敏感。对于电气设备来说,温度很重要,因为温度升高会加速许多组件的降解机制。其他必须控制的关键参数包括湿度、腐蚀性或导电物质的存在、机械效应(例如空气堵塞、冲击和振动)以及多种电磁影响。设备将具有这些参数的规范。该规范需要对于预期应用来说是合理的。
通过计算和现场故障分析得出的 MTTF/MTBF
某些行业的采购规格有要求 MTBF 或 MTTF 数据的传统。显然,从上述解释来看,在规划大型或关键装置或网络的可用性时,有必要制定考虑预期故障率的维护计划。传统的电子设备“计算”技术使用大量常用电子元件的故障率数据库,以及显示温度、电压等相关应力影响的应力因素。该数据库是根据失效故障的行业分析而编制的。设备。
MTBF 计算得出的数字对零件数量很敏感。这些数据库在传统元件和常见集成电路的覆盖范围方面非常成熟。它们并没有真正解决特殊用途的大规模 ASIC,也没有解决最近发布的专业设备,例如 VSD 中使用的先进功率半导体。它们可以通过要求对每个组件进行应力计算来帮助设计人员,这有时可能会显示出意想不到的高应力,从而引发设计改进。然而,结果与现实相去甚远。
例如,使用少量 ASIC 和智能功率模块 (IPM) 等高度集成器件的设备,部件数量较少,但与使用大量成熟的简单组件和分立功率器件的设备相比,其 MTBF 更优越。事实上,这种差异是错误的。这两种设计在实践中都可以提供更好的可靠性,具体取决于组件和设计的质量。
产品设计的低零件数方法非常有效,因为它具有明显的好处,可以减少零件和焊点的数量,以及最终产品制造中的制造操作的数量,其中任何一个都可能失败。但这是有风险的,因为 ASIC 是专门设计的且复杂,因此很难进行全面测试,并且通常未经过使用验证,而 IPM 限制了设计人员调整和控制关键功率半导体工作条件的自由。
MTBF 数据无法区分真正可靠的设计。传统计算的MTBF数字实际上用途非常有限,并且在一定程度上已经失去可信度,美国军事数据库的停产就说明了这一点。Control Techniques 不为其产品提供此类数据。
制造商采用一种完全不同的 MTBF 方法,通过客户退货来跟踪现场故障。从客户体验的角度来看,这可以非常真实地描述产品的整体质量。通常,现场故障得出的 MTBF 比“计算”值长 10 到 100 倍。
大多数信誉良好的制造商都会密切跟踪客户退货数据,并制定持续改进的目标,以及检测退货率任何增加并做出反应的流程。实际的退货率具有商业敏感性,制造商不愿意透露这些数据是可以理解的。Control Techniques 将根据特殊要求提供长期现场故障率数据。
现场故障和“未发现故障”(NFF)
任何设备制造商都有这样的经验:一定比例的客户退回的产品在测试时发现工作正常。如果他们跟踪退货率以提高制造质量,那么他们将忽略 NFF,因为它们与制造无关。就客户满意度和感知可靠性而言,NFF 可能很重要。他们的意思是该产品未能满足客户的期望。在此过程中,实际需求与实际能力之间存在不匹配。
有些故障的发生是由于客户错误使用产品,导致产品无法正常运行,甚至损坏。有时这是由于简单的人为疏忽造成的。有时,工作条件与预期不同,这是无法合理预见的。从致力于提高制造过程质量的制造商的角度来看,这些案例必须被过滤掉和忽略。然而,制造商始终必须仔细考虑数据和说明是否足够清晰。
变速驱动器的一个例子是,由于安装人员将主电源连接到输出而不是输入而导致少量但持续的现场故障。对于驱动器设计人员来说,这显然是一个严重错误,很可能会导致驱动器发生重大损坏,并表明其无能。然而,如果您考虑到一个在时间压力下工作的电气安装人员,他更熟悉断路器、接触器和电机等更简单的电气设备,那么这可能更容易理解。制造商必须尽力帮助安装人员避免此类错误。在不增加不可接受的成本的情况下不可能设计出一种能够防止这种错误的驱动器,但至少可以确保终端有清晰的标记。
MTTF/MTBF 问题
从上文可以清楚地看出,指定给定的 MTTF/MTBF 数据是通过计算还是通过现场数据非常重要,因为两者无法进行比较。还需要确认的是,它指的是随机的使用中故障,而不是预期寿命。
如果产品选择正确且工作环境符合预期,则实际故障率应与现场故障率数据相似。如果故障率比这严重得多,那么操作条件或环境的某些意外方面可能会影响可靠性。对于新的应用程序,可能很难预测可能导致可靠性降低的各种意外影响,并且用户有责任尽可能了解可能影响可靠性的地点和使用模式的所有方面。制造商必须尽力确保尽可能清晰、全面地指定驱动器所需的操作条件,并且它们与预期应用领域的合理预期的实际条件相匹配。
功能安全应用
有一个特殊的应用领域,其中驱动功能与安全相关,即它们必须正确工作以确保人员安全。例如 Safe Torque Off 功能和 SI-Safety 系统集成模块。该设计使用特殊的高完整性硬件和(通常)软件。完整性等级由SIL或PL定义,需要计算由硬件故障引起的安全功能在危险方向上失效的概率。故障数据以 PFH(功能每小时发生故障的概率)或 MTTFD(危险方向的平均故障时间,以小时为单位)表示。该数据是根据机器控制系统安全性批准的协议计算的,与上面讨论的驱动器的可靠性无关。
更多信息
可向英国纽敦的技术部门索取当前产品的现场故障 MTTF 数据。由于上述原因,公司不生成计算的 MTTF/MTBF 数据。
总结/要点
- 设备的故障率用平均故障时间(MTTF)或平均故障间隔时间(MTBF)表示,通常以小时表示。在讨论单个设备时,MTTF 是严格正确的参数,但 MTBF 也很常用,并且对于大多数用途而言,两者之间没有显着差异。
- MTTF 的简单单一值基于已投入使用的设备,以便排除早期故障,但在严重磨损开始之前。它是衡量设备正常工作寿命期间发生随机故障的可能性的指标。
- 通过组件故障数据库获得的传统计算 MTBF 数据的用处有限,并且不能对实际应用中的可靠性做出现实的预测。它往往短得不切实际,但这取决于电子元件集成度等细节,而这与实际可靠性关系不大。控制技术不使用它。
- 更好的 MTTF 测量是从现场故障中获得的,这可能具有商业敏感性,但可以从 Control Techniques 获得其主要驱动器系列。
- 计算得出的 MTTF 和现场故障得出的 MTTF 有很大不同,无法进行比较。
- 来自现场故障的 MTTF 数据可用于帮助规划整个系统所需的可用性。
- MTTF 与预期寿命(即磨损时间)无关。易损件可能有其他数据,例如 L10。具有可预测寿命的易损件不会导致不可靠性。
- 对于像变速驱动器这样的复杂产品,实际体验或感知的可靠性可能更多地取决于其应用和工作环境,而不是其随机故障率。驱动器内置的各种保护功能可防止异常情况下的损坏或危险,通常会在调用时停止(跳闸)驱动器。非常重要的是,应根据驱动器规格仔细评估给定应用的预期条件,并适当考虑可能的异常条件(例如过载、临时电源损耗、温度过高等)的影响。可用性很重要,因此通常可以选择最大限度地减少驱动器跳闸且无法重新启动的可能性的操作模式。
- 在分析现场故障数据时,通常会排除没有明显故障或因误用而损坏的退回设备,因为这与制造过程的质量无关。然而,由于任何退回的设备都意味着客户不满意以及一定程度的误解,因此制造商应监控这些退货并不断重新评估设备人机界面设计及其用户文档等方面,并考虑是否可以对其进行改进以减少数量明显的现场故障。
- 用于评估可靠性和可用性的故障率数据(例如 MTTF)与与安全功能相关的数据(例如 PFH 和 MTTFD)完全不同。