基于数据驱动的多模型故障诊断

作者：胡朝力1，周刚2，张知宇3，陈宁宁3，吴维维3（1.国网浙江省电力有限公司平湖供电公司，浙江嘉兴 314000；2.国网浙江省电力有限公司嘉兴供电公司，浙江嘉兴 314000；3.国网浙江省电力有限公司海盐供电公司，浙江嘉兴 314000）时间：2022-11-25来源：电子产品世界收藏

摘要：故障通常特指某个系统或某个运行过程的一系列相关参数丧失了规定性能的状态，或者在特定场景下控制指标出现了偏差。故障不可避免，故障影响了电力系统正常安全稳定运行。为此迫切需要快速识别诊断故障。本文基于数据驱动算法，详细对比分析了多种基于机器学习主流模型故障诊断的方法，并通过实例验证了模型的有效性以及优越性，对模型的选择具有重要参考意义。

本文引用地址：http://www.amcfsurvey.com/article/202211/440879.htm

关键词：故障识别；机器学习；数据驱动

0 引言

被控系统处于非正常运行情况时，若能够采用某种技术快速实时在线检测故障并且能基于先进定位技术判别故障点准确位置，并尽可能做到故障的预警，便能减轻故障带来的一系列危害，此类技术即为故障诊断技术，可以对发生故障位置进行锁定。此类技术具有低延时、灵敏性以及准确性都对系统正常运行起着至关重要的作用。

目前关于故障诊断的方法主要有 k 最近邻算法（k-nearest neighbor, KNN）、支持向量机（support vector machine, SVM) 的循环迭代诊断方法以及与差分自回归移动平均模型（autoregressive integrated moving average , ARIMA) 方法。此外，由于采样数据集庞大，算法计算时间较长，对故障诊断的时效性进一步带来挑战。为此，本文采用 Kid 树算法提速增效。

本文分别依次采用上述 3 种主流算法与 Kid 树算法相结合，对变压器数据集进行故障诊断。数据集将分为完整数据集、缺失数据集以及粗糙数据集（未经数据预处理的数据集）三个场景，分别多场景下逐一比较故障诊断准确率，对算法的适用性做了详细的分析。

1 故障诊断框架

在飞速发展的大数据时代背景下，电力采用数据也进入井喷式增长阶段，紧随而来的是庞大的计算数据量和建模复杂度。迫切需要一种可适用于冗余数据的计算方法，目前基于数据驱动的自适应故障识别预警的方法受到工程界与学术界的一直关注。其特征主要表现为对海量、异源、高维数据甚至非数值数据的采样数据（视频数据、图像数据等）进行挖掘计算和信息处理。PMU 等高精度、高频率、多维度的采样数据得到广泛的应用，故障诊断可针对采样设备采集所得的各种不同类型数据、不同来源数据进行快速的诊断以及预警。数据包括图像数据、视频数据、数值数据甚至抽象数据，数据的采样频率不同、属性不同、来源不同，甚至维度不同。当数据维度不一致时，需要采用相关的降维数据，将异源数据归一化为结构属性一致的数据。在数据一致的基础上，采用相关的挖掘算法，挖掘可以表征系统运行属性特性的数据，此类数据信息可以判断系统是否为正常状态，从而实现达到系统的检测与诊断功能，本文所提出的故障诊断的逻辑结构框架如图 1 所示。

图1 数据驱动的故障诊断框架

基于数据驱动故障诊断的机理框架如图 1 所示，可采用时间序列分析、经验分解的基础算法处理原始数据，并同时进一步分析数据处理结果。分析过程包括基于数据特征的手动设计以及数据预处理（特征选择、数据降维等）。最后基于构建的模型进行数据的训练，并基于训练的模型输出故障诊断结果。

2 算法理论模型

2.1 基于k-Nearest Neighbor(kNN)数据修复理论

k-Nearest Neighbor(kNN) 算法通过计算相邻点的距离来判断异常点。该算法主要用于寻找某类特征相似、数据接近的邻近样本，根据样本计算的距离判断是否异常。相同故障通常相关特征指标接近，为此可采用 kNN 用于相关缺失数据或者异常数据的修复。kNN 算法的理论模型如下：基于采集获得的样本初始数据集，通过数据预处理方式，确定缺失样本数据集；确定待修复的测试样本，历史数据集中通过 kNN 法寻找与某数据其最邻近的 k 个计算样本数据，统筹计算所得的 k 个样本数据，针对已知的缺失数据集预估。本文为突出显示故障发生时，其故障的不同数据相关指标间的关联性文提出了一种以相关计算指标的负指数作为特定的某类权值，然后采用曼哈顿 -D 作为样本间距离指标。

假设样本数据中已有 N 组样本历史数据作，每一组样本历史数据可以表示为：

采用相关系数法对需要计算的相关特征指标进行空间距离计算，该距离可以体现两类数据集数据与数据之间的空间相关性，与缺失数据的计算所得相关性越大，即为数据指标权重越小，表示所测试计算得到的样本，更容易趋近与强关联特征指标的计算训练样本。

选取 k 个最接近测试样本的训练样本，计算对应特征指标的平均值作为缺失数据的估计值：

与常规方法相比较（例如线性法、预测法等），kNN 主要通过数据修补的方法，按类型逐一修补丢失的数据，甚至对于不同结构属性的数据，可以先将异源异构的数据归一化处理后进一步修补。此方法可以挖掘归类不同数据的特征属性，并且由于此类算法打破了对时间序列原始数据的高度依赖，具备适用于故障特征类同的数据快速变动的场景下，针对丢失数据修复以及异常数据的辨识。

2.2 基于k-d 树的样本快速搜索策略

随着 PMU、RTU 等一系列高精度采样设备在配网、输电网中的广泛应用，电力数据也随之指数增长。以某省电网作为实力分析，其高精度的采样设备一个月的采样数据高达 GB 量级。若仍然采用传统的方法从海量的历史数据库中寻找与训练样本数据最靠近的 n 个训练数据，其传统各类指标性能皆无法满足实时故障检测的要求。以曼哈顿距离计算上述相关系数，此类方法适用于采用基于 k-d 树的样本搜寻技术，可以实现缺失数据的快速修复以及缺失数据的快速识别。

每一条样本数据设定若干个特征指标，因而传统的采样数据所得的样本数据往往是一个高维数据空间。k-d树是一种以分割数据空间，将空间分为 k 个子空间的运算方法，该方法通常应用于高维度的空间，进行对关键数据全域范围内的快速搜索。图 2 以一个 k 为 3 的 3 维空间的数据集合为例，简述 k-d 树的结构原理。

k-d 树的生成过程共分为如图 3 所示的 3 个步骤：

首先，计算样本数据的维度方法，根据维度计算方差数值大小并判断距离的远近以及是否为异常数据，方差越大则表面数据分散性越好；其次，采样 Split 进行数据维度的分割以及排序，将中间数据点作为中轴点，并且基于子空间进行数据点轴点分割；最后，判断子树规模是否达到预定值 k，若达到则终止，反之则循环第一步。

k-d 树每一个树叉网络的节点都为 k 维点的二叉树，任何子节点都可视作分割所得子空间的超平面，进一步对分割所得的空间进行无层次划分，从而构建可以应用在快速、高效检索的索引结构中。该方法可以应用在结构化存储，任何一个样本数据包含 k 个特征指标，并存放在 k-d 树的任意一个节点中。

通过图 4 可以分析得出如下结论：通过测试方法得到准确率性能比较，在提及的方法中，基于 k-d 树的快速搜寻法，该算法可以快速搜索附近区域范围的样本数值，其计算所需时长呈现出如下趋势：数据容量越大，所需时间越久，但是增幅并不明显。也就是当海量样本的场景下，该邻近搜索策略具有显著优势。

图4 不同搜索策略的性能对比

2.3 基于k-最邻近和SVM的循环迭代诊断方法

支持向量机（SVM）算法的基本思想是通过核函数将线性不可分的样本数据映射到高维特征空间，从而构造成一个潜在线性可分的问题。单一的 SVM 仅能解决一个二分类问题，本文根据器故障之间的差异性设计了包含多个 SVM 的多分类器，实现对 6 类变压器故障的准确诊断，多分类 SVM 分类器的结构如图 5 所示。

图5 采用多分类器的SVM模型机理结构

在数据丢失、数据异常的场景下，采用 kNN 方法首先进行对丢失数据的填补与校正。多分类 SVM 分类器的诊断数据必须是修复后的数据；缩小样本空间的范围，再缩小后的区域内再次重新利用 kNN 进行缺失数据估计。反复迭代直至邻近样本的故障类型与测试样的故障诊断结果相一致。故障诊断流程如图 7 所示，具体包含如图 6 所示的多个步骤：

图6 采用多分类器的SVM模型机理结构

如图 6 所示，首先通过原始数据输入，得到样本数据集；其次基于多分类 SVM 算法进行故障诊断；接着判断诊断结果与 k 的相邻的训练样本集的故障特征是否具有一致性，若一致，跳转至第 4 步，反之进入第 5 步；最后根据诊断结果，将修复所得的数据包括诊断结果存入历史数据集中。

2.4 AIRMA算法

差分自回归移动平均模型（autoregressive integrated moving average, ARIMA) 算法通常主要用于时间序列预测分析。时间序列的获取可以通过实验分析获得，也可来自相关部门的提供的数据。对于所得数据，首先筛查数据是否异常，分析这些点的存在是人为导致还是其他原因。保证所获得数据的质量，以便用于建立合适模型。

时间序列的数据预处理包数据的异常辨识、数据的缺失填补与修复、数据的降噪与降维、数据的冗余过滤等。在数据质量得到保障的条件下，AIRMA 算法可以精准预测，并以此作为分析依据，可以精准、及时掌握故障的预警信息，为故障预警提供保证。

图7 数据缺失场景下的诊断方案流程

3 硬件平台

本文设计了一套自适应诊断系统的硬件执行环境由信号源装置、故障指示器、诊断服务器 3 部分组成，具体搭建方法如下。

3.1 信号源装置

信号源装置连接在变压器结构的高压电量输出端，可在一组接地电阻元件的作用下，实现对温度控制设备的全面协调，从而使自适应诊断系统的实际应用需求得到较好满足。在单位传输时间内，两个不同的接地电阻元件分别与控制开关和信号源波段相连，前者可在感知变压器内部温度变化情况的同时，对剩余自适应电流进行集中性消耗，后者主要负责对输出的电量信号源进行精准调试，使系统内部的电子传输环境时刻保持相对稳定的应用状态。信号源装置右侧集中分布着多个输出波段结构体，且随着变压器设备所承担电压值水平的提升，这些物理波段的振荡行为也会逐渐趋于明显，直至变压器设备的内部温度实值达到额定量标准数值。

3.2 故障指示器

自适应诊断系统的故障指示器由直流型、交流型、交感变化型 3 种形式组成。其中，直流型故障指示器的连接适应性相对较弱，仅能负载直流型的变压器应用设备，当元件内的物理表现稳定值不断提升时，该类型设备极易出现熔断变化状态，从而加剧热缺陷行为的表现强度。交流型故障指示器的连接适应性具备一定的可更改能力，但仅能负载交流型的变压器应用设备，当元件内的物理表现稳定值不断提升时，该类型设备则能长期保持相对稳定的连接状态，因此可对热缺陷行为的表现强度进行一定的抑制性影响，从而为自适应诊断系统提供更多的可参考信息条件。

3.3 诊断服务器

在变压器内部过热缺陷故障自适应诊断系统中诊断服务器始终以主机集群的形式存在，可联合故障指示器，对变压器设备的内表面温度值进行精准确定，再借助信号源装置，实现对诊断执行指令的判别与处理。一般情况下，客户端主机作为诊断服务器模式的顶层执行结构，可根据已记录的变压器内部温度值水平，对自适应诊断权值进行设置，再借助输入网络信道，维护整个网络内的信息诊断环境，从而使得系统内的待处理数据信息能够具有较强的实用性价值。底层服务器的连接则必须完全遵照自适应诊断网络的实际规划需求，一方面记录客户端内的数据传输需求，另一方面将未完全消耗的温度值信息反馈至其他系统诊断元件中。

4 算例分析

本文归类整理了常规的故障类型，并将故障类型根据故障性质进行预先分类。本文收集了充足的基于精准采样设备获得的真实采样数据，该数据集包括了 T1、 T2、T3 三类温度数据，分别表示低温低温、中温、高温数据异常；局部放电、低能放电和高能放电三典型故障和正常状态 Normal(N)，并通过插值填补的方法弥补缺失数据。相关各场景下故障准确诊断率结果如表 1 所示。本文进一步采用了分层过滤的数据处理方法，将采样所得的数据进行分层次过滤，第一层用于过滤周期窄带干扰信号，第二层用于消除白噪声，第三层用于抵御脉动干扰，将连续性、周期性比较高的数据进行滤波，尽可能高频率采集数据。分层过滤抗干扰模型原理图，如图 8 所示。

图8 分层干扰过滤模型原理图

由表 1 深入分析可知，第 1 种方法采用完整的采样完整数据集，通过 SVM 的算法，实现了 83.17% 的故障准确率，与预期相近；但是倘若直接采用原始数据集，未采用 SVM 的辅助，故障准确率就下降至 68.25%，此结果与预期也相一致。此外，倘若采用原始数据集，且原始数据集存在数据缺失的情况，分类正确率有了进一步明显的下降，准确率仅为 59.09%。分析原因：当原始数据集缺失的不是关键数据，也就是丢失数据不包含关键性指标，则准确率还可以得到保障，但是缺失若为关键数据，则故障诊断准确率骤降，同时包含关键特征属性的数据缺失严重影响故障诊断的正确率。

利用的 kNN 法进行在数据缺失的场景下，对系统故障进行实时诊断，提供故障预警信息，此时故障诊断的正确率达到 78.64%，当数据没有丢失时，该方法可以达到 83.17%，为此可以得出此方法适用于数据缺失的数据集场景，也就是数据丢失对故障诊断影响并不大，仍能保持第 1 类方法得到的故障诊断的高准确性。表 2 和图 6 通过 1 个实例来进一步阐述两种方法的差异性。

(*,12.85,3.65,2.6,0) 为一组原始样本数据，各数值依次对应 5 个不同属性的特征指标。其中 * 表示缺失的 A 指标。采用本文所提出的方法在历史数据库中搜索到最终数据样本如表 2 所示，利用最邻近样本中 A2 含量平均值作为缺失数据的估计值与相对误差。利用修复后的样本数据进行故障诊断，结果为低温过热，与实际情况一致。利用 ARIMA 方法拟合该台变压器 A 含量的历史数据，对缺失值进行预测，结果如图 7 所示，估计值为68.02，基于该估计值进行故障诊断，结果为中温过热，诊断错误。

算例分析结果表明，本文所提出的故障诊断方法能够实现在缺失数据场景下的样本数据实时故障诊断，适用于大数据时代数据缺失常态化的场景，实际场景往往会因为通信中断、采样设备故障等原因发生数据的缺失。本文所提方法与与传统过度拟合预测等方法相比，在数据丢失的场景下本文的方法具有明显的优势。此外，本文所提方法的诊断速度也能满足要求。最后需要指出：本文所提出的方法也存在场景的局限性同，该方法仅适用于缺失数据的修复，但是不能辨识异常数据。变压器内部过热缺陷故障自适应诊断系统可在信号源装置、故障指示器、诊断服务器 3 类硬件设备结构的作用下，针对变压器内部的过热原因进行准确分析，再通过变压器负荷量计算的方式，实现对诊断信息存储数据库的平衡与稳定。实验结果显示，变压器直阻均值量与电流攀升量数值的下降，能够较好抑制变压器设备内部的温升变化行为，实现对电力消耗资源的合理保护。

5 结束语

本文根据数据驱动故障诊断机理，提出了一种频繁发生数据丢失或者数据异常的场景下的原始样本数据的实时的故障诊断方法。此环节中样本数据质量是最为关键的元素。为此为提高数据样本的质量，本文采用了相关数据修复方法，确保数据质量可靠。针对在线监测数据缺失问题，提出了一种基于缺失数据修复的在线故障诊断方法，所提出的方法在数据缺失场景下实现高准确率的故障在线诊断，适应当今大数据背景下数据异常频发的情况。与传统方法相比，本文所提出的方法在关键指标缺失和故障快速发展的情况下仍然具有较高的诊断准确率。

本文同时提出的新型变压器内部过热缺陷故障自适应诊断系统，在信号源装置、故障指示器等多个硬件设备结构的支持下，对设备过热原因进行准确分析，在联合变压器负荷量数值，实现诊断信息存储数据库软件的实时连接。自适应诊断系统的应用，实现了对电流攀升量数值上升趋势的较好抑制，能够较好维持变压器设备内部的平衡性温度变化状态。

参考文献：

[1] BEARD R V. Failure accommodation in linear systems through self-reorganization[R]. Report MVT-71-1, Man Vehicle Lab,1971.

[2] ALI A M, ZHANG Q. An innovations approach to fault diagnosis in linear time-varying descriptor systems[C].Control Conference. IEEE, 2014.

[3] 杨秋玉,阮江军,黄道春.基于改进Hilbert-Huang变换和支持向量机的高压断路器触头超程状态识别[J].电力自动化设备 ,2019,39(1):198-204.

[4] 刘琳.基于改进粒子群优化算法的微电网经济调度研究[J].上海电气技术,2020,13(2):5-9.

[5] 孙冰莹,杨水丽,刘宗歧,等.国内外兆瓦级储能调频示范应用现状分析与启示[J].电力系统自动化,2017,41(11):8-16.

[6] 魏承志,陈晶,涂春鸣,等.基于储能装置与静止无功发生器协同控制策略的微网电压波动抑制方法[J].电网技术,2012,36(11):18-24.

[7] 张兴科,魏朝阳,李征,等.包含高渗透率分布式电源的母线负荷区间预测[J].电网与清洁能源,2020,36(12):101-106.

[8] 黄维和,韩景宽,王玉生,等.我国能源安全战略与对策探讨[J].中国工程科学,2021(2):1-6.

(注：本文转载自《电子产品世界》杂志2022年11月期)

新闻中心

基于数据驱动的多模型故障诊断

评论

相关推荐

技术专区