Press "Enter" to skip to content

使用机器学习改进资产健康和电网韧性

这篇文章是与Travis Bronson和Brian L Wilkerson来自杜克能源公司的合著

机器学习(ML)正在改变每个行业、流程和企业,但成功的道路并不总是直线。在本博客文章中,我们演示了杜克能源与AWS机器学习解决方案实验室(MLSL)合作使用计算机视觉来自动化检查木质公用事业电线杆,并帮助防止停电、财产损失甚至人员受伤。

电网由电线杆、输电线路和发电厂组成,向数百万个家庭和企业提供电力。这些电线杆是关键的基础设施组成部分,受到各种环境因素的影响,如风雨和雪,这可能会对资产造成磨损。定期检查和维护电线杆对于防止导致停电、财产损失甚至人员受伤的故障至关重要。大多数电力公司,包括杜克能源,使用手动目视检查电线杆来识别与其传输和配电网络相关的异常。但这种方法可能成本高且耗时,并且要求输电线路工人遵循严格的安全协议。

杜克能源过去曾在日常运营中使用过人工智能来提高效率,并取得了巨大的成功。该公司已经使用人工智能检查发电资产和关键基础设施,并一直在探索将人工智能应用于电线杆的检查。在与杜克能源的AWS机器学习解决方案实验室合作期间,该能源公司通过使用先进的计算机视觉技术,自动化检测木杆的异常。

目标和用例

杜克能源与机器学习解决方案实验室之间的合作目标是利用机器学习来检查数十万高分辨率航空图像,自动化识别和审查所有与木杆相关的问题,跨越33000英里的输电线路。这个目标将进一步帮助杜克能源提高电网的弹性,并通过及时发现缺陷来遵守政府法规。它还将减少燃料和劳动成本,并通过减少不必要的卡车行驶来减少碳排放。最后,它还将通过减少驾驶里程、攀爬电线杆以及与地形和天气条件相妥协的物理检查风险来提高安全性。

在接下来的几节中,我们介绍了与开发强大高效的模型用于与木杆相关的异常检测相关的主要挑战。我们还描述了与采用各种数据预处理技术所涉及的主要挑战和假设。接下来,我们介绍了用于评估模型性能的关键指标以及我们最终模型的评估。最后,我们比较了各种先进的有监督和无监督建模技术。

挑战

使用航空图像训练检测异常模型的一个关键挑战是非统一的图像大小。下图显示了来自杜克能源的样本数据集的图像高度和宽度分布。可以观察到图像的大小有很大的变化。同样,图像的大小也带来了重大挑战。输入图像的宽度和长度都是几千像素。这对于训练模型以识别图像中的小异常区域来说并不理想。

使用机器学习改进资产健康和电网韧性 四海 第1张

样本数据集的图像高度和宽度分布

此外,输入图像包含大量无关的背景信息,如植被、汽车、农场动物等。背景信息可能导致模型性能不佳。根据我们的评估,仅有5%的图像包含木杆,而异常区域甚至更小。这对于在高分辨率图像中识别和定位异常是一个重大挑战。异常数量相对较少,与整个数据集相比。在整个数据集中,只有0.12%的图像是异常的(即1000张图像中有1.2个异常)。最后,没有可用于训练有监督机器学习模型的标记数据。接下来,我们将介绍如何解决这些挑战并解释我们的提议方法。

解决方案概述

建模技术

下图演示了我们的图像处理和异常检测流程。我们首先使用Amazon SageMaker Studio将数据导入到Amazon Simple Storage Service(Amazon S3)中。我们进一步采用各种数据处理技术来解决上述一些挑战,以提高模型性能。在数据预处理之后,我们使用Amazon Rekognition Custom Labels进行数据标记。标记数据进一步用于训练有监督的机器学习模型,如Vision Transformer、Amazon Lookout for Vision和AutoGloun以进行异常检测。

使用机器学习改进资产健康和电网韧性 四海 第2张

图像处理和异常检测流程

以下图示了我们提出的方法的详细概述,包括数据处理流程和用于异常检测的各种机器学习算法。首先,我们将描述数据处理流程中涉及的步骤。接下来,我们将解释在此过程中使用的各种建模技术的细节和直觉,以实现所需的性能目标。

使用机器学习改进资产健康和电网韧性 四海 第3张

数据预处理

提出的数据预处理流程包括数据标准化感兴趣区域(ROI)的识别数据增强数据分割以及最后的数据标记。每个步骤的目的如下所述:

数据标准化

我们的数据处理流程的第一步是数据标准化。在这一步中,每个图像被裁剪并划分为尺寸为224 x 224像素的非重叠补丁。该步骤的目标是生成尺寸统一的补丁,供进一步用于训练ML模型和定位高分辨率图像中的异常。

感兴趣区域(ROI)的识别

输入数据包括包含大量无关背景信息(例如植被、房屋、汽车、马、牛等)的高分辨率图像。我们的目标是识别与木杆有关的异常。为了识别ROI(即包含木杆的补丁),我们使用了Amazon Rekognition自定义标签。我们使用包含3k个标记图像(包含ROI和背景图像)的Amazon Rekognition自定义标签模型进行训练。该模型的目标是在ROI和背景图像之间进行二元分类。被识别为背景信息的补丁被丢弃,而被预测为ROI的补丁则在下一步中使用。以下图示了识别ROI的流程。我们生成了1110个木材图像的非重叠裁剪样本,生成了244,673个补丁。我们进一步将这些图像作为输入用于Amazon Rekognition自定义模型,将11,356个裁剪识别为ROI。最后,我们手动验证了这11,356个补丁中的每一个。在手动检查过程中,我们发现该模型能够正确预测出11,356个补丁中的10,969个木材补丁作为ROI。换句话说,该模型达到了96%的精度。

使用机器学习改进资产健康和电网韧性 四海 第4张

感兴趣区域的识别

数据标记

在对图像进行手动检查时,我们还为每个图像标记了它们的相关标签。图像的相关标签包括木材补丁、非木材补丁、非结构、非木材补丁,以及带有异常的木材补丁。以下图示了使用Amazon Rekognition自定义标签的图像命名规范。

使用机器学习改进资产健康和电网韧性 四海 第5张

数据增强

由于可用于训练的标记数据有限,我们通过对所有补丁进行水平翻转来增强训练数据集。这有效地使我们的数据集大小翻倍。

分割

我们使用Amazon Rekognition自定义标签的边界框对象检测标注工具对600个图像(电线杆、电线和金属栏杆)中的对象进行了标记,并训练了一个模型来检测这三个主要对象。我们使用训练好的模型从所有图像中去除了背景,通过识别和提取每个图像中的杆,同时去除了所有其他对象以及背景。由于去除了不包含木杆的所有图像,最终的数据集比原始数据集少了一些图像。此外,还有一个误报图像被从数据集中移除。

异常检测

接下来,我们使用预处理后的数据来训练用于异常检测的机器学习模型。我们采用了三种不同的异常检测方法,包括AWS托管的机器学习服务(Amazon Lookout for Vision [L4V],Amazon Rekognition)、AutoGluon和基于Vision Transformer的自蒸馏方法。

AWS服务

Amazon Lookout for Vision (L4V)

Amazon Lookout for Vision是受托管的AWS服务,可以快速训练和部署机器学习模型,并提供异常检测功能。它需要完全标注的数据,我们通过指向Amazon S3中的图像路径来提供这些数据。训练模型只需一个简单的API调用或控制台按钮点击,L4V会在幕后处理模型选择和超参数调整。

Amazon Rekognition

Amazon Rekognition是类似于L4V的托管AI/ML服务,它隐藏了建模细节,并提供许多功能,如图像分类、对象检测、自定义标注等。它提供了使用内置模型应用于之前已知实体的图像的能力(例如来自ImageNet或其他大型开放数据集)。然而,我们使用Amazon Rekognition的自定义标签功能来训练ROI检测器,以及针对Duke Energy特定图像的异常检测器。我们还使用Amazon Rekognition的自定义标签来训练模型以在每个图像中放置木杆的边界框。

AutoGluon

AutoGluon是由Amazon开发的开源机器学习技术。AutoGluon包括一个多模态组件,可以方便地对图像数据进行训练。我们使用AutoGluon Multi-modal对标记的图像块进行训练,以建立识别异常的基准。

Vision Transformer

许多最令人兴奋的新的AI突破都来自于两个最近的创新:自监督学习,使得机器能够从随机的未标记示例中学习;以及Transformer,使得AI模型能够选择性地关注其输入的某些部分,从而更有效地进行推理。这两种方法一直是机器学习社区的持续关注点,我们很高兴在这个项目中使用了它们。

特别是,与Duke Energy的研究人员合作,我们使用预训练的自蒸馏ViT(Vision Transformer)模型作为特征提取器,使用Amazon Sagemaker进行下游的异常检测应用。这些预训练的自蒸馏Vision Transformer模型以自监督方式在存储在Amazon S3上的大量训练数据上进行训练,利用了在大规模数据集(例如ImageNet)上预训练的ViT模型的迁移学习能力。这帮助我们在仅使用少量标记图像进行训练时,在评估集上实现了83%的召回率。

评估指标

下图显示了用于评估模型性能及其影响的关键指标。该模型的主要目标是最大化异常检测(即真阳性),并最小化误判为负面的次数,即将可能导致故障的异常错误分类。

一旦异常被识别出来,技术人员可以处理它们,防止未来的故障,并确保符合政府法规。减少误报的另一个好处是避免了再次浏览图像的不必要工作。

使用机器学习改进资产健康和电网韧性 四海 第6张

在考虑这些指标的同时,我们根据以下指标跟踪模型性能,这些指标概括了上述所有四个指标。

精确度

检测到的对象中实际异常的百分比。精确度衡量算法仅识别异常的能力。对于这个用例,高精确度意味着低误报率(即算法在图像中没有啄木鸟洞的情况下错误地识别为有啄木鸟洞)。

使用机器学习改进资产健康和电网韧性 四海 第7张

召回率

所有异常中被恢复的百分比,针对每个感兴趣的对象。召回率衡量我们识别所有异常的能力。该集合捕捉到一定百分比的全部异常,这个百分比就是召回率。对于这个用例,高召回率意味着我们在发生啄木鸟孔时能良好地捕捉到它们。因此,在这个POC中,召回率是我们关注的正确指标,因为虚警充其量只是让人烦恼,而错过的异常如果不被注意到可能会导致严重后果。

使用机器学习改进资产健康和电网韧性 四海 第8张

较低的召回率可能导致停机和违反政府法规。而较低的精确度会导致人力资源的浪费。这次合作的主要目标是识别所有的异常以符合政府法规并避免任何停机,因此我们优先改进召回率而不是精确度。

评估和模型比较

在接下来的部分中,我们展示了在这次合作中使用的各种建模技术的比较。我们评估了两个AWS服务Amazon Rekognition和Amazon Lookout for Vision的性能。我们还使用AutoGluon评估了各种建模技术。最后,我们将性能与最先进的基于ViT的自我蒸馏方法进行比较。

下图显示了在这次合作期间,使用不同的数据处理技术改进AutoGluon的模型。关键观察结果是随着数据质量和数量的提高,模型在召回率方面的性能从不到30%提高到了78%。

使用机器学习改进资产健康和电网韧性 四海 第9张

接下来,我们将AutoGluon的性能与AWS服务进行比较。我们还使用了各种数据处理技术来改善性能。然而,主要的改进来自于增加数据的数量和质量。我们将数据集的大小从总共11K张图像增加到了60K张。

使用机器学习改进资产健康和电网韧性 四海 第10张

接下来,我们将AutoGluon和AWS服务与基于ViT的方法进行比较。下图显示了ViT基于方法、AutoGluon和AWS服务在召回率方面的表现。一个关键观察结果是,在某一点之后,提高数据质量和数量并不能帮助增加召回率方面的性能。然而,我们观察到在精确度方面有所改进。

使用机器学习改进资产健康和电网韧性 四海 第11张

精确度与召回率的比较

Amazon AutoGluon 预测的异常 预测的正常
异常 15600 4400
正常 3659 38341

接下来,我们展示了AutoGluon和Amazon Rekognition以及基于ViT的方法在包含62K样本的数据集上的混淆矩阵。在62K个样本中,有20K个样本是异常,而剩下的42K个图像是正常的。可以观察到,基于ViT的方法捕捉到了最多的异常(16,600),其次是Amazon Rekognition(16,000)和Amazon AutoGluon(15,600)。同样,Amazon AutoGluon有最少的假阳性(3659张图像),其次是Amazon Rekognition(5918)和ViT(15323)。这些结果表明Amazon Rekognition达到了最高的AUC(曲线下面积)。

Amazon Rekognition 预测异常 预测正常
异常 16,000 4000
正常 5918 36082
ViT                                预测异常 预测正常
异常 16,600 3400
正常 15,323 26,677

结论

在本文中,我们展示了MLSL和Duke Energy团队如何共同开发基于计算机视觉的解决方案,利用直升机飞行收集的高分辨率图像自动检测木杆异常。所提出的解决方案使用数据处理流程对高分辨率图像进行裁剪,以实现尺寸标准化。裁剪后的图像进一步使用Amazon Rekognition自定义标签进行处理,以识别感兴趣区域(即包含杆子补丁的裁剪图像)。Amazon Rekognition在正确识别带有杆子补丁的区域方面达到了96%的精度。感兴趣区域裁剪图像进一步使用基于ViT的自蒸馏模型AutoGluon和AWS服务进行异常检测。我们使用了一个标准数据集来评估这三种方法的性能。基于ViT的模型达到了83%的召回率和52%的精确度。AutoGluon达到了78%的召回率和81%的精确度。最后,Amazon Rekognition达到了80%的召回率和73%的精确度。使用三种不同的方法的目的是比较每种方法在不同数量的训练样本、训练时间和部署时间下的性能。所有这些方法在Amazon AWS上的单个A100 GPU实例或托管服务上训练和部署都不超过2小时。进一步提高模型性能的下一步工作包括添加更多的训练数据以提高模型的精确度。

总体而言,本文提出的端到端流程在异常检测方面取得了显著的改进,同时最大限度地降低了运营成本、安全事故、监管风险、碳排放和潜在停电。

所开发的解决方案可以用于传输和配电网络中的其他异常检测和资产健康相关用例,包括绝缘子和其他设备的缺陷。如果需要进一步帮助开发和定制此解决方案,请随时与MLSL团队联系。

Leave a Reply

Your email address will not be published. Required fields are marked *