基于机器视觉的铁路表面缺陷检测研究
白唐波
1
,
2
,
∗
(
D
1
,
2
,
∗
(
D
^(1,2,**(D) { }^{1,2, *(\mathbb{D}} 、高家林
1
,
2
1
,
2
^(1,2) { }^{1,2} 、杨建伟
1
,
2
1
,
2
^(1,2) { }^{1,2} 和姚德臣
1
,
2
1
,
2
^(1,2) { }^{1,2} 1 北京土木建筑大学机械电子与车辆工程学院,北京 100044;2108230420003@stu.bucea.edu.cn (J.G.);yangjianwei@bucea.edu.cn (J.Y.);yaodechen@bucea.edu.cn (D.Y.) 2 北京土木建筑大学城市轨道交通车辆性能保障北京市重点实验室,北京 100044 * 通信:baitangbo@bucea.edu.cn
学术编辑李永波 Fengshou Gu 和 Xihui (Larry) Liang
收到:2021 年 9 月 1 日 接受: 2021 年 10 月 26 日 出版日期:2021 年 10 月 30 日
出版商注:MDPI 对出版地图和机构隶属关系中的管辖权主张保持中立。
摘要
轨道表面缺陷检测是确保轨道交通安全运行的重要工具。由于轨道表面缺陷特征复杂多样,缺陷区域面积较小,传统的机器视觉方法很难获得令人满意的检测结果。现有的基于深度学习的方法存在模型体积大、参数过多、精度低、速度慢等问题。因此,本文提出了一种基于改进型 YOLOv4(You Only Look Once,YOLO)的铁路表面缺陷检测新方法。该方法以 MobileNetv3 作为 YOLOv4 的骨干网络,提取图像特征,同时对 YOLOv4 中的 PANet 层进行深度可分离卷积,实现了网络的轻量化和铁路表面的实时检测。测试结果表明,与YOLOv4相比,本研究可减少
78.04
%
78.04
%
78.04% 78.04 \% 参数量,检测速度提高10.36帧/秒,模型体积减少
78
%
78
%
78% 78 \% 。与其他方法相比,所提出的方法可以达到更高的检测精度,适用于铁路表面缺陷的快速准确检测。
关键词: 深度学习;轨道表面缺陷检测;机器视觉;YOLOv4;MobileNetV3
1.导言
随着铁路行业的蓬勃发展,运营里程、速度和密度不断增加,对铁路的检测要求也进一步提高[1]。高速运行时,列车与轨道表面之间会产生摩擦、滚动接触和弹性变形等现象。随着运行时间的增加,会导致轨道表面出现磨损、断裂、剥落、裂纹等缺陷,严重威胁轨道交通系统的安全[2]。因此,研究轨道表面缺陷的检测方法显得尤为重要。
人工检测[3]作为钢轨表面检测的传统方法,具有耗时、耗力[4]、检测效率低[5]的特点。随着探伤技术的发展,出现了许多钢轨表面探伤方法,如超声波探伤[6]、涡流探伤[7]、三维探伤[8]、雷达探测[9]等。上述方法对检测内部缺陷非常有效。然而,铁路表面缺陷产生的信号非常微弱,上述方法很难探测到。同时,缺陷信号容易受到周围环境的干扰,难以达到令人满意的效果。铁路表面缺陷检测技术还有很大的改进空间。
随着计算机技术的发展,机器视觉[10]方法被应用于钢轨表面缺陷检测。钢轨表面检测图像由线性阵列摄像机获取,并根据以下标准自动合成图像 所需的长度。缺陷数据是通过人工筛选实际检测图像获得的,用于模型训练和测试。这种方法需要分析钢轨表面缺陷信息、灰度信息[11]和背景信息[12]。它需要使用特征提取算法[13]或使用算子模板和基于模型的阈值分割方法[14]来检测轨道表面缺陷。然而,这些方法容易受到缺陷特征的影响,从而导致检测盲点[15]。这使得机器视觉方法难以获得良好的检测性能。
近年来,随着目标检测技术和神经网络[16]的发展,人们提出了用于检测各种铁路部件的深度学习框架。Liu 等人[17]提出了一种基于图像融合特征和贝叶斯压缩图像分类与识别的方法,通过提取改进的边缘方向直方图(IEOH)和宏观局部二元模式(MSLBP)特征来检测扣件的状态。Cui 等人[18]将紧固件图像分割成不同部分,以避免紧固件碎片的干扰,并在实时深度学习模块中测试了分割模型。
在轨道表面缺陷检测的深度学习框架应用中,Xu 等人[19]提出改进用于铁路路基缺陷识别的 Faster R-CNN(卷积神经网络)。改进后的方法可以获得良好的性能,但也存在检测速度慢、检测模型庞大等缺点。Lu 等人[20]提出将 U-Net 图分割网络与损伤定位方法相结合应用于高速铁路的损伤检测。该方法可以获得较高的检测精度,但存在检测速度慢、模型体积大等局限性。Yuan等[21]提出应用MobileNetV2检测铁路表面缺陷,实现了高速实时检测,但检测精度较低。Faghih-Roohi 等人[22]提出了改进的深度卷积神经网络(DCNN)来高效提取和识别图像特征,并采用小批量梯度下降法对网络进行优化,用于轨道表面缺陷的自动检测。这种方法需要较长的网络训练时间。Song 等人[23]提出了一种深度学习方法,使用 YOLOv3(You Only Look Once,YOLO)算法检测轨道表面缺陷。这种方法检测速度快,但检测精度低。
为了解决上述问题,本文提出了一种改进的 YOLOv4 [24] 轨面检测方法。它研究了使用 MobileNetV3 轻量级网络作为 YOLOv4 的骨干。YOLOv 4 中的 PANet 层采用了深度可分离卷积,以进一步减少参数量。它将轨面缺陷检测视为端到端回归问题,用简化的网络保证了轨面缺陷检测的有效性,提高了检测速度和精度。它为轨道表面缺陷检测技术提供了一种新思路。
本文的主要贡献如下:(1) 针对 YOLOv4 中 PANet 层的深度可分离卷积,提出了 MobileNetV3 网络优化 YOLOv4 模型用于轨道表面缺陷检测的方法。该方法优化了参数量和模型大小,提高了检测速度。(2) 在轨道上进行现场测试以收集数据,创建添加高斯噪声的数据集,最后建立轨道表面缺陷检测模型。测试结果表明,本研究采用的方法能有效地检测出钢轨表面缺陷。
本文接下来的内容安排如下。第二部分讨论 YOLOv4 和深度可分离卷积的理论背景。第三部分给出了拟议方法的技术路线。第四部分通过实际应用验证了该方法的有效性。最后,第五部分得出结论。
2.理论背景
基于深度学习和机器视觉的物体检测方法在目前的研究中得到了广泛应用。在应用这些方法时,首先要收集大量的图像来建立图像数据集,其次要对图像进行标注,最后要对标注结果进行分析。 然后,深度网络对训练数据集和对象信息进行训练,得到深度网络模型,最后将训练好的模型用于对象检测测试。其中,最重要的部分是深度网络模型的训练。在这一阶段,目标检测器主要由输入、骨干、颈部和头部四部分组成。如图 1 所示,单级网络的结构比两级网络简单,其中加入了稀疏预测。
图 1.物体检测器框架 在 YOLO [25] 算法提出之前,R-CNN [26] 算法是两阶段领域最流行的算法之一。CNN 已应用于目标检测,并与 R-CNN [27]形成了算法区域关系。首先,利用算法的选择性搜索[28]或边缘盒生成候选区域[29],然后,在 CNN 中对每个区域进行训练和分类。与单阶段算法相比,两阶段算法的检测速度较慢。因此,我们提出了一种具有单级网络结构特点的 YOLO 算法。其核心理念是将目标检测转化为回归问题,并将目标图作为网络的输入。只有通过神经网络才能获得边界框的位置和目标类别。通过特征信息可以实现快速检测和高精度检测。
YOLOv4 算法在 YOLOv3 的基础上进行了改进。作为一种功能强大的目标检测算法,YOLOv4 可以训练出快速、准确的目标检测器。如图 1 所示,网络结构主要由主干网络、颈部网络和头部网络组成。主干网络采用 CSPDarknet53,颈部网络采用 SPP 附加模块和 PANet 路径聚合,头部网络采用 YOLOv3 head 网络。
PANet 层使用实例分割算法。网络结构如图 2 的颈部所示。与特征金字塔网络(FPN)相比,PANet 在 UpSample 之后增加了 DownSample 操作,以反复改进特征。参数聚合在不同的骨干层上进行。这进一步提高了特征提取的能力。在 YOLOv4 中,PANet 结构主要用于三个有效特征层。
图 2.YOLOv4 结构图。
3.建议的方法
3.1.技术路线
图 3 显示了轨道表面缺陷检测的技术路线。首先,对整个钢轨图像进行特征提取。在保留钢轨表面信息的同时,去除钢轨图像中的无效信息,以提高网络训练速度。其次,将处理后的钢轨表面数据集输入改进的 YOLOv4 网络进行训练。然后,利用训练好的模型预测钢轨表面缺陷。最后,得出钢轨表面缺陷检测结果。
图 3.拟议方法的技术路线。
3.2.YOLOv4 主干网适应性改进
在实际工程应用中,轨道表面缺陷检测具有一定的特殊性,包括检测的精度、速度和模型大小。本文的方法考虑了轨道表面缺陷检测的特殊性,使其 可适应 YOLOv4。MobileNetV3 被用作 YOLOv4 的骨干网络。MobileNet 是谷歌为嵌入式设备提出的轻量级深度神经网络。其核心思想是深度可分离卷积。与 YOLOv4 中使用的传统卷积相比,MobileNetV3 中的深度可分离卷积可以进一步减少参数和计算量,从而实现网络的轻量化。
MobileNetV3 中使用了轻量级注意力(挤压和激发,SE)模块。它的优点是可以提高算法的性能,而计算量的增加可以忽略不计。SE 模块的具体实现过程如图 4 所示。首先,将
C
′
×
H
′
×
W
′
C
′
×
H
′
×
W
′
C^(')xxH^(')xxW^(') C^{\prime} \times H^{\prime} \times W^{\prime} 的特征优化为
C
×
H
×
W
C
×
H
×
W
C xx H xx W C \times H \times W 。然后,在挤压过程中,对
C
×
H
×
W
C
×
H
×
W
C xx H xx W C \times H \times W 特征进行全局平均池化,得到大小为
1
×
1
×
C
1
×
1
×
C
1xx1xx C 1 \times 1 \times C 的全局感受野特征图。然后,在激励过程中使用全连接神经网络进行非线性变换。最后,根据 SE 模块中每个特征层的激活值对输入特征进行加权。
图 4.RPN 候选方框生成过程。
3.3.改进 YOLOv 4 中 PANet 层的适应性
YOLOv4 中的 PANet 具有动态特征池、全连接层融合和自下而上路径增强等优点,但也存在参数量大、计算复杂等缺点。为了解决这个问题,我们修改了 PANet 中的卷积结构,将
3
×
3
3
×
3
3xx3 3 \times 3 和
5
×
5
5
×
5
5xx5 5 \times 5 标准卷积替换为深度可分离卷积。
深度可分离卷积 [30] 是一种轻量级卷积模块。它由以下两部分组成:深度卷积(DW)和点卷积(PW)。在 DW 中,输入信息的每个维度都分别与一个卷积块卷积。然后,PW 应用点卷积核对 DW 的输出映射进行维度提升。
在标准卷积层中,假设输入特征图的大小为
D
z
×
D
z
D
z
×
D
z
D_(z)xxD_(z) D_{z} \times D_{z} ,通道数为
M
M
M M ,卷积核的大小为
D
i
×
D
i
D
i
×
D
i
D_(i)xxD_(i) D_{i} \times D_{i} ,卷积核的个数为
K
K
K K 。那么,标准卷积计算量
C
1
C
1
C_(1) C_{1} 就可以通过公式 (1) 计算出来:
C
1
=
D
z
×
D
z
×
M
×
K
×
D
i
×
D
i
C
1
=
D
z
×
D
z
×
M
×
K
×
D
i
×
D
i
C_(1)=D_(z)xxD_(z)xx M xx K xxD_(i)xxD_(i) C_{1}=D_{z} \times D_{z} \times M \times K \times D_{i} \times D_{i}
在深度可分离卷积中,DW 和 PW 是分开进行的,如图 5 所示。深度可分离卷积的计算量
C
2
C
2
C_(2) C_{2} 可按公式(2)计算:
C
2
=
D
z
×
D
z
×
M
×
D
i
×
D
i
+
K
×
M
×
D
z
×
D
z
C
2
=
D
z
×
D
z
×
M
×
D
i
×
D
i
+
K
×
M
×
D
z
×
D
z
C_(2)=D_(z)xxD_(z)xx M xxD_(i)xxD_(i)+K xx M xxD_(z)xxD_(z) C_{2}=D_{z} \times D_{z} \times M \times D_{i} \times D_{i}+K \times M \times D_{z} \times D_{z}
深度可分离卷积和传统卷积的计算量比较如下:
C
2
C
1
=
D
z
×
D
z
×
M
×
D
i
×
D
i
+
K
×
M
×
D
z
×
D
z
D
z
×
D
z
×
M
×
K
×
D
i
×
D
i
=
1
K
+
1
D
i
2
C
2
C
1
=
D
z
×
D
z
×
M
×
D
i
×
D
i
+
K
×
M
×
D
z
×
D
z
D
z
×
D
z
×
M
×
K
×
D
i
×
D
i
=
1
K
+
1
D
i
2
(C_(2))/(C_(1))=(D_(z)xxD_(z)xx M xxD_(i)xxD_(i)+K xx M xxD_(z)xxD_(z))/(D_(z)xxD_(z)xx M xx K xxD_(i)xxD_(i))=(1)/(K)+(1)/(D_(i)^(2)) \frac{C_{2}}{C_{1}}=\frac{D_{z} \times D_{z} \times M \times D_{i} \times D_{i}+K \times M \times D_{z} \times D_{z}}{D_{z} \times D_{z} \times M \times K \times D_{i} \times D_{i}}=\frac{1}{K}+\frac{1}{D_{i}^{2}}
公式中,卷积层的通道数
K
K
K K 通常大于 1,常用的卷积核大小为
3
×
3
3
×
3
3xx3 3 \times 3 和
5
×
5
5
×
5
5xx5 5 \times 5 ,因此 公式的结果小于 1。深度可分离卷积的计算量小于标准卷积的计算量。
图 5.经典卷积和深度可分离卷积 对 PANet 层进行改进,如图 6 所示。它既保留了 PANet 动态特征池、全连接层融合和自下而上路径增强的优点,又减少了 PANet 的计算量,实现了网络的轻量化,最终实现了 YOLOv4 的优化。
图 6.改进后的 PANet 层。
4.案例研究
4.1.图像采集
根据所提方法的技术路线,本文进行了一次轨道检测现场试验。如图 7 所示,试验中使用的智能轨道检测车由北京盈路科技有限公司(中国北京)研发。(中国北京)开发。该车辆由两部分组成:电动检测车和轨道状态检测系统。电动检测车包括车体、轨道轮和座椅;轨道状态检测系统由主机和高清线性图像扫描模块组成。本次测试选择了京沪高铁上一条 15 公里长的轨道作为测试路段。检测车的行驶速度为
20
km
/
h
20
km
/
h
20km//h 20 \mathrm{~km} / \mathrm{h} ,图像分辨率为
2048
×
2048
2048
×
2048
2048 xx2048 2048 \times 2048 。
图 7.智能轨道检测车。 具体的采集设备数据见表 1。 表 1.轨道检测车摄像头参数。
相机型号
TVI-LCM-01
电压输入范围
2-K 线性阵列图像采集模块
权力
20
−
30
V
DC
20
−
30
V
DC
20-30VDC 20-30 \mathrm{~V} \mathrm{DC}
防护等级
120 W
工作温度
−
20
∘
C
−
20
∘
C
-20^(@)C -20^{\circ} \mathrm{C} 至
+
70
∘
C
+
70
∘
C
+70^(@)C +70^{\circ} \mathrm{C}
储存温度
−
40
∘
C
−
40
∘
C
-40^(@)C -40^{\circ} \mathrm{C} 至
+
85
∘
C
+
85
∘
C
+85^(@)C +85^{\circ} \mathrm{C}
Camera Model TVI-LCM-01
Voltage input range 2-K linear array image acquisition module
power 20-30VDC
Protection class 120 W
Working temperature -20^(@)C to +70^(@)C
storage temperature -40^(@)C to +85^(@)C | Camera Model | TVI-LCM-01 |
| :---: | :---: |
| Voltage input range | 2-K linear array image acquisition module |
| power | $20-30 \mathrm{~V} \mathrm{DC}$ |
| Protection class | 120 W |
| Working temperature | $-20^{\circ} \mathrm{C}$ to $+70^{\circ} \mathrm{C}$ |
| storage temperature | $-40^{\circ} \mathrm{C}$ to $+85^{\circ} \mathrm{C}$ |
测试中使用的算法环境的具体配置如表 2 所示。
表 2.测试环境。
项目
环境
发展语言
Python 3.9
发展框架
PyTorch1.2
CPU
英特尔(R)i7-9700 CPU,主频 3.00 GHz
GPU
NVIDIA GeForce RTX 2080 Ti
运行内存
16 GB
硬盘大小
1 TB
Project Environment
Development language Python 3.9
Development framework PyTorch1.2
CPU Intel(R) i7-9700 CPU @ 3.00 GHz
GPU NVIDIA GeForce RTX 2080 Ti
Running memory 16 GB
Hard disk size 1 TB | Project | Environment |
| :---: | :---: |
| Development language | Python 3.9 |
| Development framework | PyTorch1.2 |
| CPU | Intel(R) i7-9700 CPU @ 3.00 GHz |
| GPU | NVIDIA GeForce RTX 2080 Ti |
| Running memory | 16 GB |
| Hard disk size | 1 TB |
选取在现场测试中采集到的 1000 张钢轨图像进行钢轨表面缺陷检测,其中随机选取 900 张作为训练数据集,100 张作为测试数据集。在应用改进后的 YOLOv4 之前,需要进行图像标注,建立数据集特征数据库。本文使用版本为 1.0 的 LABELIMG 软件进行图像标注。LABELIMG 是一个用 python 编写的图像标注工具,使用 QT 作为图形界面。如图 8 所示,图像中的轨道表面被视为目标检测区域。
标注后,将获得钢轨表面缺陷区域的坐标,并在图像标注生成的坐标数据集上执行训练算法和缺陷检测测试。
图 8.图像注释。
4.2.建立轨道表面缺陷检测模型
为了验证研究中提出的方法的有效性,分别在原始数据集中添加了
5
%
5
%
5% 5 \% 和
10
%
10
%
10% 10 \% 高斯噪声,如图 9 所示。
图 9.高斯噪声处理图 改进后的 YOLOv4 使用 MobileNetV3 作为特征提取的骨干网络,同时使用深度可分离卷积取代 PANet 中的传统卷积。建立的轨道缺陷检测模型如图 10 所示:(1)重置输入图像的大小;(2)根据图像操作应用改进的 YOLOv4 网络;(3)输出检测目标。
图 10.铁路缺陷检测模型。(1)重新设置输入图像的大小;(2)根据图像操作应用改进的 YOLOv4 网络;(3)输出检测目标。
YOLOv4 中的 CIOU 计算方法将使目标帧回归稳定。它考虑了目标和锚点之间的距离、重叠、比例和惩罚项,不会出现训练发散问题。图 11 展示了钢轨的表面缺陷,红框表示钢轨表面缺陷所包围的目标框。绿色方框为预测框,紫色方框为能覆盖上述两者的最小矩形。
d
d
d d 表示目标框与预测框之间的中心点距离,c 表示同时覆盖预测框和目标框的最小区域的对角线距离。
图 11.各种方法的参数比较。 CIOU 计算公式见公式 (4)-(6):
v
=
4
π
2
(
arctan
w
g
t
h
g
t
−
arctan
w
h
)
2
α
=
v
1
−
I
O
U
+
v
CIOU
=
I
O
U
−
ρ
2
(
b
,
b
g
t
)
c
2
−
α
v
v
=
4
π
2
arctan
w
g
t
h
g
t
−
arctan
w
h
2
α
=
v
1
−
I
O
U
+
v
CIOU
=
I
O
U
−
ρ
2
b
,
b
g
t
c
2
−
α
v
{:[v=(4)/(pi^(2))(arctan((w^(gt))/(h^(gt)))-arctan((w)/(h)))^(2)],[alpha=(v)/(1-IOU+v)],[" CIOU "=IOU-(rho^(2)(b,b^(gt)))/(c^(2))-alpha v]:} \begin{gathered}
v=\frac{4}{\pi^{2}}\left(\arctan \frac{w^{g t}}{h^{g t}}-\arctan \frac{w}{h}\right)^{2} \\
\alpha=\frac{v}{1-I O U+v} \\
\text { CIOU }=I O U-\frac{\rho^{2}\left(b, b^{g t}\right)}{c^{2}}-\alpha v
\end{gathered}
其中,
ρ
ρ
rho \rho 指欧氏距离;
b
,
w
b
,
w
b,w b, w 和
h
h
h h 指预测框的中心坐标、宽度和高度;
b
g
t
,
w
g
t
b
g
t
,
w
g
t
b^(gt),w^(gt) b^{g t}, w^{g t} 和
h
g
t
h
g
t
h^(gt) h^{g t} 指框架的中心坐标、宽度和高度。
在研究中,CIOU 的阈值设定为 0.7。只有当结果大于 0.7 时,才能输出检测图像,从而使边界框更加精确。
在轨道缺陷检测模型的建立过程中,每次更新的学习率和步长过大,会导致模型无法收敛到极端最优值。如果学习率过小,虽然可以保证收敛,但会牺牲模型的效率。
为了避免上述问题,必须通过修改性能最佳的模型参数来进行权衡。为了提高模型的优化速度,实验中采用了自适应学习率,学习率的初始值设为 0.001。在训练过程中,每个epoch结束后,都会在训练集中评估当前模型的损失和准确率,并每隔一个epoch检测损失值的变化。当小于 0.0001 时,学习率
l
r
l
r
lr l r 会被衰减。衰减公式如式(7)所示:
l
r
∗
=
l
r
×
0.1
l
r
∗
=
l
r
×
0.1
lr^(**)=lr xx0.1 l r^{*}=l r \times 0.1
4.3.结果分析
在研究中,同一数据集被应用于 Faster R-CNN、YOLOv3 和 YOLOv4 方法,以比较和验证拟议方法的有效性。
图 12 展示了每种方法的参数量比较。从图中可以看出,建议方法的参数量最少,约为 Faster R-CNN 的
1
/
20
1
/
20
1//20 1 / 20 。由于 YOLOv4 是在 YOLOv3 的基础上改进而来,因此两者的参数量相差不大。本方法在 YOLOv4 的基础上进行了改进,将轻量级的 MobileNetv3 替换为骨干网络,并对 PANet 采用深度可分离卷积,进一步减少了参数量。从表 3 可以看出,与 YOLOv 4 相比,所提方法的参数量减少了
78.04
%
78.04
%
78.04% 78.04 \% ,有效地减少了参数量。
图 12.各种方法的参数量比较。 表 3.钢轨缺陷检测结果比较。
方法
P
r
P
r
P_(r) \mathbf{P}_{\mathbf{r}}
R
e
R
e
R_(e) \mathbf{R}_{\mathbf{e}}
m
A
P
m
A
P
mAP \mathbf{m A P}
FPS
(
H
z
)
(
H
z
)
(Hz) \mathbf{( H z )}
FPS
(Hz) | FPS |
| :---: |
| $\mathbf{( H z )}$ |
卷
(
M
B
)
(
M
B
)
(MB) \mathbf{( M B )}
Volume
(MB) | Volume |
| :---: |
| $\mathbf{( M B )}$ |
更快的 R-CNN
89.36
%
89.36
%
89.36% 89.36 \%
79.07
%
79.07
%
79.07% 79.07 \%
87.32
%
87.32
%
87.32% 87.32 \%
12.26
521.8
掩码 R-CNN
90.62
%
90.62
%
90.62% 90.62 \%
81.36
%
81.36
%
81.36% 81.36 \%
89.18
%
89.18
%
89.18% 89.18 \%
5.60
245.4
YOLOv3
87.23
%
87.23
%
87.23% 87.23 \%
77.27
%
77.27
%
77.27% 77.27 \%
86.74
%
86.74
%
86.74% 86.74 \%
28.40
234.2
YOLOv4
92.48
%
92.48
%
92.48% 92.48 \%
81.40
%
81.40
%
81.40% 81.40 \%
90.98
%
90.98
%
90.98% 90.98 \%
34.28
244.1
YOLOv5
93.06
%
93.06
%
93.06% 93.06 \%
82.08
%
82.08
%
82.08% 82.08 \%
92.16
%
92.16
%
92.16% 92.16 \%
37.32
185.6
建议的方法
94.24
%
94.24
%
94.24% 94.24 \%
82.56
%
82.56
%
82.56% 82.56 \%
93.21
%
93.21
%
93.21% 93.21 \%
44.64
53.6
Method P_(r) R_(e) mAP "FPS
(Hz)" "Volume
(MB)"
Faster R-CNN 89.36% 79.07% 87.32% 12.26 521.8
Mask R-CNN 90.62% 81.36% 89.18% 5.60 245.4
YOLOv3 87.23% 77.27% 86.74% 28.40 234.2
YOLOv4 92.48% 81.40% 90.98% 34.28 244.1
YOLOv5 93.06% 82.08% 92.16% 37.32 185.6
The proposed method 94.24% 82.56% 93.21% 44.64 53.6 | Method | $\mathbf{P}_{\mathbf{r}}$ | $\mathbf{R}_{\mathbf{e}}$ | $\mathbf{m A P}$ | FPS <br> $\mathbf{( H z )}$ | Volume <br> $\mathbf{( M B )}$ |
| :---: | :---: | :---: | :---: | :---: | :---: |
| Faster R-CNN | $89.36 \%$ | $79.07 \%$ | $87.32 \%$ | 12.26 | 521.8 |
| Mask R-CNN | $90.62 \%$ | $81.36 \%$ | $89.18 \%$ | 5.60 | 245.4 |
| YOLOv3 | $87.23 \%$ | $77.27 \%$ | $86.74 \%$ | 28.40 | 234.2 |
| YOLOv4 | $92.48 \%$ | $81.40 \%$ | $90.98 \%$ | 34.28 | 244.1 |
| YOLOv5 | $93.06 \%$ | $82.08 \%$ | $92.16 \%$ | 37.32 | 185.6 |
| The proposed method | $94.24 \%$ | $82.56 \%$ | $93.21 \%$ | 44.64 | 53.6 |
为了评估轨道缺陷的检测结果,引入了精度
(
P
r
)
P
r
(P_(r)) \left(\mathrm{P}_{\mathrm{r}}\right) 、召回率
(
R
e
)
R
e
(R_(e)) \left(\mathrm{R}_{\mathrm{e}}\right) 、平均精度 (mAP)、每秒帧数 (FPS) 和体积。其中,mAP 是对不同目标检测模型进行精度评估的常用参数。具体来说,它是每个查询的平均精度
(
A
P
)
(
A
P
)
(AP) (A P) 的平均值。FPS 指每秒传输的帧数,volume 指模型占用的内存大小。具体计算公式如下
P
r
=
T
P
T
P
+
F
P
×
100
%
R
e
=
T
P
T
P
+
F
N
×
100
%
A
P
=
∫
0
l
p
(
r
)
d
r
m
A
P
=
1
N
∑
A
P
i
P
r
=
T
P
T
P
+
F
P
×
100
%
R
e
=
T
P
T
P
+
F
N
×
100
%
A
P
=
∫
0
l
p
(
r
)
d
r
m
A
P
=
1
N
∑
A
P
i
{:[P_(r)=(TP)/(TP+FP)xx100%],[R_(e)=(TP)/(TP+FN)xx100%],[AP=int_(0)^(l)p(r)dr],[mAP=(1)/(N)sum AP_(i)]:} \begin{gathered}
\mathrm{P}_{\mathrm{r}}=\frac{T P}{T P+F P} \times 100 \% \\
\mathrm{R}_{\mathrm{e}}=\frac{T P}{T P+F N} \times 100 \% \\
A P=\int_{0}^{l} p(r) d r \\
m A P=\frac{1}{N} \sum A P_{i}
\end{gathered}
其中,真阳性 (TP) 和假阳性
(
F
P
)
(
F
P
)
(FP) (F P) 分别指正确检测到或未检测到的轨道缺陷数量。假阴性 (FN) 是错误检测到的钢轨缺陷数量。
N
N
N N 是所有钢轨的缺陷数量。
从表 3 中各种方法对钢轨表面缺陷的检测结果可以看出,作为两阶段领域流行的传统方法,Faster R-CNN 的准确率、召回率和 mAP 均高于 YOLOv3,但检测速度较低。速度慢、模型体积大不适合轻量级实时检测,YOLOv3 的优点是检测速度较快、模型体积较小,但其准确率、召回率和 mAP 与 Faster R-CNN 方法相差较小;YOLOv4 在准确率、召回率、mAP 和 FPS 方面领先于 Faster R-CNN 和 YOLOv3,其检测速度和模型体积仍有提升空间。本文的研究方法是在 YOLOv4 的基础上改进而来的。由于使用了轻量级的 MobileNet V3 作为骨干网络,并对 PANet 进行了深度可分离卷积改进,因此模型体积是 YOLOv4 的 0.22 倍,准确率比 YOLOv4 提高了
1.64
%
1.64
%
1.64% 1.64 \% 。与 YOLOv4 相比,召回率和 mAP 分别提高了
1.16
%
1.16
%
1.16% 1.16 \% 和
2.54
%
2.54
%
2.54% 2.54 \% 。同时,该研究方法的检测速度超过 YOLOv4 10.36 帧/秒,能更好地满足快速性要求。
由于轨道环境复杂,要求算法具有良好的抗噪性能。为了测试研究的抗噪能力,在数据集中加入了高斯噪声。表 4 和表 5 分别是
5
%
5
%
5% 5 \% 和
10
%
10
%
10% 10 \% 高斯噪声下的钢轨缺陷检测结果。可以看出,与其他方法相比,提议的方法具有更高的 mAP,并且在存在噪声时具有更优越的性能。由于使用了相同的模型,测试数据略有不同,因此各方法的 FPS 和体积与表 3 一致。表 3-5 的结果表明,本文提出的方法性能良好,可以应用于轻型钢轨表面缺陷检测。
表 4.5% 高斯噪声下的轨道缺陷检测结果比较。
方法
P
r
P
r
P_(r) \mathbf{P}_{\mathbf{r}}
R
e
R
e
R_(e) \mathbf{R}_{\mathbf{e}}
m
A
P
m
A
P
mAP \mathbf{m A P}
FPS
(
H
z
)
(
H
z
)
(Hz) \mathbf{( H z )}
FPS
(Hz) | FPS |
| :---: |
| $\mathbf{( H z )}$ |
容量(MB)
更快的 R-CNN
82.61
%
82.61
%
82.61% 82.61 \%
75.22
%
75.22
%
75.22% 75.22 \%
85.08
%
85.08
%
85.08% 85.08 \%
12.31
521.8
掩码 R-CNN
88.26
%
88.26
%
88.26% 88.26 \%
77.93
%
77.93
%
77.93% 77.93 \%
86.92
%
86.92
%
86.92% 86.92 \%
5.53
245.4
YOLOv3
80.02
%
80.02
%
80.02% 80.02 \%
72.73
%
72.73
%
72.73% 72.73 \%
83.10
%
83.10
%
83.10% 83.10 \%
27.07
234.2
YOLOv4
90.48
%
90.48
%
90.48% 90.48 \%
79.36
%
79.36
%
79.36% 79.36 \%
87.23
%
87.23
%
87.23% 87.23 \%
35.92
244.1
YOLOv5
91.62
%
91.62
%
91.62% 91.62 \%
80.14
%
80.14
%
80.14% 80.14 \%
90.08
%
90.08
%
90.08% 90.08 \%
38.54
13.6
建议的方法
92.44
%
92.44
%
92.44% 92.44 \%
80.27
%
80.27
%
80.27% 80.27 \%
88.42
%
88.42
%
88.42% 88.42 \%
42.78
53.6
Method P_(r) R_(e) mAP "FPS
(Hz)" Volume (MB)
Faster R-CNN 82.61% 75.22% 85.08% 12.31 521.8
Mask R-CNN 88.26% 77.93% 86.92% 5.53 245.4
YOLOv3 80.02% 72.73% 83.10% 27.07 234.2
YOLOv4 90.48% 79.36% 87.23% 35.92 244.1
YOLOv5 91.62% 80.14% 90.08% 38.54 13.6
The proposed method 92.44% 80.27% 88.42% 42.78 53.6 | Method | $\mathbf{P}_{\mathbf{r}}$ | $\mathbf{R}_{\mathbf{e}}$ | $\mathbf{m A P}$ | FPS <br> $\mathbf{( H z )}$ | Volume (MB) |
| :---: | :---: | :---: | :---: | :---: | :---: |
| Faster R-CNN | $82.61 \%$ | $75.22 \%$ | $85.08 \%$ | 12.31 | 521.8 |
| Mask R-CNN | $88.26 \%$ | $77.93 \%$ | $86.92 \%$ | 5.53 | 245.4 |
| YOLOv3 | $80.02 \%$ | $72.73 \%$ | $83.10 \%$ | 27.07 | 234.2 |
| YOLOv4 | $90.48 \%$ | $79.36 \%$ | $87.23 \%$ | 35.92 | 244.1 |
| YOLOv5 | $91.62 \%$ | $80.14 \%$ | $90.08 \%$ | 38.54 | 13.6 |
| The proposed method | $92.44 \%$ | $80.27 \%$ | $88.42 \%$ | 42.78 | 53.6 |
表 5.使用
10
%
10
%
10% 10 \% 高斯噪声的钢轨缺陷检测结果比较。
方法
P
r
P
r
P_(r) \mathbf{P}_{\mathbf{r}}
R
e
R
e
R_(e) \mathbf{R}_{\mathbf{e}}
m
A
P
m
A
P
mAP \mathbf{m A P}
FPS
(
H
z
)
(
H
z
)
(Hz) \mathbf{( H z )}
FPS
(Hz) | FPS |
| :---: |
| $\mathbf{( H z )}$ |
容量(MB)
更快的 R-CNN
79.35
%
79.35
%
79.35% 79.35 \%
71.52
%
71.52
%
71.52% 71.52 \%
80.65
%
80.65
%
80.65% 80.65 \%
11.80
521.8
掩码 R-CNN
85.48
%
85.48
%
85.48% 85.48 \%
72.30
%
72.30
%
72.30% 72.30 \%
81.23
%
81.23
%
81.23% 81.23 \%
5.47
245.4
YOLOv3
75.36
%
75.36
%
75.36% 75.36 \%
68.18
%
68.18
%
68.18% 68.18 \%
74.40
%
74.40
%
74.40% 74.40 \%
28.33
234.2
YOLOv4
88.89
%
88.89
%
88.89% 88.89 \%
72.73
%
72.73
%
72.73% 72.73 \%
83.02
%
83.02
%
83.02% 83.02 \%
32.35
244.1
YOLOv5
91.62
%
91.62
%
91.62% 91.62 \%
80.14
%
80.14
%
80.14% 80.14 \%
90.08
%
90.08
%
90.08% 90.08 \%
36.00
13.6
建议的方法
89.92
%
89.92
%
89.92% 89.92 \%
79.63
%
79.63
%
79.63% 79.63 \%
84.28
%
84.28
%
84.28% 84.28 \%
43.42
53.6
Method P_(r) R_(e) mAP "FPS
(Hz)" Volume (MB)
Faster R-CNN 79.35% 71.52% 80.65% 11.80 521.8
Mask R-CNN 85.48% 72.30% 81.23% 5.47 245.4
YOLOv3 75.36% 68.18% 74.40% 28.33 234.2
YOLOv4 88.89% 72.73% 83.02% 32.35 244.1
YOLOv5 91.62% 80.14% 90.08% 36.00 13.6
The proposed method 89.92% 79.63% 84.28% 43.42 53.6 | Method | $\mathbf{P}_{\mathbf{r}}$ | $\mathbf{R}_{\mathbf{e}}$ | $\mathbf{m A P}$ | FPS <br> $\mathbf{( H z )}$ | Volume (MB) |
| :---: | :---: | :---: | :---: | :---: | :---: |
| Faster R-CNN | $79.35 \%$ | $71.52 \%$ | $80.65 \%$ | 11.80 | 521.8 |
| Mask R-CNN | $85.48 \%$ | $72.30 \%$ | $81.23 \%$ | 5.47 | 245.4 |
| YOLOv3 | $75.36 \%$ | $68.18 \%$ | $74.40 \%$ | 28.33 | 234.2 |
| YOLOv4 | $88.89 \%$ | $72.73 \%$ | $83.02 \%$ | 32.35 | 244.1 |
| YOLOv5 | $91.62 \%$ | $80.14 \%$ | $90.08 \%$ | 36.00 | 13.6 |
| The proposed method | $89.92 \%$ | $79.63 \%$ | $84.28 \%$ | 43.42 | 53.6 |
5.结论
快速、准确、智能地检测轨道表面缺陷对确保轨道车辆的安全运行具有重要意义。根据轨道表面缺陷检测的特点,构建了基于深度学习的轨道表面缺陷单级检测模型。通过实验验证和对比分析,得出以下结论: (1) 为了减轻钢轨表面缺陷检测网络的重量,对 YOLOv4 算法进行了改进。对 YOLOv4 的骨干网络进行了优化,并且 对 YOLOv4 中的 PANet 层进行了简化和改进。它减少了算法参数,提高了检测速度,缩小了模型尺寸。 (2) 为了解决小物体检测问题,在轨道表面缺陷检测中使用了改进的 YOLOv4 方法。测试结果验证了该方法的有效性。 (3) 建立训练数据集和测试数据集,并对数据集进行高斯噪声处理,进行检测案例研究。分析结果表明,与传统的检测方法相比,本文提出的方法具有更高的检测精度。 除上述结论外,随着物体检测方法的快速发展,本文提出的思路还可以扩展到不同的深度学习网络中。同时,为了验证所提方法的有效性,避免引入更多变量,本文没有引入图像预处理。可以推断,如果对图像进行有效的预处理,缺陷检测的准确性还能进一步提高。最后,如果能够获得足够多的铁路表面缺陷图像来建立数据集,就可以进行统计测试,从而对所提出的深度学习方法进行全面的统计分析。
作者的贡献:所有作者均为研究的构思和设计者。构思、方法、软件、验证和写作--原稿,T.B.;软件和可视化,J.G.;验证和调查,J.Y.;软件和验证,D.Y. 所有作者均已阅读并同意手稿的出版版本。 基金资助:本研究得到了北京市教育委员会科研计划一般项目(KM202010016003)、国家自然科学基金(51975038)和北京市自然科学基金(KZ202010016025)的资助。
机构审查委员会声明:不适用。 知情同意声明:不适用。 数据提供声明:用于支持本研究结果的数据可向通讯作者索取。 致谢:作者感谢城市轨道交通车辆性能保障北京市重点实验室对本研究的支持。
利益冲突:作者声明无利益冲突。
参考资料
Nenov,N.;Dimitrov,E.;Vasilev,V.;Piskulev,P. 以运行速度运行的铁路车辆车轮缺陷检测传感器系统。2011 年第 34 届电子技术国际春季研讨会论文集,斯洛伐克特拉坦斯卡洛姆尼察,2011 年 5 月 11-15 日;第 577-582 页。
Li, Y.; Trinh, H.; Haas, N.; Otto, C.; Pankanti, S. Rail component detection, optimization, and assessment for automatic rail track inspection.IEEE Trans.Intell.Transp.Syst.2014, 15, 760-770.
Molodova, M.; Li, Z.; Nunez, A.; Dollevoet, R. Automatic detection of squats in railway infrastructure.IEEE Trans.Intell.Transp.Syst.2014, 15, 1980-1990.[交叉参考文献]
Badran, W.; Nietlispach, U. Wayside train monitoring systems:联网提高安全性。Glob.Rev., 2011, 17, 14-21.Rev. 2011, 17, 14-21.
Ho, T.K.; Liu, S.Y.; Ho, Y.T.; Ho, K.H.; Wong, K.K.; Lee, K.Y.; Tam, H.Y.; Ho, S.L. Signature analysis on wheel-rail interaction for rail defect detection.In Proceedings of the 2008 4th IET International Conference on Railway Condition Monitoring, Derby, UK, 18-20 June 2008; pp.
Clark, R. Rail flaw detection:概述和未来发展需求。NDT E Int. 2004, 37, 111-118.[交叉参考文献]
Song, Z.; Yamada, T.; Shitara, H.; Takemura, Y. 利用涡流测试检测轨头的损伤和裂纹。J. Electromagn.Anal.2011,3,546-550。[CrossRef] (参考文献)
Lorente, A.G.; Llorca, D.F.; Velasco, M.G.; García, J.A.R.; Domínguez, F.S. Detection of range-based rail gage and missing rail fasteners:使用高分辨率二维和三维图像。Transp.Rec.Rec. 2014, 2448, 125-132.[CrossRef] [参考文献
Lohmeier, S.P.; Rajaraman, R.; Ramasami, V.C. 开发用于铁路道口车辆检测的超宽带雷达系统。IEEE Int.Geosci.Remote Sens. Symp.2002, 6, 3692-3694.
Chen,Y.R.;Chao,K.;Kim,M.S. 用于农业应用的机器视觉技术。Comput.Electron.Agric.2002, 36, 173-191.[CrossRef] (参考文献)
Li, Q.; Ren, S. 一种针对轨头离散表面缺陷的实时视觉检测系统。IEEE Trans.Instrum.测量。2012, 61, 2189-2199.[CrossRef].
Min, Y.Z.; Yue, B.; Ma, H.F. 基于图像灰度梯度特征的铁轨表面缺陷检测。Chin.J. Instrum.2018, 9, 220-229.
Wang, F.; Xu, T.; Tang, T.; Zhou, M.; Wang, H. Bilevel feature extraction-based text mining for fault diagnosis of railway systems.IEEE Trans.Intell.Transp.Syst.2017, 18, 49-58.[CrossRef](交叉参考文献
Banik, P.P.; Saha, R.; Kim, K.D. 基于自动细胞核分割和 CNN 模型的白细胞分类方法。Expert Syst.2020,149,113211。[CrossRef].
Li, Q.; Ren, S. 铁路表面缺陷视觉检测系统。IEEE Trans.Syst.Man Cybern.Part C 2012, 42, 1531-1542.[CrossRef].
Meng, Z.; Shi, G.; Wang, F. 基于时变啮合刚度的齿轮振动响应和故障特性分析。Mech.Mach.Teory.2020, 148, 103786.[CrossRef].
Liu, J.; Li, B.; Xiong, Y.; He, B.; Li, L. Integrating the symmetry image and improved sparse representation for railway fastener classification and defect recognition.Math.Probl.2015, 2015, 462528.[CrossRef].
Cui, H.; Li, J.; Hu, Q.; Mao, Q. 基于点云深度学习的铁路道碴紧固件实时检测系统。IEEE Access 2020, 8, 61604-61614.[CrossRef].
Sun, X.; Gu, J.; Huang, R.; Zou, R.; Palomares, B.G. 基于改进的快速 R-CNN 的轮毂表面缺陷识别.Electronics 2019, 8, 481.[CrossRef].
Lu, J.; Liang, B.; Lei, Q.J.; Li, X.H.; Liu, J.H.; Liu, J.; Xu, J.; Wang, W.J. SCueU-Net:铁轨的高效损伤检测方法IEEE Access 2020, 8, 125109-125120.[CrossRef].
Yuan, H.; Chen, H.; Liu, S.; Lin, J.; Luo, X. A deep convolutional neural network for detection of rail surface defect.In Proceedings of the 2019 IEEE Vehicle Power and Propulsion Conference, Hanoi, Vietnam, 14-17 October 2019; pp.
Faghih-Roohi, S.; Hajizadeh, S.; Núñez, A.; Babuska, R.; Schutter, B.D. Deep convolutional neural networks for detection of rail surface defects.In Proceedings of the 2016 International Joint Conference on Neural Networks, Vancouver, BC, Canada, 24-29 July 2016; pp.
Yanan, S.; Hui, Z.; Li, L.; Hang, Z. 基于 YOLOv3 深度学习网络的轨道表面缺陷检测方法。2018 中国自动化大会论文集》,中国西安,2018 年 11 月 30 日至 12 月 2 日;第 1563-1568 页。
Bochkovskiy, A.; Wang, C.Y.; Liao, H.Y.M. YOLOv4: Optimal speed and accuracy of object detection. arXiv 2020, arXiv:2004.10934.
Redmon, J.; Farhadi, A. YOLOv3: An Incremental Improvement. arXiv 2018, arXiv:1804.02767.
Ren, S.; He, K.; Girshick, R.; Sun, J. Faster R-CNN:ArXiv 2016, arXiv:1506.01497.[CrossRef] [PubMed].
Girshick, R.; Donahue, J.; Darrell, T.; Malik, J. Rich feature hierarchies for accurate object detection and semantic segmentation.IEEE 计算机视觉与模式识别会议论文集》,美国俄亥俄州哥伦布市,
23
−
28
23
−
28
23-28 23-28 2014 年 6 月;第 580-587 页。
Uijlings, J.R.R.; Sande, K.E.A.; Gevers, T.; Smeulders, A.W.M. 物体识别的选择性搜索。Int.Int. J. Comput.Vis.2013, 104, 154-171.[CrossRef] [参考文献
Zitnick, C.L.; Dollár, P. Edge boxes:从边缘定位对象提案。欧洲计算机视觉会议论文集》,瑞士苏黎世,2014 年 9 月 6-12 日;第 8693 页。
Chollet, F. Xception:深度可分离卷积深度学习。In Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, USA, 21-26 July 2017; pp.