基于视觉感知与学习的图像质量评价 [PDF全文]
1,2,1
(1.秋霞影院 信息与电子工程学院,杭州 310023; 2.浙江省文成县公安局,浙江 温州 325300)

针对几种经典评价方法的缺点,通过引入人眼的主观特性,提出一种基于视觉感知与学习(visual perception and learning,VPL)的方法,以解决人类视觉系统(human vision system,HVS)多通道评价融合的不稳定性。借助反向传播(back propagation,BP)神经网络构建了评价融合模型,分别对几种视觉感知算法的多通道评价进行融合,并基于回归函数对视觉感知算法的结果进行二次互补融合。结果 表明,相对于现有主流方法,本文所提方法的各项评价指标均具有较大的优势。

;;;
Image quality assessment based on visual perception and learning
FENG Mingkun1, ZHOU Hong2, SUN Lihui1
(1.School of Information and Electronic Engineering, Zhejiang University of Science and Technology, Hangzhou 310023, Zhejiang, China; 2.Wencheng County Public Security Bureau, Wenzhou 325300, Zhejiang, China)

Aiming at the shortcoming of several classical assessment methods, a new method of image quality assessment based on visual perception and learning(VPL), was proposed by introducing subjective characteristics of human eyes with a view to solving instability of multi-channel assessment pooling of the human vision system(HVS). Then, an assessment pooling model was constructed by virtue of the back propagation(BP)neural network, pooling multi-channel assessment of several visual perception algorithms. Finally, second complementary pooling was conducted for results of every visual perception algorithm based on the regression function. The experiment results show that every assessment indicator of the proposed method has greater advantages compared to the existing prevailing methods.

;;;
引言

随着大数据和云计算等业务的兴起,图像信号获得了广泛的应用[1],因而基于计算机视觉原理的图像质量客观评价引起了人们的重视[2]。峰值信噪比(peak signal noise ratio,PSNR)是基于像素误差统计结果的经典算法,但其指标水平较低。近些年人们结合工程学和图像特征提出了一些新的评价算法,例如,结构相似度(structural similarity,SSIM)[3]是基于局部像素域相似度统计结果的工程方法,梯度相似度(gradient similarity mechanism,GSM)[4]则针对图像梯度特征进行相似度评价,而奇异值分解(singular value decomposition,SVD)[5]通过提取图像的奇异特征值进行误差评价。上述4种算法从评价准则和特征提取两方面构成了图像质量客观评价方法的基础,于是一些研究者针对这4种算法提出了改进的评价方法[6-9],但仍存在一些问题:各评价指标水平的差别较大,很难同时兼顾综合性能; 应用场景不同,各评价指标水平会出现较大的波动,稳定性较差。针对上述问题,本研究通过引入人类视觉系统(human vision system,HVS)显著感知特性提出了基于视觉感知与学习(visual perception and learning,VPL)的图像质量融合评价方法,即先构建反向传播(back prapagation,BP)神经网络融合模型对各算法的多通道评价结果进行融合,再基于回归函数对各算法的评价结果进行二次互补融合。

1 视觉感知与学习评价VPL方法的原理

本研究提出的VPL方法的评价原理可用图1来描述,它充分利用了HVS视觉感知特性和视觉处理特性,首先对图像特征进行视觉处理; 然后对PSNR、SSIM、GSM和SVD 4种算法进行改进,提出了对应的视觉峰值信噪比(VPSNR)、视觉结构相似度(VSSIM)、视觉梯度相似度(VGSM)和视觉奇异值分解(VSVD)4种评价算法; 最后基于BP神经网络构建多通道评价融合模型,进而获得最终VVPL评价分值。VPL方法包括如下步骤:对参考图像r(i,j)和失真图像d(i,j)进行高斯卷积处理[3],模拟HVS瞳孔感光原理,(i,j)代表图像坐标点; 基于二维Log-Gabor小波变换算法[10]提取r(i,j)和d(i,j)的多通道视图rs,o(i,j)和ds,o(i,j),模拟HVS亮度感知非线性和信息多通道感知特性,参数s、o分别为

图1 VPL方法原理<br/>Fig.1 Theory of VPL methodLog-Gabor

图1 VPL方法原理
Fig.1 Theory of VPL methodLog-Gabor

的尺度因子和方向因子; 设计VPSNR、VSSIM、VGSM和VSVD 4种改进的视觉评价算法,分别对ds,o(i,j)进行测量,获得视觉评价VPSNR(s,o)、VSSIM(s,o)、VGSM(s,o)和VSVD(s,o); 构建BP神经网络融合模型,分别通过VPSNR(s,o)、VSSIM(s,o)、VGSM(s,o)和VSVD(s,o)训练集的学习,依次获得对应测试集的融合结果VPSNR评价、VSSIM评价、VGSM评价和VSVD评价; 基于回归函数对所得结果进行逐步自适应融合,最终获得d(i,j)的VVPL评价分值。

1.1 视觉感知评价算法原理1.1.1 视觉峰值信噪比算法(VPSNR)

基于PSNR算法及其改进算法[10],VPSNR评价公式如下:

VPSNR(s,o)=10log10((2552)/(Vmse(s,o)))。(1)

式(1)中:Vmse(s,o)为rs,o(i,j)和ds,o(i,j)的视觉均方误差,其定义如下:

Vmse(s,o)=1/L∑Lp=11/(MN)∑M-1i=1N-1j=1ω(i,j)[rs,o(i,j)-ds,o(i,j)]2。(2)

式(2)中:ω(i,j)为局部分块的高斯卷积核函数; MN为ω(i,j)的窗口尺寸,L为ω(i,j)的子块数量。

1.1.2 视觉结构相似度算法(VSSIM)

基于SSIM算法[3]及其改进算法[11],VSSIM评价公式如下:

VSSIM(s,o)=1/L∑Lp=1[Hp(s,o)]1)*[ζp(s,o)]2)*[ψp(s,o)]3)。(3)

式(3)中:一般取权重参数α123=1,Hp(s,o)、ζp(s,o)、ψp(s,o)的定义分别为

{Hp(s,o)=(2μr,p(s,o)μd,p(s,o)+C1)/(μ2r,p(s,o)+μ2d,p(s,o)+C1);

ζp(s,o)=(2σr,p(s,o)σd,p(s,o)+C2)/(σ2r,p(s,o)+σ2d,p(s,o)+C2);

ψp(s,o)=(2σr,d,p(s,o)+C3)/(σr,p(s,o)σd,p(s,o)+C3)。(4)

式(4)中:C1、C2、C3为稳定算法的常数; μr,p(s,o)、μd,p(s,o)为局部视觉高斯滤波均值; σr,p(s,o)、σd,p(s,o)为局部视觉高斯滤波均方差; σr,d,p(s,o)为局部视觉高斯滤波协方差,相关定义参见文献[7]。

1.1.3 视觉感知梯度相似度算法(VGSM)

基于GSM算法[4]及其改进算法[12],VGSM评价公式如下:

{VGSM(s,o)=1/L∑Lp=1VGSM,p(s,o);

VGSM,p(s,o)=1/(MN)∑M-1i=1N-1j=1ω(i,j)(2gr(s,o)(i,j)gd(s,o)(i,j)+T)/(g2r(s,o)(i,j)+g2d(s,o)(i,j)+T)。(5)

式(5)中:VGSM,p(s,o)为局部视觉高斯滤波的梯度相似度评价; gr(s,o)(i,j)、gd(s,o)(i,j)分别为rs,o(i,j)和ds,o(i,j)的梯度特征视图,梯度算子参见文献[4]; T为稳定算法的常数。

1.1.4 视觉感知奇异值分解算法(VSVD)

基于SVD算法[5]及其改进算法[13],所提VSVD评价公式如下:

{VSVD(s,o)=1/L∑Lp=1[VSVD,p(s,o)-Dmid(s,o)];

VSVD,p(s,o)={1/Z∑Zt=1r,t(s,o)-υd,t(s,o)]2}1/2。(6)

式(6)中:VSVD,p(s,o)为局部视觉高斯滤波的奇异值特征评价; Dmid(s,o)为VSVD,p(s,o)的中间值; υr,t(s,o)、υd,t(s,o)分别为rs,o(i,j)和ds,o(i,j)的第t个奇异特征值; Z为ω(i,j)窗口内的奇异特征值数量。

1.2 多通道评价融合原理

HVS多通道融合对不同评价算法表现出不同的参数特性,目前尚未有相关的研究成果揭示HVS的多通道融合机制。本研究借助BP神经网络解决HVS多通道融合的不稳定性问题,构建了相应的HVS多通道融合模型,依据图像失真类型的不同将数据库中的失真图像数量随机对半分为训练集和测试集两部分。BP神经网络融合模型为图2所示的典型三层结构[14],其中,输入层神经元数量为通道数s*o=5*4=20,隐藏层神经元数量为20,输出层神经元数量为1,以学习误差e≤0.01和迭代次数ρ=200作为该模型的训练终止判决条件。BP融合模型的训练阶段首先选取一种图像失真类型和一种视觉评价算法(以VPSNR为例),将训练集中所有失真图像的VPSNR(s,o)分值作为模型的训练输入,以差异均值主观分(difference mean opinion score,DMOS)为训练目标,对模型进行训练,当达到其中一个训练终止条件e≤0.01或ρ=200时终止训练,转入测试阶段。BP融合模型的测试阶段选取对应训练阶段同一失真类型图像的VPSNR(s,o)分值作为模型的输入,模型的输出即为VPSNR(s,o)的融合结果分值VPSNR。依次选取不同的图像失真类型和不同的评价算法进行训练,分别获得对应图像失真类型和对应评价算法的多通道融合评价结果分值。

图2 多通道评价融合模型<br/>Fig.2 Pooling model of multi-channel assessment

图2 多通道评价融合模型
Fig.2 Pooling model of multi-channel assessment

1.3 自适应融合原理

根据VPSNR、VSSIM、VGSM和VSVD的评价结果,基于回归函数将其进行自适应融合[14],得最终结果VVPL分值如下:

VVPL=[(V(1-λ1)(PSNR)V1)(SSIM))1-λ2V2)(GSM)]1-λ3V3)(SVD)。(7)

式(7)中:λ1=1/[1+γ11V12)(SSIM)],λ2=1/[1+γ21V22)(GSM)],λ3=1/[1+γ31V32)(SVD)],参数γ11、γ12、γ21、γ22、γ31和γ32根据经验和试验训练取值,参见表1

2 结果分析2.1 VPL方法结果分析

基于LIVE(database release2)数据库的试验结果如表1所示,试验挑选了近年来的主流方法进行比较,其中,特征相似度(feature similarity,FSIM)[6]和视觉显著索引(visual saliency index,VSI)[7]基于视觉特征评价原理,信息保真度(information fidelity criterion,IFC)[8]和视觉信息保真(visual information fidelity,VIF)[9]基于信息评价原理,显著失真(most apparent distortion,MAD)[15]和内推机制(internal generative mechanism,IGM)[16]基于视觉心理评价原理。表1的试验结果表明本研究VPL方法的优势,体现在:1)所有失真类型评价的均方根误差(root mean square error,RMSE)和皮尔逊线性相关系数(Pearson linear correlation coefficient,PLCC)两项指标均具有较高的水平,RMSE小于3.663 4,PLCC大于0.988 3,明显优于其他方法。2)斯皮尔曼阶相关系数(Spearman rank-order correlation coefficient,SROCC)指标在JPEG2000、WN、gblur和fastfading多个失真类型上均有较大的优势。3)本方法的3项指标对各种失真类型评价都保持了非常稳定的高水平,RMSE小于等于3.663 4,PLCC大于等于0.988 3,SROCC大于等于0.960 0,没有出现明显的下降,而其他方法均有一定程度的下降。4)对各种失真类型的总体(All)评价上,本方法的3项指标水平具有明显优势,RMSE为4.421 0,PLCC为0.983 7,SROCC为0.981 5。综上,本研究VPL方法相比其他方法具有较高的准确度和稳定性。

表1 VPL法与其他方法的评价结果比较<br/>Table 1 Comparison of assessment results between VPL and other methods

表1 VPL法与其他方法的评价结果比较
Table 1 Comparison of assessment results between VPL and other methods

2.2 算法复杂度测试

表2 不同算法运行时间比较<br/>Table 2 Comparison of running time among different algorithms

表2 不同算法运行时间比较
Table 2 Comparison of running time among different algorithms

本试验测试了上述方法的运行时间,结果如表2所示,测试平台为i7-7500U CPU@2.70 GHz、8 G内存的L470便携式PC、Windows10、MATLAB R2014a。表2中数据说明,与基于视觉神经理论的同类方法IGM、MAD相比,本研究VPL方法的运行时间与MAD基本上相当,但明显优于IGM方法。

图3(a)~(d)分别为IFC、FSIM、VSI和VPL方法的散点分布图,其中,VPL方法的客观评价结果均匀地分布在[0,100]区间内,这表明它具有最高的分辨率和线性度。

图3 不同方法散点分布图<br/>Fig.3 Scatter distribution plot of different methods

图3 不同方法散点分布图
Fig.3 Scatter distribution plot of different methods

3 结 语

针对PSRN、SSIM、GSM和SVD主流评价方法的不足,本研究通过引入HVS的显著感知特性对其进行了改进,并借助于BP神经网络的学习推理能力对HVS的多通道评价进行了融合,解决了HVS中多通道评价融合的不稳定性问题。试验结果表明我们所提方法具有较高的准确度和稳定性,因而具有一定的参考价值。

参考文献
  • [1] GUO Y C, HAO Y T, YU M.[J]. Signal Processing:Image Communication,2018,67(6):171.
  • [2] ZHANG Y B, LIN W S, LI Q H, et al.[J]. IEEE Transactions on Image Processing,2018,27(1):451.
  • [3] WANG Z, BOVIK A C, SHEIKH H R, et al.[J]. IEEE Transactions on Image Processing,2004,13(4):600.
  • [4] LIU A M, LIN W S, NARWARIA M.[J]. IEEE Transaction on Image Processing,2012,21(4):1500.
  • [5] SHNAYDERMAN A, GUSEV A, ESKICIOGLU A M.[J]. IEEE Transactions on Image Processing,2006,15(2):422.
  • [6] ZHANG L, ZHANG L, MOU X Q, et al.[J]. IEEE Transaction on Image Processing,2011,20(8):2378-2386.
  • [7] ZHANG L, SHEN Y, LI H Y.[J]. IEEE Transactions on Image Processing,2014,23(10):4270.
  • [8] SHEIKH H R, BOVIK A C, DE VECIANA G.[J]. IEEE Transactions on Image Processing,2005,14(12):2117.
  • [9] SHEIKH H R, BOVIK A C.[J]. IEEE Transactions on Image Processing,2006,15(2):430.
  • [10] 丰明坤,赵生妹,邢超.[J].南京邮电大学学报(自然科学版),2015,35(8):35.
  • [11] 丰明坤,赵生妹,邢超.[J].电子与信息学报,2015,37(9):2064.
  • [12] 丰明坤,赵生妹,施祥.[J].仪器仪表学报,2015,36(11):2533.
  • [13] 丰明坤,王中鹏,叶绿.[J].仪器仪表学报,2016,37(3):669.
  • [14] 丰明坤,施祥.[J].浙江大学学报(工学版),2019,53(3):516.
  • [15] LARSON E C, CHANDLER D M.[J]. Journal of Electronic Imaging,2010,19(1):011006-1.
  • [16] WU J J, LIN W S, SHI G M, et al.[J]. IEEE Transactions on Image Processing,2013,22(1):43.