AVS3视频编码关键技术及应用

AVS3视频编码关键技术及应用

2023年7月25日发(作者:)

AVS3视频编码关键技术及应用

作者:张嘉琪 雷萌 马思伟

来源:《中兴通讯技术》2021年第01期

摘要:超高清(UHD)视频能为用户带来质量更高、沉浸感更强的视觉体验,但高带宽成本限制了其推广和应用。为解决超高清视频传输和存储的难题,中国数字音视频编解码技术标准(AVS)工作组制定了新一代视频编码标准——AVS3,并在超高清产业化应用方面取得重要进展。介绍了AVS3视频编码关键技术,以及其与AVS2、多功能视频编码(VVC)、开放媒体联盟视频(AV1)等标准的性能对比情况。

关键词:视频编码;AVS3;超高清

Abstract: Ultra-high definition (UHD) videos can provide users a higher quality and more

immersive visual experiences. However, the application of UHD is limited by high bandwidth cost.

To solve the transmission and storage problem of UHD, China Audio and Video Coding Standard

(AVS) workgroup established a new generation of video coding standard—AVS3. Currently,

AVS3 has made a great contribution to the development of UHD industries in China. Key

technologies of AVS3 are described, and a comprehensive comparison with AVS2, versatile video

coding (VVC) and alliance for open media video 1 (AV1) is conducted.

Keywords: video coding; AVS3; UHD

視觉是人类获取信息的重要来源,视频承载了海量非结构化视觉信息,是应用最广泛的多媒体数据格式,它与人们的生活息息相关,是人类获取信息的重要途经之一。目前,互联网70%以上的流量来自于图片和视频,并且这个比例仍在持续攀升[1],视频已成为网络上体量最大的数据格式。据统计[1],2017年标清和高清视频内容约各占视频流量的一半;2019年标清内容的占比约下降到1/3,高清内容成为主流,而超高清内容的占比正在逐步攀升;预计到2022年,超高清内容的占比约提升到1/4。

超高清视频具有更高的空间和时间分辨率、更广的色域和更宽的动态范围,是继视频数字化、高清化之后的新一轮重大技术革新。视频技术从高清向超高清的演进,不仅引发了内容制播、芯片制造、网络传输等产业链各环节的升级换代,而且驱动了广播电视、安防监控、智能交通等以视频为核心的行业服务转型。自2018年起,中国超高清视频产业已达万亿元级别。预计到2022年,中国超高清视频产业总体规模将超过4万亿元[2]。

成倍增长的数据量给超高清视频的高效传输和存储带来了巨大的挑战。以8K、10 bit、120帧/秒的YUV(一种颜色编码方法)420格式的超高清视频为例,其原始数据的码率会达到约88.99 Gbit/s。若采用第2代数字音视频编解码技术标准(AVS2)/高效视频编码(HEVC)[3-4]标准对原始数据进行压缩,压缩码率约310 Mbit/s,带宽传输压力极大。因此,超高清视频应用迫切需要更加高效的压缩技术。

为解决超高清视频带宽需求大、存储难等问题,中国AVS工作组率先展开了具有自主知识产权的、针对超高清视频的视频编码标准的制定工作。在2017年12月举行的会议中,AVS工作组决定开展面向超高清视频应用的新一代数字视频编码标准(以下简称AVS3)的制定工作。AVS3的制定工作分为两个阶段:第1阶段(基准档次)是从2018年3月到2019年6月,制定面向复杂度优先的应用,其性能相较于AVS2提升30%;第2阶段(增强档次)是从2019年6月到2021年12月,目标是编码效率比AVS2提升1倍以上,同时编码性能超越同时代的其他国际标准。2020年5月13日,AVS3基准档次标准正式获批并被颁布为团体标准。

1 AVS3视频编码关键技术

AVS工作组自2002年成立以来,一直致力于制定高压缩率和友好专利政策的视频编码标准。经历了19年的发展,AVS工作组已经制定从AVS1到AVS3这3代视频编码标准。面向超高清视频应用,AVS3沿用了基于块的预测变换混合编码框架,具体如图1所示。AVS3包括块划分、帧内预测、帧间预测、变换量化、熵编码、环路滤波等模块。相较于AVS2,AVS3在保留部分编码工具的同时,针对不同模块引入了一些新的编码工具[5],并采用了更灵活的块划分结构、更精细的预测模式、更具适应性的变换核,实现了约30%的码率节省,显著提升了编码效率。

1.1 块划分

如图2(a)所示,AVS2采用了基于四叉树(QT)的递归划分编码框架,每个编码单元(CU)的尺寸都是方形且允许被进一步划分为不同形状的预测单元(PU)。为提升划分的灵活性,AVS3引入了基于四叉、二叉(QTBT)和扩展四叉树(EQT)的划分方式,如图2(b)。QTBT加EQT的划分方式允许出现非方形编码单元,编码单元是后续预测、变换和量化的基础,非方形划分更加符合纹理精细和为了便于硬件实现,AVS3采用了局部分离树(LST)。LST技术为了避免色度出现边长等于2像素的变换块,在亮度块划分时,如果亮度块出现边长等于4像素的边,则仅对亮度块划分,无须对色度块划分。为提高硬件流水处理效率,AVS3对一些小块添加了模式限制。当块大小满足限制后,该节点及其划分得到的编码块的编码模式只能全部选择同一种预测模式,如帧间预测或帧内预测。

1.2 帧间预测

帧间预测工具可以分为3类:一类是针对跳过模式和直接模式候选项的扩充,一类是差分运动矢量(MVD)编码,最后一类则是基于子块的运动补偿。

跳过模式和直接模式是一项使用相邻编码块的运动矢量(MV)进行预测的高效编码技术。AVS2中的跳过模式和直接模式候选项只有4个相邻模式和1个时域模式,对图像非相邻结构性和纹理多变性的区域编码效率不高。AVS3引入了基于历史运动矢量的预测(HMVP)和高级运动矢量表达(UMVE)等技术。HMVP利用非局部相似性的原理获取更多非相邻的运动矢量候选,如图3(a)所示。HMVP通过动态更新运动候选矢量列表,保留了与当前块运动相关性最高的候选项,提高了跳过模式和直接模式、处理非局部相似性运动的能力。UMVE通过对跳过模式和直接模式候选项加入运动矢量偏移,对运动矢量进行更精细的表达,可以更好地消除视频场景中因剧烈运动而带来的匹配误差。

自适应运动矢量精度(AMVR)和扩展运动矢量精度(EMVR)的引入提升了MVD的编码效率。在AVS2中,运动矢量精度只有1/4像素和1/2像素,且无法灵活选择。AVS3中的AMVR使用了1/4、1/2、1、2、4像素精度的运动矢量,根据视频内容自适应地选择预测精度,提高了帧间预测在不同区域的适应性。EMVR提供了不同的运动搜索起始点,扩大了运动矢量的搜索空间,有效提升了运动估计的准确性。

雙向光流(BIO)[6]、仿射运动(AFFINE)和解码端运动矢量修正(DMVR)[7]等技术采用基于子块的运动补偿,提高了帧间预测准确度。基于物体运动轨迹是平滑的这一假设,BIO通过最小化每个子块的前向和后向预测样本之间的差异来计算运动细化差,然后使用运动细化差来调整每个子块的预测样本值。如图3(b)所示,AFFINE根据仿射变换模型,利用2个(四参数)或3个(六参数)控制点的运动矢量导出当前编码块的运动矢量场。AFFINE运动模型相对于AVS2中的平移运动模型,可以有效提升具有缩放、旋转、透视和其他不规则运动等性能的视频序列编码。DMVR将编码区域划分为若干个不重叠的子块,以初始MV为起始位置,使用最小化均方误差的模板匹配方法对当前MV进行偏移,进一步修正双向预测样本值。

1.3 帧内预测

帧内预测方面的新技术包括帧内预测模式扩展(EIPM)、预测像素滤波、跨分量预测等。 EIPM[8]扩展了帧内预测的角度,如图4(a)所示。帧内预测模式从33种扩展到66种,包括62种角度模式和4种特殊模式,提高了对方向性纹理的预测能力,可以适应纹理丰富的超高清视频内容。

帧内预测滤波包含分像素插值滤波和预测像素值滤波。多组滤波(MIPF)根据块内像素点的个数和所在位置[9] ,使用4组不同的插值滤波器生成预测像素。多组滤波适用于不同的颜色分量和像素平滑程度,在复杂度极低的情况下,取得了可观的性能增益。MIPF得到预测像素后,还可以对预测像素进行帧内预测滤波(IPF)。IPF使用高斯平滑滤波器,根据参考像素、预测模式和与参考像素的距离对预测像素做进一步的修正,如图4(b)所示。跨分量预测是指在色度预测编码过程中,通过两步预测模式(TSCPM)对色度进行预测编码。其原理是假定亮度和色度分量之间线性相关,通过最小二乘法求解对应线性回归的参数,在求得参数后,使用亮度重构像素以精细重建对应位置的色度像素,在色度上取得了显著的增益。

1.4 变换与量化

变换可以集中能量,利于熵编码进行系数压缩。离散余弦变换(DCT)具有很好的去相关能力[10],且由于其对称性有利于软硬件实现,因此能够在视频压缩领域得到广泛的应用。在上一代视频编码标准中,DCT-II作为主要应用的变换核,适用于均匀分布的残差变换,但缺乏处理不均匀残差分布的能力。在AVS3中,隐则变换(IST)和子块变换(SBT)引入了新的变换核DST-VII和DCT-VIII,能够聚集不均匀分布残差的能量。IST[11]通过量化块中偶数系数个数的奇偶性隐式地导出变换核的类型,在提高变换灵活性的同时,没有引入额外的比特消耗。基于帧间预测残差分布的局部性,SBT把预测残差分布的位置限制在残差块的1/2或者1/4区域,如图5(a)所示,从而降低变换系数的局部分量,并减少了全零块的编码代价,提高了压缩性能。

在系数编码中,AVS3采用了一种基于扫描区域的系数编码方案(SRCC)[12]。SRCC使用参数(SRx,SRy)控制量化系数非零的区域。为了达到码率和失真之间的平衡以及提高系数编码的灵活性,SRCC使用率失真优化选择最优扫描区域。在扫描编码区域内的非零系数时,SRCC采取了从右下到左上的反Z形扫描方式,如图5(b)所示;非零系数采用了分层编码,不同层级使用多套上下文,根据系数在扫描区域的位置和扫描区域的面积确定上下文模型。精确的上下文建模显著提升了压缩效率。

1.5 基于卷积神经网络的环路滤波

为了探索神经网络在编码标准中的可实现性,AVS3工作组设立了智能编码专题小组,对基于卷积神经网络的环路滤波(CNNLF)[13]进行了深入探索研究。CNNLF能够代替传统的去块(Deblock)滤波和样本自适应偏移(SAO)滤波,并取得了6%左右的性能增益。

1.2 帧间预测

帧间预测工具可以分为3类:一类是针对跳过模式和直接模式候选项的扩充,一类是差分运动矢量(MVD)编码,最后一类则是基于子块的运动补偿。

跳过模式和直接模式是一项使用相邻编码块的运动矢量(MV)进行预测的高效编码技术。AVS2中的跳过模式和直接模式候选项只有4个相邻模式和1个时域模式,对图像非相邻结构性和纹理多变性的区域编码效率不高。AVS3引入了基于历史运动矢量的预测(HMVP)和高级运动矢量表达(UMVE)等技术。HMVP利用非局部相似性的原理获取更多非相邻的运动矢量候选,如图3(a)所示。HMVP通过动态更新运动候选矢量列表,保留了与当前块运动相关性最高的候选项,提高了跳过模式和直接模式、处理非局部相似性运动的能力。UMVE通过对跳过模式和直接模式候选项加入运动矢量偏移,对运动矢量进行更精细的表达,可以更好地消除视频场景中因剧烈运动而带来的匹配误差。 自适应运动矢量精度(AMVR)和扩展运动矢量精度(EMVR)的引入提升了MVD的编码效率。在AVS2中,运动矢量精度只有1/4像素和1/2像素,且无法灵活选择。AVS3中的AMVR使用了1/4、1/2、1、2、4像素精度的运动矢量,根据视频内容自适应地选择预测精度,提高了帧间预测在不同区域的适应性。EMVR提供了不同的运动搜索起始点,扩大了运动矢量的搜索空间,有效提升了运动估计的准确性。

双向光流(BIO)[6]、仿射运动(AFFINE)和解码端运动矢量修正(DMVR)[7]等技术采用基于子块的运动补偿,提高了帧间预测准确度。基于物体运动轨迹是平滑的这一假设,BIO通过最小化每个子块的前向和后向预测样本之间的差异来计算运动细化差,然后使用运动细化差来调整每个子块的预测样本值。如图3(b)所示,AFFINE根据仿射變换模型,利用2个(四参数)或3个(六参数)控制点的运动矢量导出当前编码块的运动矢量场。AFFINE运动模型相对于AVS2中的平移运动模型,可以有效提升具有缩放、旋转、透视和其他不规则运动等性能的视频序列编码。DMVR将编码区域划分为若干个不重叠的子块,以初始MV为起始位置,使用最小化均方误差的模板匹配方法对当前MV进行偏移,进一步修正双向预测样本值。 1.3 帧内预测

帧内预测方面的新技术包括帧内预测模式扩展(EIPM)、预测像素滤波、跨分量预测等。

EIPM[8]扩展了帧内预测的角度,如图4(a)所示。帧内预测模式从33种扩展到66种,包括62种角度模式和4种特殊模式,提高了对方向性纹理的预测能力,可以适应纹理丰富的超高清视频内容。

帧内预测滤波包含分像素插值滤波和预测像素值滤波。多组滤波(MIPF)根据块内像素点的个数和所在位置[9] ,使用4组不同的插值滤波器生成预测像素。多组滤波适用于不同的颜色分量和像素平滑程度,在复杂度极低的情况下,取得了可观的性能增益。MIPF得到预测像素后,还可以对预测像素进行帧内预测滤波(IPF)。IPF使用高斯平滑滤波器,根据参考像素、预测模式和与参考像素的距离对预测像素做进一步的修正,如图4(b)所示。跨分量预测是指在色度预测编码过程中,通过两步预测模式(TSCPM)对色度进行预测编码。其原理是假定亮度和色度分量之间线性相关,通过最小二乘法求解对应线性回归的参数,在求得参数后,使用亮度重构像素以精细重建对应位置的色度像素,在色度上取得了显著的增益。

1.4 变换与量化

变换可以集中能量,利于熵编码进行系数压缩。离散余弦变换(DCT)具有很好的去相关能力[10],且由于其对称性有利于软硬件实现,因此能够在视频压缩领域得到广泛的应用。在上一代视频编码标准中,DCT-II作为主要应用的变换核,适用于均匀分布的残差变换,但缺乏处理不均匀残差分布的能力。在AVS3中,隐则变换(IST)和子块变换(SBT)引入了新的变换核DST-VII和DCT-VIII,能够聚集不均匀分布残差的能量。IST[11]通过量化块中偶数系数个数的奇偶性隐式地导出变换核的类型,在提高变换灵活性的同时,没有引入额外的比特消耗。基于帧间预测残差分布的局部性,SBT把预测残差分布的位置限制在残差块的1/2或者1/4区域,如图5(a)所示,从而降低变换系数的局部分量,并减少了全零块的编码代价,提高了压缩性能。

在系数编码中,AVS3采用了一种基于扫描区域的系数编码方案(SRCC)[12]。SRCC使用参数(SRx,SRy)控制量化系数非零的区域。为了达到码率和失真之间的平衡以及提高系数编码的灵活性,SRCC使用率失真优化选择最优扫描区域。在扫描编码区域内的非零系数时,SRCC采取了从右下到左上的反Z形扫描方式,如图5(b)所示;非零系数采用了分层编码,不同层级使用多套上下文,根据系数在扫描区域的位置和扫描区域的面积确定上下文模型。精确的上下文建模显著提升了压缩效率。

1.5 基于卷积神经网络的环路滤波

为了探索神经网络在编码标准中的可实现性,AVS3工作组设立了智能编码专题小组,对基于卷积神经网络的环路滤波(CNNLF)[13]进行了深入探索研究。CNNLF能够代替传统的去块(Deblock)滤波和样本自适应偏移(SAO)滤波,并取得了6%左右的性能增益。

1.2 帧间预测 帧间预测工具可以分为3类:一类是针对跳过模式和直接模式候选项的扩充,一类是差分运动矢量(MVD)编码,最后一类则是基于子块的运动补偿。

跳过模式和直接模式是一项使用相邻编码块的运动矢量(MV)进行预测的高效编码技术。AVS2中的跳过模式和直接模式候选项只有4个相邻模式和1个时域模式,对图像非相邻结构性和纹理多变性的区域编码效率不高。AVS3引入了基于历史运动矢量的预测(HMVP)和高级运动矢量表达(UMVE)等技术。HMVP利用非局部相似性的原理获取更多非相邻的运动矢量候选,如图3(a)所示。HMVP通过动态更新运动候选矢量列表,保留了与当前块运动相关性最高的候选项,提高了跳过模式和直接模式、处理非局部相似性运动的能力。UMVE通过对跳过模式和直接模式候选项加入运动矢量偏移,对运动矢量进行更精细的表达,可以更好地消除视频场景中因剧烈运动而带来的匹配误差。

自适应运动矢量精度(AMVR)和扩展运动矢量精度(EMVR)的引入提升了MVD的编码效率。在AVS2中,运动矢量精度只有1/4像素和1/2像素,且无法灵活选择。AVS3中的AMVR使用了1/4、1/2、1、2、4像素精度的运动矢量,根据视频内容自适应地选择预测精度,提高了帧间预测在不同区域的适应性。EMVR提供了不同的运动搜索起始点,扩大了运动矢量的搜索空间,有效提升了运动估计的准确性。

双向光流(BIO)[6]、仿射運动(AFFINE)和解码端运动矢量修正(DMVR)[7]等技术采用基于子块的运动补偿,提高了帧间预测准确度。基于物体运动轨迹是平滑的这一假设,BIO通过最小化每个子块的前向和后向预测样本之间的差异来计算运动细化差,然后使用运动细化差来调整每个子块的预测样本值。如图3(b)所示,AFFINE根据仿射变换模型,利用2个(四参数)或3个(六参数)控制点的运动矢量导出当前编码块的运动矢量场。AFFINE运动模型相对于AVS2中的平移运动模型,可以有效提升具有缩放、旋转、透视和其他不规则运动等性能的视频序列编码。DMVR将编码区域划分为若干个不重叠的子块,以初始MV为起始位置,使用最小化均方误差的模板匹配方法对当前MV进行偏移,进一步修正双向预测样本值。

1.3 帧内预测

帧内预测方面的新技术包括帧内预测模式扩展(EIPM)、预测像素滤波、跨分量预测等。

EIPM[8]扩展了帧内预测的角度,如图4(a)所示。帧内预测模式从33种扩展到66种,包括62种角度模式和4种特殊模式,提高了对方向性纹理的预测能力,可以适应纹理丰富的超高清视频内容。

帧内预测滤波包含分像素插值滤波和预测像素值滤波。多组滤波(MIPF)根据块内像素点的个数和所在位置[9] ,使用4组不同的插值滤波器生成预测像素。多组滤波适用于不同的颜色分量和像素平滑程度,在复杂度极低的情况下,取得了可观的性能增益。MIPF得到预测像素后,还可以对预测像素进行帧内预测滤波(IPF)。IPF使用高斯平滑滤波器,根据参考像素、预测模式和与参考像素的距离对预测像素做进一步的修正,如图4(b)所示。跨分量预测是指在色度预测编码过程中,通过两步预测模式(TSCPM)对色度进行预测编码。其原理是假定亮度和色度分量之间线性相关,通过最小二乘法求解对应线性回归的参数,在求得参数后,使用亮度重构像素以精细重建对应位置的色度像素,在色度上取得了显著的增益。

1.4 变换与量化

变换可以集中能量,利于熵编码进行系数压缩。离散余弦变换(DCT)具有很好的去相关能力[10],且由于其对称性有利于软硬件实现,因此能够在视频压缩领域得到广泛的应用。在上一代视频编码标准中,DCT-II作为主要应用的变换核,适用于均匀分布的残差变换,但缺乏处理不均匀残差分布的能力。在AVS3中,隐则变换(IST)和子块变换(SBT)引入了新的变换核DST-VII和DCT-VIII,能够聚集不均匀分布残差的能量。IST[11]通过量化块中偶数系数个数的奇偶性隐式地导出变换核的类型,在提高变换灵活性的同时,没有引入额外的比特消耗。基于帧间预测残差分布的局部性,SBT把预测残差分布的位置限制在残差块的1/2或者1/4区域,如图5(a)所示,从而降低变换系数的局部分量,并减少了全零块的编码代价,提高了压缩性能。 在系数编码中,AVS3采用了一种基于扫描区域的系数编码方案(SRCC)[12]。SRCC使用参数(SRx,SRy)控制量化系数非零的区域。为了达到码率和失真之间的平衡以及提高系数编码的灵活性,SRCC使用率失真优化选择最优扫描区域。在扫描编码区域内的非零系数时,SRCC采取了从右下到左上的反Z形扫描方式,如图5(b)所示;非零系数采用了分层编码,不同层级使用多套上下文,根据系数在扫描区域的位置和扫描区域的面积确定上下文模型。精确的上下文建模显著提升了压缩效率。

1.5 基于卷积神经网络的环路滤波

为了探索神经网络在编码标准中的可实现性,AVS3工作组设立了智能编码专题小组,对基于卷积神经网络的环路滤波(CNNLF)[13]进行了深入探索研究。CNNLF能够代替传统的去块(Deblock)滤波和样本自适应偏移(SAO)滤波,并取得了6%左右的性能增益。

发布者:admin,转转请注明出处:http://www.yc00.com/xiaochengxu/1690227602a317884.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信