⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 中华视频网 - h_264技术特色与广播视讯应用方案.htm

📁 关于h.264的一些论文
💻 HTM
📖 第 1 页 / 共 5 页
字号:
                              Codes;CAVLC),并将它们用于系数转换,第二种方法则是使用以情境为基础的适应性二位算术编码(Context-based 
                              Adaptive Binary Arithmetic 
                              Coding;CABAC)。<BR><BR><FONT color=#0000ff 
                              size=2>比特流的组成方式</FONT><SPAN 
                              style="FONT-SIZE: 9pt"><BR><BR>每格视讯画面会被分割成多个较小的区块,称为宏区块(macroblock),例如(图三)就把QCIF分辨率(176(144)的画面分割成99个16(16宏区块,其它大小的图框也采用类似的宏区块分割方式。画面亮度会在图框分辨率下进行取样,色差讯号Cb和Cr的取样率则会沿着水平和垂直方向减少两倍;除此之外,每格画面也可分割成整数个「切片」(slices),当某些数据遗失时,这些切片对于画面再同步会有很大帮助。</SPAN></SPAN></SPAN></P>
                              <P><SPAN style="FONT-SIZE: 9pt"><SPAN 
                              style="FONT-SIZE: 9pt"><SPAN 
                              style="FONT-SIZE: 9pt"><IMG 
                              alt=(图三) 将QCIF画面分割成16(16宏区块 hspace=0 
                              src="中华视频网 - H_264技术特色与广播视讯应用方案.files/fo658.3.gif" 
                              align=middle border=0></SPAN></SPAN></SPAN></P>
                              <P><SPAN style="FONT-SIZE: 9pt"><SPAN 
                              style="FONT-SIZE: 9pt"><SPAN 
                              style="FONT-SIZE: 9pt"><FONT color=#0000ff 
                              size=2>框内预测和编码(Intra Prediction and 
                              Coding)</FONT><SPAN 
                              style="FONT-SIZE: 9pt"><BR><BR>框内编码只会利用视讯画面内的空间冗余性,所得到的图框称为I-画面(I-picture),这种编码方式通常是直接对图框内的不同宏方块进行转换,所以编码后的I-画面通常也会很大,因为图框内会包含大量信息,编码过程也不会使用任何时间信息。H.264为了提高框内编码程序的执行效率,会利用图框内相邻宏区块之间的空间关联性,这种想法源自于一个观察结果:相邻的宏区块通常都有类似的性质,可以根据环绕四周的宏区块来预测目标区块(通常会选择目标区块上方和左边的宏区块,因为这些区块应已完成编码),并以此做为宏区块编码程序的第一步。接着则是对实际区块和预测值之间的差异值进行编码,相较于直接对宏区块进行转换,这种方式只需要较少的位数目,就能代表目标宏区块。</SPAN></SPAN></SPAN></SPAN></P>
                              <P><SPAN style="FONT-SIZE: 9pt"><SPAN 
                              style="FONT-SIZE: 9pt"><SPAN 
                              style="FONT-SIZE: 9pt"><SPAN 
                              style="FONT-SIZE: 9pt"><IMG 
                              alt=(图四) 4x4亮度区块的框内预测模式 hspace=0 
                              src="中华视频网 - H_264技术特色与广播视讯应用方案.files/fo658.4.gif" 
                              align=middle 
                              border=0></SPAN></SPAN></SPAN></SPAN></P>
                              <P><SPAN style="FONT-SIZE: 9pt"><SPAN 
                              style="FONT-SIZE: 9pt"><SPAN 
                              style="FONT-SIZE: 9pt"><SPAN 
                              style="FONT-SIZE: 9pt">为了执行上述的框内预测,H.264总共提供九种模式来预测4(4亮度区块,包括直流预测 
                              (模式2)以及八种方向性模式,如(图四)所示,它们在图中的编号是0、1、3、4、5、6、7和8,图四即是说明这个程序,其中像素A至M来自相邻区块,并已完成编码,可于预测过程中使用。举例来说,若选择使用模式0(垂直预测),它会依下列方式指定像素a到p的值:</P>
                              <P class=内文9><SPAN 
                              style="FONT-SIZE: 9pt">●a、e、i和m等于A<BR>● 
                              b、f、j和n等于B<BR>● c、g、k和o等于C<BR>● 
                              d、h、l和p等于D</SPAN></P>
                              <P class=内文9><SPAN 
                              style="FONT-SIZE: 9pt"><BR>如果选择使用模式3(左下对角预测),则会依下列方式指定像素a到p的值:<BR><BR>●a等于(A 
                              + 2B + C + 2)/4<BR>● b和e等于(B + 2C + D + 2)/4<BR>● 
                              c、f和i等于(C + 2D + E + 2)/ 4<BR>● d、g、j和m等于(D + 2E + 
                              F + 2)/4<BR>● h、k和n等于(E + 2F + G + 2)/4<BR>● 
                              l和o等于(F + 2G + H + 2/)4<BR>● p等于(G + 3H + 
                              2)/4</SPAN></P><SPAN style="FONT-SIZE: 9pt">
                              <P 
                              class=内文9><BR>对于空间细节较少的区域(也就是平坦区),H.264也支持16(16框内预测,其中有四种预测模式可供选择(直流、垂直、水平和平面),可以预测宏区块的整个亮度值;此外,H.264还支持8(8色度区块的框内预测,并提供四种预测模式(直流、垂直、水平和平面)。最后,为了以更高效率对每个区块的预测模式进行编码,它会把较短的符号指定给出现机率较高的模式,每个模式的出现机率则是由周围区块编码时所使用的预测模式来决定。<BR><BR></SPAN><FONT 
                              color=#0000ff size=2>框间预测和编码(Inter Prediction and 
                              Coding)</FONT><SPAN 
                              style="FONT-SIZE: 9pt"><BR><BR>框间预测和编码会使用移动估算和补偿,它们会利用连续图框之间的时间冗余性,故能提供极高效率的视讯影片编码。若利用前面已完成编码的(一个或多个)图框做为移动估算的参考图框,接受编码的图框就称为P-画面(P-picture),或参考图框包括(一个或多个)已编码图框和一个未来图框,那么目标图框就称为B-画面(B-picture)。H.264的移动估算可以支持早期视讯标准所采用的绝大多数重要特色,它还会透过更强大的弹性和功能来改善运算效率。除了支持P-画面(使用一个或多个参考图框)以及B-画面(使用多种预测模式),H.264还支持新的串流间转移画面(inter-stream 
                              transitional 
                              picture),称为SP-画面(SP-picture);把SP-画面加入比特流后,不但能很有效率的在多个内容相似而编码位速率不同的比特流之间进行切换,还可以支持随机存取和高速播放模式。<BR><BR></SPAN><FONT 
                              color=#0000ff size=2>区块大小</FONT></P>
                              <P class=内文9><FONT color=#0000ff size=2><IMG 
                              alt=(图五) H.264为移动估算提供的各种宏区块分割模式 hspace=0 
                              src="中华视频网 - H_264技术特色与广播视讯应用方案.files/fo658.5.gif" 
                              align=baseline border=0></FONT></P>
                              <P class=内文9><FONT 
                              size=2>如(图五)所示,我们可利用不同的区块大小和形状来执行每个16(16宏区块的移动补偿。可以传送个别移动向量的最小区块为4(4,所以每个宏区块最多能传送16个移动向量,从图中可看出,获得支持的区块大小包括16(8、8(16、8(8、8(4以及4(8;整体来说,提供更小的移动补偿区块可以改善预测结果,特别是小区块可以提高模型处理移动细节的能力,达成更良好的主观视觉品质,因为它们不会像大区块一样产生假影噪声 
                              (artifacts)。<BR><BR>不但如此,透过最近获得采用的树状结构分割法(tree 
                              structure segmentation method),就有可能在8( 8子区块内使用4( 
                              8、8 ( 4或是4 ( 4子区块组合,(图六)即是16 ( 
                              16宏区块采用这类组合方式的范例。</FONT></P>
                              <P class=内文9><IMG 
                              alt=(图六) 根据H.264的树状结构分割法来规划宏区块内的子区块 hspace=0 
                              src="中华视频网 - H_264技术特色与广播视讯应用方案.files/fo658.6.gif" 
                              align=middle border=0></P>
                              <P class=内文9><FONT color=#0000ff 
                              size=2>移动估算的精准度</FONT><SPAN 
                              style="FONT-SIZE: 9pt"><BR><BR>H.264可以利用高于现有标准的空间精准度来决定移动向量,进而改善移动补偿算法的预测能力;在H.264标准中,四分之一像素精准度的移动补偿是精准度最低的移动补偿(相形之下,既有标准大多采用半像素精准度,只有最新的MPEG-4标准才提供四分之一像素精准度)。<BR><BR></SPAN><FONT 
                              color=#0000ff size=2>多重参考画面选择</FONT><SPAN 
                              style="FONT-SIZE: 9pt"><BR><BR>H.264标准还提供选项,可于框间编码过程中使用多个参考图框,这样不但能得到更良好的主观视讯品质,目标视讯图框的编码也将更有效率;此外,采用多个参考图框也会让 
                              H.264比特流具备更强大的抗错性。另一方面,若从实作角度而言,采用多个参考图框会影响编码器和译码器,使得处理作业的延迟时间更长,内存需求也更高。<BR><BR></SPAN><FONT 
                              color=#0000ff size=2>消除区块(回路)滤波器</FONT><SPAN 
                              style="FONT-SIZE: 9pt"><BR><BR>H.264指定使用一种适应性消除区块滤波器(de-blocking 
                              filter),它会在预测回路内对水平和垂直区块边缘进行处理,以便消除区块预测误差所造成的假影噪声。这种滤波通常是以4×4区块的边界为运算基础,边界两侧各有两个像素,可以利用不同的滤波器将它们更新。消除区块滤波器的运用规则非常微妙复杂,它在每个切片(较宽松的定义是整数个宏区块)上面的使用却是可选择的;即便如此,主观品质的改善程度通常都会使得复杂性的增加值回票价。<BR><BR></SPAN><FONT 
                              color=#0000ff size=2>整数转换</FONT><SPAN 
                              style="FONT-SIZE: 9pt"><BR><BR>不论是框内预测或框间预测,预测误差区块中所包含的信息最后都会以转换系数的形式重新表示,H.264独特之处在于它采用纯整数空间转换(类似于离散余弦转换),它的形状主要是4(4区块,而不是常见的浮点8(8离散余弦转换──早期标准会利用舍入误差容忍范围来定义此转换。小区块有助于减少块状和环状假影噪声,高精准度的整数转换则能消除逆转换过程中,编码器和译码器之间的失配问题。 
                              <BR><BR></SPAN><FONT color=#0000ff 
                              size=2>量化和转换系数扫描<BR></FONT><BR><SPAN 
                              style="FONT-SIZE: 9pt">数据压缩有很大部份是在量化步骤完成。H.264是采用无扩展死区(no 
                              widened 
                              dead-zone)的纯量量化方式来执行转换系数的量化,针对个别宏区块,还有52种不同的量化步阶(step 
                              sizes)可供选择--这与以前的标准并不相同(例如H.263仅支援31种);除此之外,在H.264标准里,量化步阶大约是以12.5%的复合速率增加,而不是每次都增加某个固定量。相较于亮度系数所用的量化步阶,色差讯号会使用更小的量化步阶,以便改善它们的传真度,特别是当亮度系数的量化很粗糙时。<BR></SPAN></P>
                              <P class=内文9><SPAN style="FONT-SIZE: 9pt"><IMG 
                              alt="(图七) H.264为图框编码所提供的扫描图案(scan pattern)" 
                              hspace=0 
                              src="中华视频网 - H_264技术特色与广播视讯应用方案.files/fo658.7.gif" 
                              align=baseline border=0></SPAN></P>
                              <P class=内文9><SPAN 
                              style="FONT-SIZE: 9pt">量化后的转换系数对应于各种不同频率,如(图七)所示,左上角的系数就代表直流值,其它系数则代表各种非零的频率值。编码程序的下个步骤就是将量化后系数排成数组,直流系数排在最前面。H.264已提供一个系数扫描图案图七给图框编码使用,目前还在增加另一个系数扫描图案,可用于图场编码(field 
                              coding)。图七描绘的锯齿状扫描可用于所有的图框编码方式,它和早期视讯编码标准使用的传统扫描方式完全相同,锯齿状扫描会根据频率上升顺序来安排对应的系数值。<BR><BR><FONT 
                              color=#0000ff size=2>熵编码(Entropy 
                              Coding)<BR></FONT><SPAN 
                              style="FONT-SIZE: 9pt"><BR>视讯编码程序的最后一个步骤是熵编码,它的基本原理是为出现机率较高的符号指定较短的字码(codeword),然后把较长的字码指定给较少出现的符号。采用熵编码的部份参数包括残值数据(residual 
                              data)的转换系数、移动向量和其它的编码器信息。目前已有两种熵编码方法获得采用,第一种方法是通用可变长度码(UVLC)以及情境适应性可变长度码(CAVLC)的组合,第二种方法则是采用以情境为基础的适应性二位算术编码 
                              (CABAC)。</SPAN></SPAN></P>
                              <P class=内文9><SPAN style="FONT-SIZE: 9pt"><SPAN 
                              style="FONT-SIZE: 9pt"><STRONG><FONT 
                              size=3>UVLC/CAVLC<BR><BR></FONT></STRONG><SPAN 
                              style="FONT-SIZE: 9pt">某些视讯编码标准会把符号以及相关字码安排成多个查询表,这些查询表又称为可变长度编码(Variable 
                              Length 
                              Coding;VLC)表格,它们会同时储存在编码器和译码器里面。随着目标数据的型态不同(例如转换系数或移动向量),H.263会使用多个不同的可变长度编码表;H.263还提供一个通用可变长度编码(Universal 
                              VLC;UVLC)表格,可用来对编码器内的所有符号进行熵编码──除了转换系数以外。虽然使用一个通用可变长度编码表很简单,但它却有项重大缺点:这个表格通常是利用静态机率分布模型推导而得,因此会忽略编码器符号之间的关联性。<BR><BR>在H.264标准当中,转换系数的编码是使用情境适应性可变长度编码(CAVLC),它是专门设计来利用已量化4(4区块的多项特性。首先,锯齿状扫描结束时的非零系数通常会等于±1,CAVLC会以很精简的方式对这些系数(尾随的1值)的数目进行编码;其次,CAVLC还采用run-level编码方式,可以很有效率的代表已量化4(4区块中的零值字符串。此外,相邻区块内的非零系数数目通常都会互相关,因此在对非零系数的数目进行编码时,就会使用与相邻区块内非零系数数目有关的查询表。最后,越接近直流系数的非零系数,它们的振幅(位准)就越大,高频系数附近的非零系数就较小,CAVLC会利用这项特性,在为该位准选择VLC查询表时,以最新编码的位准做为选择参考。</SPAN></SPAN></SPAN></P>
                              <P class=内文9><SPAN style="FONT-SIZE: 9pt"><SPAN 
                              style="FONT-SIZE: 9pt"><SPAN 
                              style="FONT-SIZE: 9pt"><STRONG><FONT size=3>H.264 
                              Profiles <BR><BR></FONT></STRONG><SPAN 
                              style="FONT-SIZE: 9pt">到目前为止,已有三个Profiles获得同意:Baseline 
                              Profile,主要用于视讯会议以及电话和行动应用;Main 
                              Profile,主要用于广播视讯应用;以及X 
                              Profile,主要用于串流和行动视讯应用。</SPAN></SPAN></SPAN></SPAN></P>
                              <P class=内文9><SPAN style="FONT-SIZE: 9pt"><SPAN 
                              style="FONT-SIZE: 9pt"><SPAN 
                              style="FONT-SIZE: 9pt"><SPAN 
                              style="FONT-SIZE: 9pt"><IMG 
                              alt="(图八) Baseline Profile和Main Profile的特色" 
                              hspace=0 
                              src="中华视频网 - H_264技术特色与广播视讯应用方案.files/fo658.8.gif" 
                              align=baseline 
                              border=0></SPAN></SPAN></SPAN></SPAN></P>
                              <P class=内文9><SPAN style="FONT-SIZE: 9pt"><SPAN 
                              style="FONT-SIZE: 9pt"><SPAN 
                              style="FONT-SIZE: 9pt"><SPAN 
                              style="FONT-SIZE: 9pt">(图八)是Baseline Profile以及Main 

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -