📄 rfc2435.txt
字号:
组织:中国互动出版网(http://www.china-pub.com/)
RFC文档中文翻译计划(http://www.china-pub.com/compters/emook/aboutemook.htm)
E-mail:ouyang@china-pub.com
译者:范晨 (fanchen fan-chen@china.com)
译文发布时间:2001-9-11
版权:本中文翻译文档版权归中国互动出版网所有。可以用于非商业用途自由转载,但必须
保留本文档的翻译及版权信息。
Network Working Group R. Pereira
Request for Comments: 2435 TimeStep Corporation
Obsoletes: 2035 R. Adams
Category: Standards Track Cisco Systems Inc.
November 1998
针对JPEG压缩视频的RTP荷载格式
(RFC2435——RTP Payload Format for JPEG-compressed Video)
本备忘录状态
本文档讲述了一种Internet通信的标准Internet跟踪协议,并对其改进提出了讨论和建
议。请参考最新版本的"Internet Official Protocol Standards" (STD 1) 来获得本协议的
标准化进程和状态,此备忘录的发布不受任何限制。
版权注意
版权归因特网协会(1998)所有,保留一切权利。
摘要
本文档描述了针对JPEG视频流的RTP荷载格式。此种包格式针对编码器参数基本不变化
的实时视频流进行了优化。
本文档是IETF下的视音频传输工作组的产品。意见或建议请发到该工作组的邮件列表
conf@es.net或直接发给作者。
本备忘录的大部分与RFC2035一致,对协议的改动见附录D。
目 录
1. 简介 3
2. 术语 3
3. RTP上的JPEG 4
4. RTP/JPEG包格式 4
4.1 JPEG头 4
4.1.1 类型特定:8比特 5
4.1.2 分段偏移: 24比特 5
3.1.3 类型: 8比特 5
3.1.4 Q: 8比特 5
3.1.5 宽度: 8比特 5
3.1.6 高度: 8比特 5
3.1.7 复位标记头 6
3.1.8 量化表头 6
3.1.9 JPEG荷载 7
4. 讨论 7
4.1类型域 7
4.2 Q域 8
4.3 分片和组装 9
4.4 复位标记 9
5.安全性问题 9
原文作者地址 10
参考文献 11
附录 A 12
附录 B 13
附录 C 18
附录 D 22
版权声明 23
1. 简介
联合图像专家组(JPEG)标准[1,2,3]定义了一组针对连续色调静止图像的压缩算法。这
个静止图像压缩算法同样也可以应用于视频压缩,把每一帧都当作一个独立的静态图像来进
行压缩,然后再按次序进行传输。这样一种视频编码通常被称作运动JPEG(Motion-JPEG)。
我们首先介绍JPEG的概况,然后描述RTP所支持的JPEG的子集,以及将JPEG帧通过
RTP包来传输的机制。
JPEG标准定义了四种操作模式:顺序DCT模式,渐进DCT模式,无损模式,以及分级模
式。在不同的模式下,一幅图像用一个或多个“节”来表示,每一节(在JPEG标准中称为一
帧)又进一步分成若干次扫描。在每一次扫描中,有一种到四种分量,这些分量代表着彩色
信号的分量(例如“红绿蓝”或一个亮度分量和两个色差分量)。这些分量可以分开在不同
的扫描中编码,也可以交织在一次单一的扫描中。
每一帧或每一次扫描前面都有一个头,可选的压缩参数定义,例如量化表和哈夫曼编码
表。头信息、可选参数以及一个定位符构成了一个头区段。每一个扫描都是一个经过熵编码
的比特流,位于两个头区段之间。定位符是字节对齐的,并且不能在熵编码部分出现,这样
对于扫描边界的确定就无需解析整个码流。
压缩数据有三种表示格式:交换格式、紧缩格式和表格描述格式。交换格式包含在熵编
码过程中用到的所有码表的定义,紧缩模式中省略了一些码表定义,假定他们在外部定义或
在前面的图像中定义。
JPEG标准并不关心组成图像的各个分量的含义或格式。诸如色彩空间和象素纵横比这些
属性在JPEG码流的外部来定义。JPEG文件交换格式(JFIF)在应用标记段(APPO)提供这
些额外信息,它是一个事实上的标准。简单说来,JFIF文件就是一个JPEG码流加上一个APPO
段。对于视频来说,另外还有一些参数在外部定义,比如帧率,逐行扫描还是隔行扫描等等。
尽管JPEG提供了一整套用于灵活压缩的算法,但是目前能够实现整套标准的低成本硬件
还没出现。事实上,绝大部分JPEG硬件编解码器都只实现了其中的一个子集,也就是顺序
DCT模式。典型的做法是,头区段信息由软件来解码,而用硬件来处理一个在YUV色彩空间
中表示的经过熵编码的单一的扫描。
一次扫描中包含了一系列最小编码单元(MCU),每个MCU定义了输出图像的一个小矩形
快的数据。
JPEG数据中的复位标记表示解码器应当在当前点复位它的状态。如JPEG中定义的那样,
复位标记是唯一的能够嵌入在熵编码码流里的标记,但他们只能够在MCU的边界处出现。一
个复位间隔是指两个复位标记之间的数据部分。每一帧的第一个复位间隔是一个例外,它们
前面没有复位标记。当使用这些标记时,每一帧都由固定数目的复位间隔组成。
2. 术语
本文档中出现的关键字“必须”,“必须不”,“要求的”,“应该”,“不应该”,“会”,“不
会”,“建议”,“或许”,“可选的”按照RFC 2119[9]中的描述进行解释。
3. RTP上的JPEG
为了最大化硬件编解码器的互操作性,我们假定使用顺序DCT模式[1,附录F],并且限
制预定义的RTP/JPEG类型码为单一扫描的隔行图像。这甚至比基本JPEG更为严格,很多硬
件实现都不能正确解码基本JPEG(例如,很多硬件不能解码逐行扫描)。
实际上,在一个视频码流中,大部分表格描述的数据在一个视频码流中很少发生变化,
这样在省略掉所有可以省掉的表格之后,RTP/JPEG数据就可以用紧缩格式来表示了。每一帧
一开始是一个熵编码的扫描。同时存在于帧头和扫描头中的信息都在RTP/JPEG头中表示,
RTP/JPEG头位于RTP头和JPEG荷载之间。
类似于哈夫曼码表和色彩空间这样的参数在整个视频流的生命期中都保持不变,然而另
一些参数则是可以变化的,例如量化表和图像大小(为了实现自适应码率传输,允许用户手
工调节量化等级或分辨率)。因此RTP/JPEG头中分配了专门的数据域来表示这些信息。因为
量化表中只有一个小子集是经常使用的,我们用一个短整数来表示整个量化表集。一些特定
范围的值表示使用自定义的量化表,这种情况下量化表位于JPEG荷载之前。图像的宽和高是
显式编码的。
因为一个JPEG帧一般总比网络的最大包长要大,它必须被切分成若干个包。一种方法是
在RTP下面的网络层来进行分片。但是,这种方法使得对于最终数据包流的码流控制及有丢
包情况下的部分发送成为不可能,而且帧长有可能超过网络层的最大组装长度(详细信息参
考[10])。为了克服这些问题,RTP/JPEG在RTP层定义了一个简单的分片/组装方案。
4. RTP/JPEG包格式
RTP的时间戳是以90000Hz采样的,同一帧的每一个包都必须有同样的时间戳。一帧的
最后一个包的RTP标志位必须为1。
4.1 JPEG头
每一个包的RTP头之后都紧跟着一个JPEG头。这个头的前8个字节,称作“主JPEG头”,
定义如下:
0 1 2 3
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| 类型特定 | 分段偏移 |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| 类型 | Q | 宽 | 高 |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
同一个JPEG帧的的各个包的所有数据域,除了“分段偏移”之外,都必须保持一致。
这个头之后可能会跟着一个复位头和/或量化表头,这取决于“类型”域和“量化”域的
值。
4.1.1 类型特定:8比特
这个数据域的含义取决于“类型”域的值。如果没有指定,这个域必须为0并且被接收
端忽略。
4.1.2 分段偏移: 24比特
分段偏移是当前包在整个JPEG帧中的偏移位置,以字节为单位,以网络字节次序编码(最
重要位在前)。分段偏移加上当前包中的荷载数据长度不能超出2^24字节。
3.1.3 类型: 8比特
类型域给出了可能出现在JPEG紧缩格式表格描述或JPEG未定义的JFIF风格参数的信
息。类型0-63在本文档或本文档将来的修改中定义,类型64-127与类型0-63相同,除
了在主JPEG头后紧跟一个复位标记头,并且在JPEG数据中存在复位标记。类型128-255
可以通过一个会话建立协议来动态定义(这不在本文档的讨论范围之内)。
3.1.4 Q: 8比特
Q域定义了当前帧的量化表。Q值为0-127时量化表可以通过类型域决定的一个参数来
计算出来(具体计算方法见后)。Q值为128-255时会有一个量化表头出现在当前帧第一个
包的主JPEG头之后。这个量化表头用来明确定义量化表。
3.1.5 宽度: 8比特
宽度域编码图像的宽度,以8象素为单位(例如,宽度为40表示图像宽度为320象素)。
最大宽度为2040象素。
3.1.6 高度: 8比特
高度域编码图像的高度,以8象素为单位(例如,高度为30表示图像高度为240象素)。
当编码交织视频时,这里表示的是一个视频场的高度,因为每个场是单独编码的。最大高度
是2040象素。
3.1.7 复位标记头
在类型64-127时,复位标记必须紧跟在主JPEG头之后。它提供了正确解码一个包含复
位标记的数据流所需要的额外信息。
0 1 2 3
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| 复位间隔 |F|L| 复位计数 |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
复位间隔域给出了两个复位标记之间MCU的数目。它和JFIF头中DRI标记段的16比特
值是一致的。这个值不能为零。
如果一帧中的复位间隔不能保证在包边界处对齐,F比特和L比特必须设为1,复位计数
必须设为0x3fff。这样接收端就必须在解码之前首先重新组装整个帧。
为了支持部分帧解码,必须把一帧分成若干块,每一块包含整数个复位间隔。复位计数
域给出第一个复位间隔在当前块中的位置,从而接收端可以知道这些数据对应于当前帧的哪
个部分。复位间隔长度的选取应能够使一个块完全放进一个包中。在这种情况下,F比特和L
比特都必须设为1。然而,如果一个块要放在多个包里,只有第一个包的F比特设为1,也只
有最后一个包的L比特设为1。
3.1.8 量化表头
Q值为128-255时,量化表头必须出现在主JPEG头之后(如果存在复位标记头,则位
于复位标记头之后)。它提供了一种在带内描述与Q值对应的量化表的方法。
0 1 2 3
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| MBZ | 精度 | 长度 |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| 量化表数据 |
| ... |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
长度域给出了后面量化表数据的长度,以字节为单位。长度域为零表示当前帧没有量化表
数据。详细信息参考4.2。如果长度域的值比剩余的字节数大,整个包必须丢弃。
包含量化表数据时,表的个数取决于JPEG类型域的值。例如。类型0使用两个表(一个
用于亮度分量,另一个用于色差分量)。每个表是一个64个值得数组,按zig-zag次序,与
JFIF的DQT标记段一致。
对于每一个量化表,精度域的一个比特指示了表中系数的大小。如果这个比特为0,系数
为8比特,表长度为64个字节。如果该比特为1,系数就是16比特的,表长度为128字节。
对于16比特的表系数,字节次序是网络次序。精度域的最右边的比特对应于第一个表,后面
的表依次对应于左边的下一个比特。超出表个数的那些比特必须被忽略。
对于Q值为128-254的情况,Q值与量化表之间的映射必须是静态的,也就是说,保证
接收端只需要读一次与某个Q值对应的量化表,就可以正确解码出所有用该Q值编码的帧。
解码器不能依赖于任何以前的量化表,而需要在每帧都重新载入这些量化表。Q=255并且长
度为0的包是不允许的。
3.1.9 JPEG荷载
紧跟RTP/JPEG头的数据是包含一次扫描的熵编码的图像数据。这次扫描不包含扫描头,
扫描头的信息可以从RTP/JPEG头中推出。扫描的结束可能是隐含的(整幅图象都已经完全解
码),也可能是显式的,即跟着一个EOI标记。一次扫描可能会用一些未定义字节填充到任
意长度(一些现存的硬件编解码器会在一帧图象的底部生成一些额外的行,解码器需要对它
们进行哈夫曼解码来去除这些额外的行。
类型码决定着复位标记是否存在。如果某种类型支持复位标记,数据包的复位头中必须
包含一个非零的复位间隔值,并且复位标记必须是字节对齐的,以一个0xFF起始。另外的
0xFF字节可以出现在复位间隔之中。在打包过程中,用这样的方法来进行对齐,例如字对齐,
从而实现比较高效的拷贝。除此之外,复位标记不能出现在码流中的任何其它地方。不支持
复位标记的类型的码流在任何地方都不能包含复位标记。在数据包中,如果熵编码产生了一
个0xFF字节,则必须在它后面填充一个0x00字节。[见文献1的B.1.1.5]
4. 讨论
4.1类型域
类型域定义了紧缩的表格描述和JPEG中未定义的额外的JFIF风格参数,因为这些信息
在待传输的JPEG数据中不存在。
类型域定义了三种取值范围。0-63的含义是固定的,在本文档或本文档的将来版本中
定义。64-127与0-63的区别仅在于包含复位标记,并且在主JPEG头后紧跟着一个复位头,
其余都完全一致。128-255是可以由一个会话建立协议来动态定义的(这不再本文的讨论范
围之内)。
对于第一类取值范围,类型0和类型1目前已经定义了,对应第二类范围中的类型64和
类型65。类型0,1指的是基本DCT顺序模式、8比特采样、正方形象素、YUV三种颜色分量
以及标准哈夫曼码表[在文献1的附录K.3中定义],一次隔行扫描并带一个扫描分量选择子,
来指示是分量1,2还是3。Y,U和V分量分别对应于分量1,2,3。分量1使用0号哈夫曼
码表和0号量化表,分量2和3使用1号哈夫曼码表和1号量化表。
类型码2-5定为保留,并禁止使用。基于本文档以前版本(RFC 2035)的应用应当更新
对于类型64和类型65的解释,指示出有复位标记的存在。
这两种RTP/JPEG类型当前的具体定义如下:
类型 分量 水平采样因子.垂直采样因子 量化表序号
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| | 1 (Y) | 2 | 1 | 0 |
| 0, 64 | 2 (U) | 1 | 1 | 1 |
| | 3 (V) | 1 | 1 | 1 |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| | 1 (Y) | 2 | 2 | 0 |
| 1, 65 | 2 (U) | 1 | 1 | 1 |
| | 3 (V) | 1 | 1 | 1 |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
采样因子说明类型0的视频的色度分量水平方向上二倍降采样(一般称为4:2:2),
而类型1的视频的色度分量在水平和垂直两个方向上都二倍降采样(一般称为4:2:0)。
类型0和类型1既可以用于传输渐进扫描的图象数据,也可以用于传输隔行扫描的图象
数据。这两种不同的数据格式在主JPEG头中加以区分。具体定义如下:
0:图象是渐进扫描的。在计算机显示器上,它可以按照制定的大小来显示。
1:当前图像是隔行扫描视频信号的奇数场。主JPEG头中给出的高度是整个图象高度的
一半。当前场应当与后面紧跟的偶数场一起重新恢复出整帧图象。偶数场的行恰好处
于奇数场对应行的上方。
2:当前图象是隔行扫描视频信号的偶数场。
3:当前图象是隔行扫描视频信号的一场,但它将按整帧图象的大小来单独显示。在计算
机显示器上,每一行都显示两遍,图象高度加倍。
附录B中给出了将RTP/JPEG头中的信息变换到JPEG帧头和扫描头的C源码。
4.2 Q域
对于JPEG类型0和类型1(以及相应的类型64和65),Q值1-99的定义如下。其它
128以下的值保留。
类型0和类型1都需要有两个量化表。这些量化表的计算方法如下:对于1 <= Q <= 99,
用JPEG组织的公式[5]来计算一个标量量化因子S:
S = 5000 / Q 如果 1 <= Q <= 50
= 200 - 2 * Q 如果 51 <= Q <= 99
然后把这个S值代入[1]中的表K.1和K.2(每个值都扩展到8比特),就分别得到了量
化表0和量化表1。计算量化表的C源码在附录A中给出。
当Q值在128-255之间时,就需要使用动态定义的量化表。这些量化表既可以在带内定
义,也可以在带外通过一个会话建立协议来定义。但在每一帧的第一个包中必须有一个量化
表头。当量化表在带外定义时,可以通过将包头中的长度域设为0来省略掉量化表。
当在带内传输量化表时,并不需要在每一帧都重复传送一遍。类似于带外的情况,不包
含量化表的帧可以在包头中将长度域设置为0。尽管这样做减小了传输量化表带来的
OVERHEAD,但是也带来了一些负面效应。一个新的接收者在收到完整量化表之前接收到的所
有帧都不能够正确解码。
4.3 分片和组装
由于JPEG的每一帧都相当大,必须经过切分才便于传输。在将一帧切分成若干个包的过
程中,应当避免在低层进行分片。如果要求支持部分帧解码,被切分出的每一个包就应当包
含整数个复位间隔(如下)。组成同一帧的数据包的时间戳必须保持一致,并且最后一个包
的RTP标记位必须为1。每个包的分段偏移域的值是这个包中数据在原来整个帧中的偏移位
置,以字节为单位。这些包必须按照次序进行传输,并且它们所包含的图象数据不能重叠。
整个一帧图象以一个分段偏移为0的包为起始,并以一个RTP标记位为1的包为结束。可
以通过RTP的顺序号或者分段偏移结合每个包的长度来检测丢包。数据的重组可以不使用分
段偏移的数据(只使用RTP标记位和RTP顺序号),但是在出现包的乱序的情况下,就不可
能通过简单的拷贝操作来实现图象数据的重组。而且,如果前一帧的最后一个包丢失的话,
即使当前帧完好无损,接收段也不能够正常恢复出当前帧。
4.4 复位标记
复位标记插入在JPEG码流中,告诉接收端哈夫曼解码器和直流预测器应当在当前位置复
位,并且允许从当前点开始进行部分解码。然而,为了充分实现部分解码,解码器必须知道
一个复位间隔中包含的是哪些MCU。为此,原来的JPEG标准中在复位标记中提供了一个短的
次序号域。但是对于典型的网络MTU长度来说,这个数域不够长,不能很好的处理丢包问题。
因此,在RTP/JPEG的复位头中包含了额外的信息来处理这个问题。
复位间隔的大小应当使得整数个复位间隔能够恰好放在一个数据包里。这样就可以保证
这些包可以相互独立地进行解码。如果一个复位间隔的结束处超出了一个包的长度,可以使
用复位标记头中的F比特和L比特来对它进行切分。但是这样生成的包的集合必须全部接收
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -