<p>
M.PEG-4中视频对象(VO)的含义比较广泛,指用户可访问和处理的实体,其构成依赖于具体的应用环境。如果VO是一帧,则其编码方式与以往标准兼容。为了支持基于内容的交互性,对于基于内容的检索等应用,VO可能是场景中的某个目标。在其它的场合,VO甚至可能是计算机产生的图像。VO的生存期是一个镜头。MPEG4首先对视频序列进行镜头切分,对一个镜头中的每一帧进行物体分割,得到各个VO。VO的表示包括上面提到的三种信息序列。这些序列用层次化数据结构图来表示:<br>
<img src="http://que-oss.fenziquan.com/web/akimg/images/image2/2018011915451958280.jpg"><br>
显然,一个视频系列由几个视频段VS(Video Session)组成。每个VS由一个或多个VO构成。每个VO由一个或多个VOL构成。每个VOL(Video ObjectLevel)代表一个层次(基本层和多个增强层),每个层代表一种空域分辨率和时间分辨率,其中时间分辨率即帧率。在VOL层MPEG-4实现空域的分级扩展和时域的分级扩展。每个VOL都有时间上连续的一系列视频对象平面VOP。因此,每个VOP(Video ObjectPlane)是VO在不同时间的取样。需要进行编码的VOP可以是任意形状的,且其位置可随帧而变,反映了视频对象的三种不同信息。经过压缩编码的视频流对传输延迟非常敏感,且丢弃的视频信息不能被重传。因此,压缩的视频数据需要形成由视频载荷和协议头组成的视频数据包(VidioPacket)或称为块组层(GOB)。</p>