1.1 数字影视合成基础与应用
从动画诞生的那一刻起,人们就不断探求一种能够存储、表现和传播动态画面信息的方式。在经历了电影和模拟信号电视之后,数字影视技术迅速发展起来,伴随着不断扩展的应用领域,其技术手段也不断成熟。
数字视频技术发展至今,不仅给广播电视带来了技术革新,而且已经渗透到各种新型的媒体中,成为媒体时代不可或缺的要素。无论是在高清电视、Internet或3G手机网络中,都可以看到视频技术的应用。
1.1.1 数字合成概述
数字合成技术是指通过计算机,将多种源素材混合成单一复合画面的处理过程。通过遮罩、蒙版、抠像、追踪和各种效果等手段,结合层的叠加,最终完成所需的动态合成画面(见图1-1-1)。
图1-1-1
要对多层图像创建合成,其中的一个或多个图像必须包含透明信息,透明信息存储在其Alpha通道中。Alpha通道是和R、G、B三条通道并行的一条独立的8位或16位的通道,它决定素材片段的透明区域和透明程度(见图1-1-2)。
图1-1-2
1.1.2 模拟信号与数字信号
以音频信号为例,模拟信号是由连续的、不断变化的波形组成的,信号的数值在一定范围内变化(见图1-1-3),主要通过空气、电缆等介质进行传输。与之不同的是,数字信号以间隔的、精确的点的形式传播(见图1-1-4),点的数值信息是由二进制信息描述的(见图1-1-5)。
图1-1-3
图1-1-4
图1-1-5
数字信号相对于模拟信号有很多优势,最重要的一点在于数字信号在传输过程中有很高的保真度;模拟信号在传输过程中,每复制或传输一次都会衰减,而且会混入噪波,信号的保真度会大大降低(见图1-1-6)。而数字信号可以很轻易地区分原始信号和混入的噪波并加以校正(见图1-1-7),所以数字信号可以满足人们对于信号传输的更高要求,将电视信号的传输提升到一个新的层次。
图1-1-6
图1-1-7
目前,视频正经历着由模拟时代向数字时代的全面转变,这种转变发生在不同的领域。在广播电视领域,高清数字电视正在取代传统的模拟电视,越来越多的家庭可以收看到数字有线电视或数字卫星节目;电视节目的编辑方式也由传统的模拟(磁带到磁带)编辑发展成为数字非线性编辑(NLE)系统。在家庭娱乐方面,DVD已经成为人们在家观赏高品质影像节目和数字电影的主要方式;而DV摄像机的普及也使得非线性编辑(NLE)技术从专业电视机构深入到民间,人们可以很轻易地制作数字视频影像。数字视频已经融入人们的生活。
1.1.3 帧速率和场
当一系列连续的图片映入眼帘的时候,由于视觉暂留的作用,人们会错觉地认为图片中的静态元素动了起来。而当图片显示得足够快的时候,人们便不能分辨每幅静止的图片,取而代之的是平滑的动画。动画是电影和视频的基础,每秒显示的图片数量称为帧速率,单位是帧/秒(fps)。大约10帧/秒的帧速率可以产生平滑连贯的动画,如果低于这个速率,动画则会产生跳动。
传统电影的帧速率为24帧/秒,在美国和其他使用NTSC制式作为标准的国家,视频的帧速率大约为30帧/秒(29.97帧/秒),而在使用PAL制式或SECAM制式为标准的、部分欧洲地区/亚洲地区和非洲地区,其视频的帧速率为25帧/秒。
在标准的电视机中,电子束在整个荧屏的内部进行扫描。扫描总是从图像的左上角开始,水平向前行进,同时扫描点也以较慢的速率向下移动。当扫描点到达图像右侧边缘时,扫描点快速返回左侧,重新开始在第1行的起点下面进行第2行扫描,行与行之间的返回过程称为水平消隐。一幅完整的图像扫描信号由水平消隐间隔分开的行信号序列构成,称为一帧。扫描点扫描完一帧后,要从图像的右下角返回到图像的左下角,开始新一帧的扫描,这一时间间隔叫做垂直消隐。
大部分的广播视频采用两个交换显示的垂直扫描场构成每一帧画面,这叫做交错扫描场。交错视频的帧由两个场构成,其中一个扫描帧的全部奇数场,称为奇场或上场;另一个扫描帧的全部偶数场,称为偶场或下场。场以水平分隔线的方式隔行保存帧的内容,在显示时首先显示第一个场的交错间隔内容,然后再显示第二个场来填充第一个场留下的缝隙(见图1-1-8)。每一帧包含两个场,场速率是帧速率的二倍。这种扫描方式称为隔行扫描。与之相对应的是逐行扫描,每一帧画面由一个非交错的垂直扫描场完成。计算机操作系统就是以非交错形式显示视频的。
图1-1-8
电影胶片类似于非交错视频,每次显示整个帧。通过设备和软件,可以使用3-2或2-3下拉法在24帧/秒的电影和约为30帧/秒(29.97帧/秒)的NTSC制式的视频之间进行转换。这种方法是将电影的第1帧复制到视频第1帧的场1和场2,将电影的第2帧复制到视频第2帧的场1、场2和第3帧的场1,将电影的第3帧复制到视频第3帧的场2和第4帧的场1,将电影的第4帧复制到视频第4帧的场2和第5帧的场1、场2(见图1-1-9)。这种方法可以将4个电影帧转换为5个视频帧,重复这一过程,可完成24帧/秒到30帧/秒的转换。使用这种方法还可以将24p的视频转换成30p或60i的格式。
图1-1-9
1.1.4 分辨率和像素宽高比
电影和视频的影像质量不仅取决于帧速率,每一帧的信息量也是一个重要因素,即图像的分辨率。较高的分辨率可以获得较好的影像质量。
传统模拟视频的分辨率表现为每幅图像中水平扫描线的数量,即电子束穿越荧屏的次数,称为垂直分辨率。NTSC制式采用每帧525行扫描,每场包含262条扫描线;而PAL制式采用每帧625行扫描,每场包含312条扫描线。
水平分辨率是每行扫描线中所包含的像素数,它取决于录像设备、播放设备和显示设备。比如,老式VHS格式的录像带的水平分辨率只有大约250线,而DVD的水平分辨率大约为500线。
帧宽高比也就是影片画面的宽高比,常见的电视格式为标准的4:3(见图1-1-10)和宽屏的16:9(见图1-1-11),一些电影具有更宽的比例。
图1-1-10
图1-1-11
像素宽高比是影片画面中每个像素的宽高比,各种格式使用不同的像素宽高比(见图1-1-12)。
图1-1-12
计算机使用正方形像素显示画面,其像素宽高比为1.0(见图1-1-13)。而电视使用矩形像素,例如,DV NTSC使用的像素宽高比为0.9(见图1-1-14)。如果在正方形像素的显示器上显示未经矫正的矩形像素的画面,会出现变形现象,比如其中的圆形物体会变为椭圆(见图1-1-15)。
图1-1-13
图1-1-14
图1-1-15
帧宽高比由像素宽高比和水平/垂直分辨率共同决定。帧宽高比等于像素宽高比与水平/垂直分辨率比之积。
1.1.5 视频色彩系统
色彩模式即描述色彩的方式。自然界中任何一种色光都可以由红、绿、蓝三原色按不同的比例混合而成(见图1-1-16)。计算机和彩色电视的显示器使用RGB模式显示色彩,每种颜色使用R、G、B3个变量表示,即红、绿、蓝三原色。YUV模式也称为YCrCb模式,其中Y表示亮度;U和V即Cr和Cb,分别表示红色和蓝色部分与亮度之间的差异,这种模式与Photoshop中的Lab模式很相似。
图1-1-16
为了保持与早期黑白显示系统的兼容性,需要将RGB模式转化为YUV模式,如果只有Y信号分量,则显示黑白图像;要显示彩色,可将YUV模式再转化为RGB模式。使用YUV模式存储和传送电视信号,解决了彩色电视与黑白电视之间的兼容问题,使黑白电视也能接收彩色信号。
色彩深度即每个像素可以显示的色彩信息的多少,用位数(2的n次方)描述,位数越高,画面的色彩表现力越强(见图1-1-17)。计算机通常使用8位/通道(R、G、B)存储和传送色彩信息,即24位,如果加上一条Alpha通道,可以达到32位。高端视频工业标准对于色彩有更高的要求,通常使用10位/通道或16位/通道的标准。高标准的色彩可以表现更丰富的色彩细节,使画面更加细腻,颜色过渡更为平滑。
图1-1-17
1.1.6 数字音频
声音是由振动产生的。比如,弦乐器的弦或人的声带产生振动,会带动周围的空气随之振动,振动通过空气分子波浪式地进行传播。当振动波传到人的耳朵时,人便听到了声音。通常用波形表示声音。波形中的0线位置表示空气压力和外界大气压相同,当曲线上升时,表明空气压力加强,曲线降低时,表明空气压力下降(见图1-1-18)。声音的波形实际上等同于空气压力变化的波形,声音就是这样在高低气压产生的波动中进行传播的。
图1-1-18
计算机可以将声音信息进行数字化存储,声音波形被分解成独立的采样点,即音频的数字化采样,也称为模拟—数字转换。采样的速率决定了数字音频的品质。采样率越高,数字化音频的波形越接近原始声音的波形,声音品质越好(见图1-1-19);而采样率越低,数字化音频的波形与原始声音的波形相差越大,声音品质就越差(见图1-1-20)。
图1-1-19
图1-1-20
声音是影片中不可缺少的一部分,同样,在数字视频领域,音频的数字化也具有至关重要的作用,数字视频与数字音频是相辅相成的整体。
1.1.7 视频压缩
视频压缩也称为编码,是一种相当复杂的数学运算过程,其目的是通过减少文件的数据冗余,以节省存储空间,缩短处理时间,以及节约传送通道等。根据应用领域的实际需要,不同的信号源及其存储和传播的媒介决定了压缩编码的方式,压缩比率和压缩的效果也各不相同(见图1-1-21)。
图1-1-21
压缩的方式大致分为两种:一种是利用数据之间的相关性,将相同或相似的数据特征归类,用较少的数据量描述原始数据,以减少数据量,这种压缩通常称为无损压缩;另一种是利用人的视觉和听觉的特性,有针对性地简化不重要的信息,以减少数据,这种压缩通常称为有损压缩。
有损压缩又分为空间压缩和时间压缩。空间压缩针对每一帧,将其中相近区域的相似色彩信息进行归类,用描述其相关性的方式取代描述每一个像素的色彩属性,省去了对于人眼视觉不重要的色彩信息。时间压缩又称插帧压缩(Interframe Compression),是在相邻帧之间建立相关性,描述视频中帧与帧之间变化的部分,并将相对不变的成分作为背景,从而大大减少了不必要的帧的信息(见图1-1-22)。相对于空间压缩,时间压缩更具有可研究性,并具有更加广阔的发展空间。
图1-1-22
1.1.8 数字视频摄录系统
DV通常指数字视频,然而,DV也专指一种基于DV25压缩方式的数字视频格式。这种格式的视频由使用DV带的DV摄像机摄制而成(见图1-1-23)。DV摄像机将影像通过镜头传输至感光原件(CCD或CMOS,见图1-1-24),将光学信号转换成为电信号,再使用DV25压缩方式,对原始信号进行压缩,并存储到DV带上。
图1-1-23
图1-1-24
DV摄像机或录像机通过与IEEE 1394接口进行连接,可以将DV带中记录的数字影像信息上传到计算机中进行后期的编辑处理(见图1-1-25)。
图1-1-25
随着技术的不断进步,数字摄像机的存储介质也逐渐向“无带化”的方向发展。磁盘存储、光盘存储和存储卡的应用,使数码摄录系统的采集流程更加高效。主要的硬件厂商都推出了基于自己的存储卡格式的专业摄录系统,例如,基于P2存储卡的Panasonic P2系统(见图1-1-26)和基于SXS存储卡的Sony XDCAM EX系统(见图1-1-27)。
图1-1-26
图1-1-27
在数字电影不断发展的今天,人们对摄录系统的画面质量和存储效率提出了更高的要求。RED公司推出了全球最新的、最先进的数字电影机——RED ONE(见图1-1-28)。通用机型成像从2KB到4KB,高端产品最大成像为惊人的5KB。影像直接记录在硬盘或者CF卡中,具有强大的压缩模式和320GB的硬盘,可以拍摄4KB画面2小时左右,后期处理的空间非常高。
图1-1-28
1.1.9 电视制式
目前,世界上通用的电视制式有美国和日本等国家使用的NTSC制,澳大利亚、中国和欧洲大部分国家等使用的PAL制,以及法国等国家使用的SECAM制(见图1-1-29)。部分国家可能存在多种电视制式,本小节只讨论其主流制式。
图1-1-29
NTSC制式是美国在1953年12月研制出来的,并以美国国家电视系统委员会(National Television System Committee)的缩写命名。这种制式的供电频率为60Hz,帧速率为29.97帧/s,扫描线为525行,隔行扫描。采用NTSC制式的国家和地区有美国、加拿大、墨西哥、日本和韩国等。
PAL制式是1962年在综合NTSC制式技术的基础上被研制出来的一种改进方案。这种制式的供电频率为50Hz,帧速率为25帧/s,扫描线为625行,隔行扫描。采用PAL制式的国家和地区有中国、欧洲大部分国家、南美洲和澳大利亚等。
SECAM制式是1966年由法国研制出来的,它与PAL制式有着同样的帧速率和扫描线数。采用SECAM制式的国家和地区有俄罗斯、法国、中东地区和非洲大部分国家等。
我国采用PAL制式,PAL制式克服了NTSC制式的一些不足,相对于SECAM制式,它又有很好的兼容性,是标清中分辨率最高的制式。
1.1.10 标清、高清、2K和4K
标清(SD)与高清(HD)是两个相对的概念,是尺寸上的差别,而不是文件格式上的差异(见图1-1-30)。高清简单理解起来就是分辨率高于标清的一种标准。分辨率最高的标清格式是PAL制式,可视垂直分辨率为576线,高于这个标准的即为高清,尺寸通常为1280像素×720像素或1920像素×1080像素,帧宽高比为16:9,相对标清,高清的画质有了大幅度提升(见图1-1-31)。在声音方面,由于高清使用了更为先进的解码与环绕声技术,人们可以更为真实地感受现场。
图1-1-30
图1-1-31
根据尺寸和帧速率的不同,高清分为不同格式,其中尺寸为1280像素×720像素的均为逐行扫描,而尺寸为1920像素×1080像素的在比较高的帧速率下不支持逐行扫描(见图1-1-32)。
图1-1-32
由于高清是一种标准,所以它不拘泥于媒介与传播方式。高清可以是广播电视、DVD的标准,也可以是流媒体的标准。当今,各种视频媒体形式都向着高清的方向发展。
2K和4K是标准在高清之上的数字电影(Digital Cinema)格式,分辨率分别为2048像素×1365像素和4096像素×2730像素(见图1-1-33)。目前,RED ONE等高端数字电影摄像机均支持2K和4K的标准。
图1-1-33