数字媒体应用教程
上QQ阅读APP看书,第一时间看更新

1.2 文本、图形和图像媒体基础知识

1.2.1 文本媒体基础知识

1.文本特点

(1)输入方便、处理容易:字符的输入可以有多种方式,操作均很方便。如果用键盘输入汉字,每分钟可以输入一百多个汉字。由于每个字符对应一个或两个字节的二进制数据,所以计算机在进行文字处理时可以直接对字节进行处理。

(2)文件很小、存取快速:由于每个字符对应一个或两个字节的二进制数,所以生成的文本文件很小。因为计算机在进行文字处理时很容易,所以文本文件的存取速度很快。

(3)表达清楚准确:文字表达可以做到表达清楚、明了和准确,可以叙述事情、逻辑推理、数学公式表述等。

(4)应用最多且样式多样:多媒体中应用最多的是文本。文本的样式多种多样,可设置文本的字体、大小、颜色、字形(正常、加粗、斜体等)、字间距、行间距和段间距等。

(5)形式简单、字符编集:文本是字母、数字、数字序号、数学和标点符号、注音符号、制表符号、特殊符号、图形符号和其他各种符号的集合,通常把这个集合叫字符集。有多种不同类型的字符集,不同的字符集所包含的字符也不一样,每个字符集对应的编码也不同。字符编码有ASCII和EBCDIC编码,汉字编码有GB、Unicode和Big5等编码。

2.文字字体类型

文字的字体类型有点阵字体、矢量字体、描边和组字体字体。其中,点阵字体在早期计算机中使用很多,它是由点构成的,易于创建和存储,放大后会失真,目前使用很少。矢量字体是用数学中的矢量函数记录的文字颜色和形状,在放大时不会产生失真,广泛用于印刷领域。描边字体的汉字采用描边的方法,采用矢量函数完整地描绘出整个描边汉字。组字体是采用拆卸组合的方法,将中文分成笔画(矢量笔画),再组合成不同的汉字,缺点是在构成汉字时会在笔画的交叉处产生“漏白”现象,严重影响文字的美观,基本被淘汰。

3.字符编码

计算机中的数据可以分为数值型数据与非数值型数据。其中数值型数据就是常说的“数”(如整数、实数等),它们在计算机中是以二进制形式存放的。而非数值型数据与一般的“数”不同,通常不表示数值的大小,而只表示字符,非数值型数据还包括各种控制符号和图形符号等信息,为了便于计算机识别与处理,它们在计算机中是用二进制形式来表示的,通常称之为字符的二进制编码。计算机中常用的字符编码简介如下。

(1)ASCII码:目前使用最多的字符集是ASCII码字符集(美国信息交换标准代码),它是由美国标准化委员会制定的。该编码被国际标准化组织ISO采纳,作为国际通用的信息交换标准代码。ASCII码有7位码和8位码两种版本。

国际的7位ASCII码(基础ASCII码)使用7位二进制数表示一个字符的编码,其范围是(0000000)2~(1111111)2,即0000000B~1111111B,共27=128个不同的编码。包括了计算机处理信息常用的26个英文大写字母A~Z、26个英文小写字母a~z,数字符号0~9、算术与逻辑运算符号、标点符号等。在一个字节(八位二进制)中,ASCII码用了7位,最高一位空闲,常用来作为奇偶校验位。另外,还有扩展的ASCII码,它用8位二进制数表示一个字符的编码,可表示28=256个不同的字符。用ASCII表示的字符称为ASCII码字符,如表1-2-1所示。

表1-2-1 ASCII码字符表

十进制数字字符的ASCII码与它们的二进制值是有区别的。例如,十进制数8的7位二进制数为(0001000)2,而十进制数字字符“8”的ASCII码为(0111000)2=(38)16=(56)10,由此可以看出,数值8与字符“8”在计算机中的表示是不一样的。数值8能表示数的大小,可以参与数值运算;而字符“8”是一个符号,不能参与数值运算。

为了统一各种语言字符的表达方式,国际上又制定了国际统一编码(Unicode编码)。在这种编码的字符集中,一个字符的编码占用2个字节,一个字符集可以表示的字符比ASCII码字符集所表示的字符扩大了一倍。

(2)EBCDIC码:它是对BCD码的扩展,称为扩展BCD码。BCD码又称“二-十进制编码”,用二进制编码形式表示十进制数。BCD码的编码方法很多,最常用的是8421码,其方法是用4位二进制数表示一位十进制数,自左至右每一位对应的位权是8、4、2、1。4位二进制数有0000到1111共16种形态,而十进制数只有0~9共10个数码,BCD码只取0000~1001十种形态。由于BCD码中的8421码应用最广泛,所以一般说BCD码就是指8421码。

4.汉字编码和汉字的处理过程

(1)国标码:我国国家标准总局于1980年颁发了国家汉字编码标准GB2312—1980,全称为“信息交换用汉字编码字符集基本集”,也称为汉字信息交换码或国标码。1981年5月1日开始实施。国标码规定,一个汉字的编码用两个字节表示。国标码的字符集共收集了6763个汉字,682个数字、序号、拉丁字母等图形符号。

根据汉字信息交换码,一个汉字的机内码也用2个字节存储。因为ASCII码是西文的机内码,为了不使汉字机内码与ASCII码发生混淆,就把汉字每个字节的最高位置为1,作为汉字机内码。国标码规定,全部国标汉字及符号组成94×94矩阵,在该矩阵中,每一行称为一个“区”,每一列称为一个“位”。这样,就组成了94个区(01~94区),每个区内有94个位(01~94)的汉字字符集。区码和位码简单地组合在一起(即两位区码居高位,两位位码居低位)就形成了“区位码”。区位码可以唯一确定某一个汉字或汉字符号,反之,一个汉字或汉字符号都对应唯一的区位码,如汉字“啊”的区位码为“1601”(即在16区的第1位)。所有汉字及符号的94个区划分成如下四个组。

①1~15区:为图形符号区,其中,1~9区为标准符号区,10~15区为自定义符号区。

②16~55区:为一级常用汉字区,共有3755个汉字,该区的汉字按拼音排序。

③56~87区:为二级非常用汉字区,共有3008个汉字,该区的汉字按部首排序。

④88~94区:为用户自定义汉字区。

(2)汉字处理过程:为了使计算机可以处理汉字,也需要对汉字进行编码。从汉字编码的角度看,计算机进行汉字处理的过程实际上是各种汉字编码的转换过程。这些汉字编码有汉字输入码、汉字内码、汉字地址码和汉字字形码(即汉字输出码)等,如图1-2-1所示。

图1-2-1 汉字的处理过程和汉字的几种编码

(3)汉字编码:在汉字的处理过程中提到的汉字编码简介如下。

①汉字输入码:是为用户能够使用西文键盘输入汉字而编制的编码,也叫外码。目前,汉字主要是经标准键盘输入计算机的,所以汉字输入码都是由键盘上的字符或数字组合而成。汉字输入码有许多种不同的编码方案,包括音码,以汉语拼音和数字组成的汉字编码,例如全拼输入法的编码等,种类非常多,被大多数用户采用;形码,根据汉字的字形结构对汉字进行的编码,例如五笔字型输入法的编码;音形码,以拼音为主,辅以字形、定义的汉字编码,例如自然码输入法的编码;数字码,直接输入固定位数的数字给汉字编码等。同一汉字的不同编码方案中的编码通常是不同的。好的编码要求易学习、重码少、击键次数少、容易实现盲打等。

②汉字机内码:也称汉字内码,是从上述区位码的基础上演变而来的。它是在计算机内部进行存储、处理和传输时所使用的汉字编码。不论用何种输入码,输入的汉字在机器内部都要转换成统一的汉字机内码,然后才能在机器内传输、处理。

区码和位码的范围都在01~94内,如果直接作为机内码必将与基本的ASCII码冲突。为了在计算机内部区分是汉字编码还是ASCII码,避免与基本ASCII码发生冲突,将国际码每个字节的最高位由0改为1(即汉字内码的每个字节都大于128)。

汉字的国标码和相应的汉字机内码的关系如下(其中的H表示为十六进制数)

汉字机内码=汉字国标码+8080H

其中,8080H=(8080)16=(1000000010000000)2

国标码+8080H的含义是将国标码的第7位和第15位置为1,因8080H=1000000010000000B,注意其中的第7位和第15位都为1(二进制是以0开始数起的,所以是7和15位)。为什么要加上8080H呢?是因为在计算机中ASCII码和汉字机内码是共存的,如何区分它们呢?因为ASCII码的最高位是0,所以将汉字机内码的最高位置为1,用来区别ASCII码和汉字机内码,计算机在判断是ASCII码还是汉字机内码时,只需要判断它们的最高位即可。

③汉字字形码:也称汉字输出码,汉字是一种象形文字,每一个汉字都是一个特定的图形,它可以用点阵来描述。例如,如果用16×16点阵来表示一个汉字(见图1-2-2),则该汉字图形由16行16列共256个点构成,这256个点需用256个二进制的位来描述。约定当二进制位值为“1”表示对应点为黑,二进制位值为“0”表示对应点为白。一个16×16点阵的汉字需要2×16=32个字节存放图形信息,这就构成了一个汉字的图形码,所有汉字的图形码就构成了汉字字库。

图1-2-2 “王”字16×16点阵字形

④汉字地址码:是指汉字库中存储的汉字字形编码的逻辑地址。在汉字库中,字形编码数据一般是按照一定顺序连续存放在存储介质内。汉字地址码大多数也是连续有序的,而且与汉字内码间有着简单的对应关系,从而可以简化汉字内码到汉字的转换。

当用某种汉字输入法将一个汉字输入到计算机之后,汉字管理模块立即将它转换为2个字节的国标码,同时将国标码每个字节的最高位置为“1”,作为汉字的标志,将国标码转换成汉字内码。然后,根据汉字内码转换为汉字地址码,再根据汉字地址码在汉字库中找到对应的一个汉字图形码,最后根据汉字图形码输出汉字字形。

5.常见的文本文件格式

(1)TXT格式:TXT格式文件是包含极少格式信息的文本文件,是通用的、跨平台的文本文件。TXT格式没有明确的定义,它通常是指那些能够被系统终端或者简单的文本编辑器接受的格式。Windows“附件”中提供了一个“记事本”软件,可以输入、编辑、浏览和打开TXT格式文件。其他任何可以读取文字的程序都能读取TXT格式的文本。

(2)RTF格式:RTF是Rich Text Format的缩写,含义是多文本格式,类似DOC格式,有很好的兼容性,是由微软公司开发的跨平台文档格式。大多数的文字处理软件都能读取和保存RTF文档。使用Windows“附件”中的“写字板”可以创建、打开和编辑RTF文档。

RTF的最大优点是具有通用兼容性,它的缺点是文件一般相对较大。Word等应用软件可能无法正常保存为RTF格式文件等。对普通用户而言,RTF格式是一个很好的文件格式转换工具,用于在不同应用程序之间进行格式化文本文档的传送。

(3)DOC和DOCX格式:DOC格式文件是Office Word2003或之前版本的文件,DOCX格式文件是Office Word2007或之后版本的文件。它们都是微软公司Office软件的专属格式,其文档可以容纳脚本语言和图片等,但因为该格式属于封闭格式,其兼容性也较低。

(4)WPS格式:WPS是Word Processing System的缩写,中文含义是文字编辑系统,是金山软件公司的一款办公软件。它具有丰富的全屏幕编辑功能、各种控制输出格式及打印功能,基本上能满足各界文字工作者编辑的需要。WPS格式是WPS软件独有的文档格式。

在WPS软件中打开WPS格式文档,可以再保存为DOC或DOCX格式的文档;在WPS软件中打开DOC或DOCX格式的文档,可以再保存为WPS格式的文档。

(5)ODF格式:是Open Office软件的专有格式,也有很多软件可以打开ODF格式文档。Open Office软件是一款开源的、整合性、商业级办公套件,它包含了许许多多的工具,其功能绝不逊于微软的Microsoft Office,不但可以有Word一样的字处理等功能,还可以输出与Microsoft Office的Word、Excel和PowerPoint软件的文档格式相同的文档。

Open Office是一套跨平台的办公室软件套件,能在Windows、Linux、MacOSX(X11)等操作系统上执行,是自由软件,可以免费下载。它与各个主要的办公室软件套件兼容。

(6)PDF格式:PDF文件格式是Adobe公司开发的电子文件格式,它与操作系统平台无关,也就是说,PDF文件在Windows、UNIX和Mac OS操作系统中都是通用的,使它成为在Internet上进行电子文档传播的理想文档格式。它已成为一个工业标准。

(7)RSS格式:RSS(简易信息聚合)是一种消息来源格式规范,用以聚合经常发布更新数据的网站,如博客文章、新闻、音频或视频的网摘。RSS文件包含了全文或节录的文字等。RSS文件可以借由RSS阅读器来阅读。RSS阅读器软件的种类很多,如看天下RSS阅读器、Feedreader软件和博阅RSS阅读器等。RSS文件常用于更新频繁的网站。