1.2 文本、图形和图像媒体基础知识_数字媒体应用教程-QQ阅读男生玄幻网

上QQ阅读APP看书，第一时间看更新

1.2　文本、图形和图像媒体基础知识

1.2.1　文本媒体基础知识

1.文本特点

（1）输入方便、处理容易：字符的输入可以有多种方式，操作均很方便。如果用键盘输入汉字，每分钟可以输入一百多个汉字。由于每个字符对应一个或两个字节的二进制数据，所以计算机在进行文字处理时可以直接对字节进行处理。

（2）文件很小、存取快速：由于每个字符对应一个或两个字节的二进制数，所以生成的文本文件很小。因为计算机在进行文字处理时很容易，所以文本文件的存取速度很快。

（3）表达清楚准确：文字表达可以做到表达清楚、明了和准确，可以叙述事情、逻辑推理、数学公式表述等。

（4）应用最多且样式多样：多媒体中应用最多的是文本。文本的样式多种多样，可设置文本的字体、大小、颜色、字形（正常、加粗、斜体等）、字间距、行间距和段间距等。

（5）形式简单、字符编集：文本是字母、数字、数字序号、数学和标点符号、注音符号、制表符号、特殊符号、图形符号和其他各种符号的集合，通常把这个集合叫字符集。有多种不同类型的字符集，不同的字符集所包含的字符也不一样，每个字符集对应的编码也不同。字符编码有ASCII和EBCDIC编码，汉字编码有GB、Unicode和Big5等编码。

2.文字字体类型

文字的字体类型有点阵字体、矢量字体、描边和组字体字体。其中，点阵字体在早期计算机中使用很多，它是由点构成的，易于创建和存储，放大后会失真，目前使用很少。矢量字体是用数学中的矢量函数记录的文字颜色和形状，在放大时不会产生失真，广泛用于印刷领域。描边字体的汉字采用描边的方法，采用矢量函数完整地描绘出整个描边汉字。组字体是采用拆卸组合的方法，将中文分成笔画（矢量笔画），再组合成不同的汉字，缺点是在构成汉字时会在笔画的交叉处产生“漏白”现象，严重影响文字的美观，基本被淘汰。

3.字符编码

计算机中的数据可以分为数值型数据与非数值型数据。其中数值型数据就是常说的“数”（如整数、实数等），它们在计算机中是以二进制形式存放的。而非数值型数据与一般的“数”不同，通常不表示数值的大小，而只表示字符，非数值型数据还包括各种控制符号和图形符号等信息，为了便于计算机识别与处理，它们在计算机中是用二进制形式来表示的，通常称之为字符的二进制编码。计算机中常用的字符编码简介如下。

（1）ASCII码：目前使用最多的字符集是ASCII码字符集（美国信息交换标准代码），它是由美国标准化委员会制定的。该编码被国际标准化组织ISO采纳，作为国际通用的信息交换标准代码。ASCII码有7位码和8位码两种版本。

国际的7位ASCII码（基础ASCII码）使用7位二进制数表示一个字符的编码，其范围是（0000000）2～（1111111）2，即0000000B～1111111B，共27=128个不同的编码。包括了计算机处理信息常用的26个英文大写字母A～Z、26个英文小写字母a～z，数字符号0～9、算术与逻辑运算符号、标点符号等。在一个字节（八位二进制）中，ASCII码用了7位，最高一位空闲，常用来作为奇偶校验位。另外，还有扩展的ASCII码，它用8位二进制数表示一个字符的编码，可表示28=256个不同的字符。用ASCII表示的字符称为ASCII码字符，如表1-2-1所示。

表1-2-1　ASCII码字符表

十进制数字字符的ASCII码与它们的二进制值是有区别的。例如，十进制数8的7位二进制数为（0001000）2，而十进制数字字符“8”的ASCII码为（0111000）2=（38）16=（56）10，由此可以看出，数值8与字符“8”在计算机中的表示是不一样的。数值8能表示数的大小，可以参与数值运算；而字符“8”是一个符号，不能参与数值运算。

为了统一各种语言字符的表达方式，国际上又制定了国际统一编码（Unicode编码）。在这种编码的字符集中，一个字符的编码占用2个字节，一个字符集可以表示的字符比ASCII码字符集所表示的字符扩大了一倍。

（2）EBCDIC码：它是对BCD码的扩展，称为扩展BCD码。BCD码又称“二-十进制编码”，用二进制编码形式表示十进制数。BCD码的编码方法很多，最常用的是8421码，其方法是用4位二进制数表示一位十进制数，自左至右每一位对应的位权是8、4、2、1。4位二进制数有0000到1111共16种形态，而十进制数只有0～9共10个数码，BCD码只取0000～1001十种形态。由于BCD码中的8421码应用最广泛，所以一般说BCD码就是指8421码。

4.汉字编码和汉字的处理过程

（1）国标码：我国国家标准总局于1980年颁发了国家汉字编码标准GB2312—1980，全称为“信息交换用汉字编码字符集基本集”，也称为汉字信息交换码或国标码。1981年5月1日开始实施。国标码规定，一个汉字的编码用两个字节表示。国标码的字符集共收集了6763个汉字，682个数字、序号、拉丁字母等图形符号。

根据汉字信息交换码，一个汉字的机内码也用2个字节存储。因为ASCII码是西文的机内码，为了不使汉字机内码与ASCII码发生混淆，就把汉字每个字节的最高位置为1，作为汉字机内码。国标码规定，全部国标汉字及符号组成94×94矩阵，在该矩阵中，每一行称为一个“区”，每一列称为一个“位”。这样，就组成了94个区（01～94区），每个区内有94个位（01～94）的汉字字符集。区码和位码简单地组合在一起（即两位区码居高位，两位位码居低位）就形成了“区位码”。区位码可以唯一确定某一个汉字或汉字符号，反之，一个汉字或汉字符号都对应唯一的区位码，如汉字“啊”的区位码为“1601”（即在16区的第1位）。所有汉字及符号的94个区划分成如下四个组。

①1～15区：为图形符号区，其中，1～9区为标准符号区，10～15区为自定义符号区。

②16～55区：为一级常用汉字区，共有3755个汉字，该区的汉字按拼音排序。

③56～87区：为二级非常用汉字区，共有3008个汉字，该区的汉字按部首排序。

④88～94区：为用户自定义汉字区。

（2）汉字处理过程：为了使计算机可以处理汉字，也需要对汉字进行编码。从汉字编码的角度看，计算机进行汉字处理的过程实际上是各种汉字编码的转换过程。这些汉字编码有汉字输入码、汉字内码、汉字地址码和汉字字形码（即汉字输出码）等，如图1-2-1所示。

图1-2-1　汉字的处理过程和汉字的几种编码

（3）汉字编码：在汉字的处理过程中提到的汉字编码简介如下。

①汉字输入码：是为用户能够使用西文键盘输入汉字而编制的编码，也叫外码。目前，汉字主要是经标准键盘输入计算机的，所以汉字输入码都是由键盘上的字符或数字组合而成。汉字输入码有许多种不同的编码方案，包括音码，以汉语拼音和数字组成的汉字编码，例如全拼输入法的编码等，种类非常多，被大多数用户采用；形码，根据汉字的字形结构对汉字进行的编码，例如五笔字型输入法的编码；音形码，以拼音为主，辅以字形、定义的汉字编码，例如自然码输入法的编码；数字码，直接输入固定位数的数字给汉字编码等。同一汉字的不同编码方案中的编码通常是不同的。好的编码要求易学习、重码少、击键次数少、容易实现盲打等。

②汉字机内码：也称汉字内码，是从上述区位码的基础上演变而来的。它是在计算机内部进行存储、处理和传输时所使用的汉字编码。不论用何种输入码，输入的汉字在机器内部都要转换成统一的汉字机内码，然后才能在机器内传输、处理。

区码和位码的范围都在01～94内，如果直接作为机内码必将与基本的ASCII码冲突。为了在计算机内部区分是汉字编码还是ASCII码，避免与基本ASCII码发生冲突，将国际码每个字节的最高位由0改为1（即汉字内码的每个字节都大于128）。

汉字的国标码和相应的汉字机内码的关系如下（其中的H表示为十六进制数）

汉字机内码=汉字国标码+8080H

其中，8080H=（8080）16=（1000000010000000）2。

国标码+8080H的含义是将国标码的第7位和第15位置为1，因8080H=1000000010000000B，注意其中的第7位和第15位都为1（二进制是以0开始数起的，所以是7和15位）。为什么要加上8080H呢？是因为在计算机中ASCII码和汉字机内码是共存的，如何区分它们呢？因为ASCII码的最高位是0，所以将汉字机内码的最高位置为1，用来区别ASCII码和汉字机内码，计算机在判断是ASCII码还是汉字机内码时，只需要判断它们的最高位即可。

③汉字字形码：也称汉字输出码，汉字是一种象形文字，每一个汉字都是一个特定的图形，它可以用点阵来描述。例如，如果用16×16点阵来表示一个汉字（见图1-2-2），则该汉字图形由16行16列共256个点构成，这256个点需用256个二进制的位来描述。约定当二进制位值为“1”表示对应点为黑，二进制位值为“0”表示对应点为白。一个16×16点阵的汉字需要2×16=32个字节存放图形信息，这就构成了一个汉字的图形码，所有汉字的图形码就构成了汉字字库。

图1-2-2　“王”字16×16点阵字形

④汉字地址码：是指汉字库中存储的汉字字形编码的逻辑地址。在汉字库中，字形编码数据一般是按照一定顺序连续存放在存储介质内。汉字地址码大多数也是连续有序的，而且与汉字内码间有着简单的对应关系，从而可以简化汉字内码到汉字的转换。

当用某种汉字输入法将一个汉字输入到计算机之后，汉字管理模块立即将它转换为2个字节的国标码，同时将国标码每个字节的最高位置为“1”，作为汉字的标志，将国标码转换成汉字内码。然后，根据汉字内码转换为汉字地址码，再根据汉字地址码在汉字库中找到对应的一个汉字图形码，最后根据汉字图形码输出汉字字形。

5.常见的文本文件格式

（1）TXT格式：TXT格式文件是包含极少格式信息的文本文件，是通用的、跨平台的文本文件。TXT格式没有明确的定义，它通常是指那些能够被系统终端或者简单的文本编辑器接受的格式。Windows“附件”中提供了一个“记事本”软件，可以输入、编辑、浏览和打开TXT格式文件。其他任何可以读取文字的程序都能读取TXT格式的文本。

（2）RTF格式：RTF是Rich Text Format的缩写，含义是多文本格式，类似DOC格式，有很好的兼容性，是由微软公司开发的跨平台文档格式。大多数的文字处理软件都能读取和保存RTF文档。使用Windows“附件”中的“写字板”可以创建、打开和编辑RTF文档。

RTF的最大优点是具有通用兼容性，它的缺点是文件一般相对较大。Word等应用软件可能无法正常保存为RTF格式文件等。对普通用户而言，RTF格式是一个很好的文件格式转换工具，用于在不同应用程序之间进行格式化文本文档的传送。

（3）DOC和DOCX格式：DOC格式文件是Office Word2003或之前版本的文件，DOCX格式文件是Office Word2007或之后版本的文件。它们都是微软公司Office软件的专属格式，其文档可以容纳脚本语言和图片等，但因为该格式属于封闭格式，其兼容性也较低。

（4）WPS格式：WPS是Word Processing System的缩写，中文含义是文字编辑系统，是金山软件公司的一款办公软件。它具有丰富的全屏幕编辑功能、各种控制输出格式及打印功能，基本上能满足各界文字工作者编辑的需要。WPS格式是WPS软件独有的文档格式。

在WPS软件中打开WPS格式文档，可以再保存为DOC或DOCX格式的文档；在WPS软件中打开DOC或DOCX格式的文档，可以再保存为WPS格式的文档。

（5）ODF格式：是Open Office软件的专有格式，也有很多软件可以打开ODF格式文档。Open Office软件是一款开源的、整合性、商业级办公套件，它包含了许许多多的工具，其功能绝不逊于微软的Microsoft Office，不但可以有Word一样的字处理等功能，还可以输出与Microsoft Office的Word、Excel和PowerPoint软件的文档格式相同的文档。

Open Office是一套跨平台的办公室软件套件，能在Windows、Linux、MacOSX（X11）等操作系统上执行，是自由软件，可以免费下载。它与各个主要的办公室软件套件兼容。

（6）PDF格式：PDF文件格式是Adobe公司开发的电子文件格式，它与操作系统平台无关，也就是说，PDF文件在Windows、UNIX和Mac OS操作系统中都是通用的，使它成为在Internet上进行电子文档传播的理想文档格式。它已成为一个工业标准。

（7）RSS格式：RSS（简易信息聚合）是一种消息来源格式规范，用以聚合经常发布更新数据的网站，如博客文章、新闻、音频或视频的网摘。RSS文件包含了全文或节录的文字等。RSS文件可以借由RSS阅读器来阅读。RSS阅读器软件的种类很多，如看天下RSS阅读器、Feedreader软件和博阅RSS阅读器等。RSS文件常用于更新频繁的网站。

1.2 文本、图形和图像媒体基础知识

1.2.1 文本媒体基础知识

1.2　文本、图形和图像媒体基础知识

1.2.1　文本媒体基础知识