☞ 项目1 信息的表示
1.1 项目描述
信息社会下的生产、生活、文化娱乐等方方面面都与信息流密切相关。尤其是在各项经济活动中,随着商流、物流与资金流的分离,信息流的作用和地位日益突出。从现代信息技术研究、发展、应用的角度看,信息流指的是信息处理过程中信息在计算机系统和通信网络中的流动。如何将纷繁复杂的信息转换成计算机中的二进制编码,是现代信息处理过程中关键的环节。
本项目将使用Win Hex软件查看机器指令、整数、浮点数、文本、图像等多种信息的二进制编码,了解常用信息媒介的表示方法,掌握整数、浮点数及文本的编码方法。
项目要求完成以下4方面的内容。
(1)认识机器指令和程序中数据的编码形式。
(2)掌握整数和单精度浮点数的编码方法。
(3)认识文本字符的ASCII码、汉字机内码和UTF-8编码,熟练掌握英文字母、数字以及常用控制字符的ASCII码。
(4)了解位图文件、音乐文件和视频文件的二进制编码形式,了解其他信息的表示和获取方法。
1.2 思维方法
信息处理古已有之,只是在不同的历史时期限于工具和技术水平,人们采用了不同的方法处理和使用信息。从远古结绳记事、语言文字的诞生,之后排版印刷的使用,到近代无线电波的发明和普及,每一次新技术的变革都带来了信息处理工具和处理方式的飞跃。尤其是电子计算机的诞生和因特网的普及,推动了人类社会发展迈入信息社会。
人们在信息社会中必将借助计算机强大的运算和存储能力以及现代通信技术的快速传播能力进行社会的变革。这种变革是全方位的,不仅仅在生产制造、流通消费等有形的领域发生变革,而且在意识形态和思维方式等无形的领域都将长期产生深远影响。
著名的计算机科学家艾兹格·迪科斯彻(Edsger Wybe Dijkstra)说:“我们所使用的工具影响着我们的思维方式和思维习惯,从而也深刻影响着我们的思维能力。”
因此,在信息社会中,人们不但需要借助计算机及其网络的工具特性解决许多实际的问题,还要善于按照“计算机的思维方式”进行问题分析和求解。这种思维方式最核心的内容是“符号化、规则化和自动化”。
1. 符号化
符号化的思想和能力早已在人类的进化过程中融入人们的智慧里。用文字和图案表达思想,用手势和灯光传递信息,用一组齿轮的转动记录时间,用打孔的纸带记录数据和程序代码,等等,都是借助符号描述事物。采用什么样的符号是依据特定场合和所使用的工具来选择的。
在代数中最基本的思维工具也是符号化。四则运算中的整数、小数等这些具体的数值拓展到代数就使用字母符号进行抽象化。从特殊现象揭示普遍规律,这是应用数学工具进行逻辑思维的典型。
用计算机来解决实际问题,就要求人们把现实问题用计算机能够理解的符号描述出来,成为计算机中能够加工处理的“数据”。目前的电子计算机普遍采用二进制计数,而人类描述事物的符号普遍采用文字、语音、图形、图像等形式,这就需要将人类使用的符号转换成计算机的二进制符号,成为计算机中的编码。
2.规则化
任何事物的发生和发展都是有规律的。如果能够了解并掌握这些规律,然后用特定的符号清晰准确地描述出来,就建立了相应的规则。规则化揭示了事物的本质特征,是对事物的抽象化。
数学中的四则运算、方程求解、定理证明等都是按照明确的规则进行演算和推导。管理领域的规章制度和工作流程、法律的条文等如果能够规则化,很大程度上将提高管理效率、明晰职责。解决实际问题的方法、步骤等过程如果每一个步骤都能够清晰、准确、无二义性地描述出来,就能将问题求解过程规则化。这些规则如果用人类理解的符号描述,就是人们交流解题步骤的算法;如果用二进制机器指令来描述,就成为计算机程序。
符号化和规则化本质上就是对事物及其规律的抽象化,使其成为计算机能够理解的数据和指令代码。
3.自动化
自动化往往与按照规律机械地重复操作有关。汽车电动机转动、工厂中的流水线等都给人们建立了自动化的印象。计算机的自动化本质上就是从指定的存储单元取出指令,然后分解和执行指令,由指令控制计算机的操作。不断重复“取指令→分析指令→执行指令”,直到程序结束为止的过程,实现了计算机的自动运行。
4. 计算思维
提到计算,人们自然而然会联想到从小开始不断学习训练的算术运算和数学公式推导。这些运算本质上都是“数据”在“运算符”的操作下按照“规则”进行演算变换的过程。其中,对数据的每一步演算和变换过程都称为计算。从幼儿时期的计数和整数加减运算,到小学时期的分数、小数四则运算和代数运算,再到中学、大学时期的函数运算、微积分、公式推导和定理证明,等等。不难发现,这些计算都是将各种数据和符号按照规则推演得到正确结果的过程。
如果我们能够将现实中要解决的具体问题用“数据”描述出来,解决问题的方法和步骤规范成明确的“计算规则”,就有可能利用计算机强大的处理能力求解问题。应用计算机解决实际问题,实质上就是将现实中各种问题抽象为一些符号和规则,建立相应的计算模型,然后由计算机进行处理,寻找解决方案。其中,分析问题并建立计算模型的过程需要一定的计算思维能力。
美国卡内基-梅隆大学的计算机科学家周以真教授指出,计算思维(computational thinking)是运用计算机科学的基础概念进行问题求解、系统设计,以及人类行为理解等涵盖计算机科学之广度的一系列思维活动。计算思维的本质是抽象(abstraction)和自动化(automation)。抽象就是将现实世界的事物符号化、规则化;自动化就是机械地一步一步自动执行,其基础和前提是抽象。
在本项目的实验过程中,需要从计算思维的视角认识和理解常用信息媒介的二进制表示方法,领会信息符号化的意义,掌握符号化的基本方法。符号化通常需要确定编码标准,实验中列举的编码都是遵从通用标准(国际标准、国家标准、行业标准)的,按照标准中的规则进行转换。以此类推,可进一步了解条形码、二维码、ETC电子标签等信息符号化的标准和方法,理解它们表示的信息。
1.3 知识和技能准备
信息社会是指以信息技术为基础,以信息产业为支柱,以信息生产和消费为标志的社会。信息化是充分利用信息技术,开发利用信息资源,促进信息交流和知识共享,推动经济社会发展转型的历史进程,是信息技术不断开发和利用以及信息产品不断创造和发展的过程。
信息社会要求人们必须具备基本信息素养。所谓信息素养,是指人们能够适时获取信息,对信息进行评价和判断,并有效利用信息的能力。信息素养不仅包括熟练运用当代信息技术的基本技能,还包括获取信息和加工信息的能力、运用多媒体和网络表达信息的能力,以及批判性地评价、选择信息的能力。
信息技术的核心是充分利用现代计算机技术处理和存储信息、使用网络通信技术传输信息。信息化最基础的工作就是实现信息与计算机数据的相互转化,即将各种信息进行编码,转化为计算机能接受和处理的数据,需要呈现信息时,再将计算机数据转化为文字、声音、图像、视频等各种形式的信息。因此,首先需要了解计算机中数据描述方法以及人类感知的各种信息在计算机中如何表示。
1.3.1 数据与数制
计算机中处理的数据可分为数值数据和非数值数据。数值数据包括整数和浮点数。非数值数据包括表示姓名、地址、电话号码等信息的文本数据(字符型数据),以及描述声音、图形、图像等的多媒体数据。
要描述数据,必须约定一组固定的数码和统一的计数规则,称为数制。例如,人们常用的十进制约定用0~9这10个数码表示数量大小,基数为10,“逢十进一,借一当十”作为计数规则。十进制计数符号较多,运算规则较复杂,用逻辑电路实现较繁琐。
1.计算机中为何采用二进制
二进制仅使用0、1两个数码,位权为2的幂,运算规则简单。二进制的算术运算公式简单,共有加法和乘法各3条运算,如表1-1所示。
表1-1 二进制加法、乘法运算
基本逻辑运算有“与”“或”“非”3种,复杂的逻辑运算可以通过3种基本运算组合生成。二进制的0对应逻辑值“假”,1对应逻辑值“真”,最便于进行逻辑运算。基本逻辑运算如表1-2所示。
表1-2 逻辑运算
任何复杂的计算,最终都可以归结为基本的算术运算和逻辑运算。二进制具有数码少、算术及逻辑运算简便的特点,在电子元件中很容易实现二进制数码的表示和逻辑电路的设计。
人们知道,具有两种稳定状态的物理元件(如晶体管的导通和截止、电平的高和低、脉冲的有和无)容易找到,而要找到具有10种稳定状态的物理元件来对应十进制的10个数码就困难得多。
计算机是由逻辑电路构成的。逻辑电路通常具有两个状态,即电路的导通与断开,这两种状态可以用1和0表示,正好与逻辑代数中的“真”和“假”相吻合,适合逻辑运算。二进制数运算规则简单,有利于简化逻辑电路结构,提高运算速度。二进制表示数据具有抗干扰能力强、可靠性高等优点,因为每位数据只有高低两种状态,当受到一定程度的干扰时,仍能可靠地分辨出它是高还是低。因此,现代电子计算机中普遍采用二进制编码。
计算机中所有的程序、数据都是二进制形式,各种信息输入计算机中都要变成二进制编码来表示。也就是说,计算机世界就是二进制编码的世界,计算机内部只有二进制的位序列。
2.常用数制的转换
人们习惯使用十进制描述信息,但计算机中的数据都是二进制编码,在将信息与计算机数据相互转换中必然存在二进制数与十进制数的转换问题。二进制数一般位数较多,读写不便,人们常常将二进制数书写成十六进制形式。为了区分各种数制,通常在数的末尾加上后缀标识,二进制数用“B”标识,八进制数用“O”标识,十进制数用“D”标识,十六进制数用“H”标识。
(1)二进制转换成十进制
将二进制数转换成十进制数,只要将二进制数为1的各位位权相加就得到其对应的十进制数值。
例如,将二进制数10110110.01 B 转换成十进制数。
10110110.01 B = 27+25+24+22+21+2−2= 128+32+16+4+2+0.25 = 182.25 D
(2)十进制转换成二进制
将十进制数整数部分除2取余数倒序书写,小数部分乘2取整顺序书写。也可将十进制数从够减的最高二进制位权开始依次减去位权,前一次的差作为下一次的被减数,够减的位为 1,不够减的位为0,直到最低位或差为一个足够小的数为止。记住几个常用的位权非常有用:24=16、28=256、210=1024、216=65536。
例如,将721.3 D转换成二进制数。
721大于29=512,小于210=1024,因此其二进制数整数部分不可能达到第11位,最高位为第10位。按上述方法依次减去29、28等即可完成转换。
721.3−512=209.3 1
209.3−256 不够减 0
209.3−128=81.3 1
……
可以表示为:721.3 D≈29+27+26+24+20+2−2+2−5≈ 1011010001.01001 B
把十进制小数转换成二进制时,往往带来误差,有时这个转换是无限的。也就是说,无论将转换计算到多少位,都不能避免误差。只是小数后位数越长,误差就越小,精度越高。实际应用中一般都要限定精度。
(3)二进制数与十六进制数相互转换
十六进制数是因为二进制书写不便而引入的一种直观表示二进制数的方法。因为24=16,也就是说,4位二进制数正好可以用1位十六进制数表示,它们存在一一对应的关系,如表1-3所示。同理,八进制数用3位二进制数表示,形成了映射关系,可相互转换。
表1-3 常用数制中数码及其二进制表示
只需要从小数点往两边按每4位一组分组,两端不够4位的用0补齐,再按表1-3中对应的关系写出十六进制数码,即可将二进制转化成十六进制。反过来,将每个十六进制数码写成对应的4位二进制数,就可以将十六进制数表示成二进制形式。
例如,将1011010001.010011 B书写成十六进制形式为2D1.4C H。
10'1101'0001.0100'1100 B = 2D1.4C H
1.3.2 数值编码
1.整数的表示
一个数在计算机中的二进制表示形式称为这个数的机器数。机器数是带符号的,即有正、负数之分。一般规定,二进制数的最高位(左端)为符号位,0表示正数,1表示负数;其他位为数值部分,保存该数的二进制数绝对值,由此表示的数称为原码。此外,数值数据还有补码、反码和移码等表示方式。
正数的反码、补码都与原码相同;负数的反码数值部分是将其原码数值部分按位取反(0变1, 1变0);负数的补码是将其对应的反码加1。8位二进制整数的原码、反码、补码对照表如表1-4所示。
表1-4 8位二进制整数的编码
例如,−13的16位补码可用下列方法求得。
13 D=1101 B,则−13的16位原码为:10000000 00001101,补码为:111111111 11110011,写成十六进制数为:FF F3。
原码比较直观、简单易懂,容易说明十进制数如何变成计算机的机器数,只需将十进制数的绝对值转换成二进制数,最高位加上正负号的编码即可。但数值0的原码有两种,+0(00000000)和−0(10000000),这与数学中0的概念不相符。同时,原码做加法运算既要判断和的符号,又要比较两个加数的绝对值大小,显然运算不方便。反码同样存在原码的缺点。
补码有两条重要的性质:一是补码的0是唯一的(各位全部是0),二是补码的减法可以转化为加法实现,即:
[X+Y]补=[X]补+[Y]补;[X−Y]补=[X]补+[−Y]补
采用补码进行加减法运算比原码更加方便。因为不论数是正还是负,机器总是做加法,减法运算可转换成加法运算实现。因此,计算机中整数通常用补码表示。至于一个整数用多少个二进制位编码,要视计算机字长和应用程序的约定而定。例如,Turbo C为16位应用程序,其基本整数用16位编码,而VC++6.0为32位应用程序,其基本整数用32位编码。
2.浮点数的表示
对于浮点数,其机器内的编码也是由一串0和1构成的位序列。IEEE 754规定了两种基本浮点数格式,即单精度(32位)和双精度(64位),如图1-1所示。
图1-1 IEEE 754标准浮点数格式
编码时,尾数用原码表示,阶码用非标准移码表示。标准移码就是补码的符号位取反(0变1, 1变0)其余各位不变,非标准移码由标准移码减1得到。单精度浮点数阶码占8位,其移码偏移值为128−1=127,尾数规格化时若小数点左移了n位,则阶码为127+n;若小数点右移n位,则阶码为127-n。
下面以单精度浮点数123.456和−0.35671为例说明编码转换过程。先将十进制数转换成二进制数,再将二进制数进行规格化处理,即移动小数点,保证小数点左边为1,小数点右边保留23位(不够可补0)。小数点右边的23位编码即为尾数的编码。编码结果见表1-5。
123.456 D= 1111011.01110100101111001 B =1.111011 01110100101111001×26
对于−0.35671可借助Windows附件中的计算器转换为二进制。方法是将-0.35671扩大225倍变成整数(忽略小数部分),将该整数十进制转换成二进制之后将小数点向左移动25位即可。
-0.35671×225≈-11969201 D=-10110110 10100010 10110001 B;
-0.35671 D≈-0.0101101101010001010110001 B =-1.01101101010001010110001×2−2。
表1-5 32位二进制浮点数的编码
1.3.3 字符编码
1.ASCII码
在计算机中,英文字符普遍采用 ASCII 编码(American Standard Code for Information Interchange)表示。它由美国国家标准局制定,已被国际标准化组织定为国际标准(ISO 646)。ASCII字符集包括33个控制字符、95个可打印字符,共计128个字符,使用7位二进制数(27=128)编码,其ASCII码值范围是0~127。第0~31号以及第127号是控制字符或通信专用字符;第48~57号为0~9十个阿拉伯数字;65~90号为26个大写英文字母,97~122号为26个小写英文字母,其余为一些标点符号、运算符号等。
由于计算机的存储单元以字节为单位保存信息,因此,1个ASCII码占1字节的低7位,最高位平时不用(一般为0),仅在数据通信时用作奇偶校验位。ASCII码如表1-6所示。
表1-6 ASCII码表
从表1-6可知,每个字符唯一对应1个编码,如字母A的编码为0100 0001,转换成十进制数为65,称为字母A的ASCII码值是65。数字和字母都是按照一定顺序排列的。字母和数字的ASCII码很容易记忆,只要记住了一个字母和数字的ASCII码(例如记住字母A为65,数字0的ASCII码为48),知道相应的大小写字母之间相差32,就可以按顺序推算出其余字母、数字的ASCII码。
提示
在程序设计语言中(如C语言),通常利用ASCII的字符规律进行程序设计,实现诸如大小写字母转换、数字符号与数值转换、字符判定、英文加密解密等操作。
2.扩展ASCII码
由于标准ASCII码字符集字符数目有限,在实际应用中往往无法满足要求。为此,国际标准化组织又制定了ISO 2022标准,它规定了在保持与ISO 646兼容的前提下,将ASCII码字符集扩充为8位代码。ISO陆续制定了一批适用于不同地区的扩充ASCII码字符集,每种扩充ASCII码字符集分别可以扩充128个字符,这些扩充字符的编码均为高位为1的8位代码(即十进制数128~255),称为扩展ASCII码。其中有一种称为IBM字符集的扩展ASCII码把值为128~255的字符用于画图和画线,以及一些特殊的欧洲字符。
3.汉字编码
英语等拉丁语系使用的是小字符集,128个符号就包容了语言中用到的所有字符,因此,ASCII码和扩展ASCII码适合拉丁语系字符编码。而汉字常用的一、二级字符就有将近7 000个,用1字节编码是远远不够的。汉字通常采用2字节编码(16位编码)。
(1)国标码。为了满足计算机中使用汉字的需要,中国国家标准总局发布了一系列的汉字字符集国家标准编码,统称为GB码(国标码)。其中最有影响的是1980年发布的《信息交换用汉字编码字符集基本集》,标准号为GB2312-1980。GB2312编码通行于我国内地,新加坡等地也采用此编码。几乎所有的中文系统和国际化的软件都支持GB2312。
GB2312是一个简体中文字符集,由6 763个常用汉字和682个全角的非汉字字符(字母、数字、标点符号、图形)组成。其中汉字根据使用的频率分为两级。一级汉字3 755个,按拼音排序;二级汉字3 008个,按部首排序。由于字符数量较大,GB2312采用了二维矩阵编码法对所有字符进行编码。首先构造一个94行94列的方阵,对每一行称为一个“区”,每一列称为一个“位”,然后将所有字符依照表1-7的规律填写到方阵中。这样所有的字符在方阵中都有一个唯一的位置,这个位置可以用区号、位号合成表示,称为字符的区位码。如第一个汉字“啊”出现在第16区的第1位上,其区位码为1601。GB2312字符的排列分布情况如表1-7所示。
表1-7 GB2312字符编码分布表
GB2312字符在计算机中存储是以其区位码为基础的,其中汉字的区码和位码分别占1字节,每个汉字占2字节。ASCII码中的32个控制字符,在汉字编码中仍为控制字符,占用编号00H~20H,将区位码的区号和位号(十六进制数)都加上20H,即为国标码。
(2)机内码。由于区码和位码的取值范围都是1~94,这样的范围同ASCII码冲突,导致在解释编码时到底表示的是一个汉字还是两个英文字符将无法判断。
为避免同ASCII码发生冲突,GB2312字符在进行存储时,通过将原来的每字节最高位设置为1同ASCII加以区别。如果最高位为0,则表示英文字符,否则表示GB2312中的字符。实际存储时,采用将区位码的每字节分别加上 A0H(160)的方法转换为机内码。例如汉字“啊”的区位码为1601,其机内码为B0A1H。其转换过程为:
1601(十进制区位号)对应的十六进制区位号10 01H
10 + A0 =B0 H, 01+A0=A1 H,对应的机内码为:B0A1H。
GB2312编码用2字节表示一个汉字,理论上最多可以表示256×256=65 536个汉字。如果网页使用的汉字是GB2312编码,外国网民的浏览器不支持GB2312编码,则浏览该网页时就可能无法正常显示。当然,中国人在浏览外文网页时,也可能会出现乱码或无法打开的情况,因为本机浏览器没有安装相应字符编码表和字库。
(3)大五码Big5。在我国的台湾、香港、澳门以及一些海外华人地区,使用的是繁体中文字符集,而1980年发布的GB2312面向简体中文字符集,并不支持繁体汉字。在这些使用繁体中文字符集的地区,一度出现过很多不同厂商提出的字符集编码,它们彼此互不兼容,造成了信息交流的困难。为统一繁体字符集编码,1984 年,台湾五大厂商统一制定了一种繁体中文编码方案Big5,俗称大五码。
大五码字符集包含繁体汉字13 053个,808个标点符号、希腊字母及特殊符号。大五码使用2字节编码。第1字节范围为81H~FEH,避开了同ASCII码的冲突,第2字节范围是40H~7EH和A1H~FEH。因为Big5的字符编码范围同GB2312字符的存储码范围存在冲突,所以同一文本不能被两种字符集同时支持。在互联网中检索繁体中文网站,所打开的网页中,大多都是通过Big5编码产生的文档。
4.Unicode编码与UTF-8编码
如上所述,世界上存在多种字符编码方式,同一个二进制数在不同的字符编码中可以被解释成不同的字符。因此,要想打开一个文本文件,不但要知道它的编码方式,还要安装有对应编码表,否则就可能无法读取或出现乱码。电子邮件和网页都经常会出现乱码,就是因为信息的提供者和读取者使用了不同的编码方式。
如果有一种编码,将世界上所有的符号(无论是英文、中文,还是韩文)都纳入其中,且每个符号唯一对应一个编码,乱码问题就不存在了,这就是Unicode编码。Unicode当然是一个很大的字符集合,现在的规模可以容纳100多万个符号。每个符号的编码都不一样,例如,U+0639表示一个阿拉伯字母、U+0041表示英语的大写字母A、“汉”这个字的Unicode编码是U+6C49。Unicode固然统一了编码方式,但是它的效率不高,比如UCS-4(Unicode的标准之一)规定用4字节存储一个符号,那么每个英文字母前都必然有3字节是0,这对存储和传输来说都是很大浪费。
为了提高Unicode的编码效率,于是产生了UTF-8编码。UTF-8可以根据不同的符号自动选择编码的长短,可用1~6字节编码Unicode字符。例如ASCII字符只用1字节就够了,并且保持与原ASCII一致,而每个汉字占用3字节。UTF-8用在网页上可以在同一页面显示中文简体、繁体及其他语言(如日文、韩文)。
1.3.4 多媒体信息编码
1.声音数据的表示
声音是一种在时间和振幅上都连续变化的物理信号。从理论上讲,连续信号的数据量是无限的,不可能保存在有限的计算机存储空间中,但只要采取适当的方法,通过时间上的离散化(采样)和振幅上的离散化(量化),就可以将连续的声音用二进制的位序编码表示出来,如图1-2所示。
图1-2 声音数字化编码过程
2.图形数据的表示
图形是由计算机中特定的绘图软件执行绘图命令生成的。这些图形是由点、线、多边形、圆和弧线等元素构成的几何图形,称为矢量图(vector)。构成图形的几何元素可通过数学公式来描述。例如:圆可以表示成圆心在(x1,y1),半径为r的图形,使用画圆命令circle(x1,y1,r),绘图软件就能在指定的坐标位置绘制该圆形;矩形可以通过指定左上角的坐标(x1,y1)和右下角的坐标(x2,y2)的四边形来表示,使用rectangle(x1,y1,x2,y2)绘制矩形。当然,可以为每种元素再加上一些属性,如边线的宽度、边线线型(实线还是虚线)、填充颜色等。把绘制这些几何元素的命令和它们的属性保存为文件,这样的文件就是矢量图文件。
3.位图图像的表示
真彩色效果的照片一般使用位图(bitmap)来表示。位图就是由若干色彩点(称为像素)按照行列顺序排列组成的矩形图像。每个像素的颜色可以用黑(1)、白(0)表示成黑白图像,也可用1字节的亮度编码表示成灰度图像,还可用红(R)、绿(G)、蓝(B)三基色的的数字编码表示成真彩色图像。RGB三基色每种各用1字节编码,数值范围为0~255,每个像素的颜色用3字节编码,能组合出1 600多万种颜色(224=16 777 216),达到真彩色的效果。例如,计算机屏幕上的红色点用“11111111 00000000 00000000”表示,绿色点用“00000000 11111111 00000000”。
综上所述,任何信息(包括计算机指令)都必须编码后转换成二进制的字节序列,才能被计算机识别和处理,如图1-3所示。
图1-3 信息编码示意图
计算机中存储的所有数据都是由0和1的位序列形式构成。计算机要知道应该把这些0和1的序列解释成二进制数值、ASCII码、汉字机内码,还是声音、图形、图像中的哪一种。假设它错误地把一篇冗长的论文汉字机内码解释成一首 MP3 歌曲,播放出的一定是世界上最难听的噪音。为了防止混淆,大多数的计算机文件都带有一个文件头,其中包含一些代码信息,说明文件中数据的表示方法。文件头随文件一起存储,能够被相关联的程序读取,不会被当作普通数据解释。通过读取文件头中的信息,程序就知道文件的内容是如何编码的了,这就是所谓的文件格式。有格式的数据才能表示出信息,无格式的数据犹如密码,很难破解其中的含义。
1.3.5 信息处理过程
1.信息获取
信息获取是整个信息处理的第一个环节,其质量直接关系到整个信息管理工作的质量。如果没有可靠的原始数据,就不可能得到准确的信息。其次,信息获取在信息处理中的工作量和费用方面都占有相当大的比重。信息获取必须坚持准确性、全面性、时效性的原则。
(1)信息的识别
信息获取过程中要解决的第一个关键问题是信息的识别,即确定信息需求。因为要想得到关于客观事物的全部信息往往是不可能的,也没有必要。对于已有的传统媒介上的非数字信息,往往将它们以文本、数值、声音、图像等多媒体信息的格式进行数字化输入。此外,大量采用传感器才能获取的信息,就需要在各种噪声背景下感知、发现和识别所需的信息,并且把它们从噪声背景中分离出来。
完成感知信息任务的技术称为传感技术,它由一个对相关事物的运动状态及其变化方式作出感知的“敏感元件”和“换能器”构成。前者发现事物的状态变化,后者负责把这种信息的原始能量形式转换为便于观察和计量的能量形式(通常把非电量转换为电量)。由于敏感元件只响应感兴趣的有用信息,而不响应其他信息,因而能将有用信息和噪声分离开来。在传感基础上增加相应的计量指标系统,对传感信息中某些参量进行计量的技术称为测量技术。
现在,人们拥有的传感器几乎可以扩展人类任何一种感觉器官的传感功能,如力敏传感器感知压力变化、热敏传感器感知温度变化、湿度传感器感知湿度的变化,光敏传感器、声音传感器、特殊气体传感器、电磁波传感器等形形色色的传感器层出不穷。
(2)信息的转换
第二个关键问题是将信息转换成一定格式的数据,也就是信息的数字化。上面已叙述了常用信息的数字化编码方法,而对于大量传感器获得的模拟量可以采用类似声音数字化编码的方法进行处理。由此,各种形态的信息最终都转换成二进制编码的数据,利用计算机强大的数据处理能力对数据进行加工处理、存储和利用。
2.信息加工
信息加工是指对计算机中各种数字化信息进行判别、筛选、分类、排序、比较、分析、计算、统计和研究等一系列操作的过程,目的是使获取的信息成为能够满足人们需要的有用信息。这一环节的工作可以是一些简单的运算,如选择、查找、汇总等,也可以是一些较为复杂的运算,如借助一些复杂的数学模型和计算技术来加工数据。信息加工最基本的方法有以下3种。
(1)基于程序设计的自动化信息加工
针对具体的问题编制专门的程序,对特定信息进行自动化加工,称为信息的编程加工。这种加工类型可提高信息加工的效率,超越人工加工的局限,但是编程需要掌握程序设计语言,并且要熟悉相关的算法。
(2)基于大众信息技术工具的信息加工
这类信息加工可以使用各种软件来实现。例如,利用字处理软件加工文本信息(用Word或WPS对文本进行编辑排版),利用电子表格软件加工表格信息(用Excel完成表格数据的筛选、排序和自动计算),利用多媒体软件加工图像、声音、视频和动画等多媒体信息(用Flash创作动画、Photoshop修饰图像、Gold Wave处理音频信息)等。
(3)基于人工智能技术的智能化信息加工
智能化加工要解决的问题是如何让计算机更加自主地加工信息,减少人的参与,进一步提高信息加工的效率。例如,对各种传感器感知的信息进行分类,最基本的方法是设置各类信息模板,然后将待识别的信息与这些模板比较,按照最大相似度的原则判断它的类属。目前,人类已经拥有种类繁多的信息识别系统,如语音识别系统、文字识别系统、指纹识别系统、图形识别系统、图像识别系统等,它们都是智能化信息加工处理的具体应用。
3. 信息存储和传输
信息存储(information storage)是将获得的或加工后的信息保存起来,以备将来应用。信息储存不是一个孤立的环节,它始终贯穿于信息处理工作的全过程。信息储存和数据储存应用的设备是相同的,但信息储存强调储存的思路,即为什么要储存这些数据,以什么方式储存这些数据,存在什么介质上,将来有什么用处,对决策可能产生的效果是什么等。第5章介绍的数据库技术就是当前最为通用的一种数据管理和存储技术。
(1)信息存储格式
信息是按照其含义来理解的,当信息转换成计算机的二进制数据时,根据其作用和数据处理的需要可以用不同的编码格式来保存,因此,数据存在不同类型。比如:对于“169”这个符号,当代表169米长度这样的信息时,显然可以用整型数据来保存;如果代表的是169万元人民币这样的信息,则用浮点型数据来保存更恰当;如果表示的是169号门牌号码或电话号码,它仅仅代表1个编号,不会用来参与数学运算,用非数值数据的字符型数据保存;而如果需要将书法大师书写的“169”作为幸运号码长久保存,需要拍照以图像数据类型保存。同样,当一个汉字以字符保存时,保存的是汉字的机内码,可以对汉字进行比较、排序、查找、编辑修改等操作,可以按不同的字体显示和打印出来;如果以艺术字图片保存,就仅能按照片进行处理而不能当作字符来操作。
(2)信息存储介质
计算机中常用的存储设备有硬盘、光盘、U盘等。硬盘、U盘的容量有限,且存在因操作系统崩溃、误操作、病毒破坏等带来数据丢失的风险。光盘通过购买盘片可以达到无限扩容的目的,但检索查找信息以及保存盘片需要花费大量的时间,同样存在因盘片质量或机械损伤导致数据丢失的风险。因此,重要数据需要在不同的介质上做多个备份,降低存储风险。
随着计算机内信息量的不断增加,以往直连式的本地存储系统已无法满足业务数据的海量增长,搭建共享的存储架构,实现数据的统一存储、管理和应用已经成为未来发展趋势,而虚拟存储技术正逐步成为共享存储管理的主流技术。使用虚拟存储技术可以实现存储管理的自动化与智能化,所有的存储资源(磁盘阵列、磁带机、光盘机系统等)在逻辑上看作一个整体,为用户提供海量存储。许多专业公司提供的网络存储也逐渐成为一种较为可靠的存储介质。
(3)数据保护
数据保护系统的建设是一个循序渐进的过程,在建设本地备份系统之后,需要建立一套可靠的远程容灾系统。当灾难发生后,通过备份的数据完整、快速、简捷、可靠地恢复原有系统,以避免因灾难对业务系统造成的损害。只有及时备份数据,做到未雨绸缪,才能在意外发生时从容处置。另外,对信息的安全保密需要通过密码授权甚至数据加密的技术处理来实现。
传递是信息的固有特性,信息只有在不断的传递中,才能发挥更大的作用。信息的传输是利用计算机网络和数字通信网络,实现信息有目的的流动,以满足对信息的需求。
信息本身并不能被传送或接收,必须通过载体(如各种信息的二进制编码)传递;信息传输过程中不能改变其内容,并且发送方和接收方对载体有共同解释。在计算机信息处理中,任何信息都以二进制编码表示,二进制编码成为信息的载体。在第7章将进一步介绍与信息传输相关的知识。
4. 信息检索和综合应用
利用计算机建立信息系统的目的是充分利用已有信息。信息检索(information retrieval)是指信息按一定的方式组织起来,并根据用户的需要找出有关的信息的过程和技术。网络信息搜索是指互联网用户在网络终端,通过特定的网络搜索工具或通过浏览的方式,查找并获取信息的行为。
社会进步的过程就是知识不断生产、流通、再生产的过程。为了全面、有效地利用现有知识和信息,在学习、科学研究和生活过程中,信息检索的时间比例逐渐增高。为此,人们需要熟练使用检索工具,掌握检索语言和检索方法,并能对检索效果进行判断和评价。
计算机中存储的二进制数据以某种约定的格式来表示各种形态的信息。当人们需要检索和利用信息时,总是希望通过人的感官能自然、直观地感受和再现信息。因此,需要通过各种输出设备,将二进制数据以文字、图形、图像、声音、动画、视频等形式还原出来。
1.3.6 新一代信息技术
近10年来,以移动互联网、云计算、大数据为特征的第三代信息技术蓬勃发展。它们与传统产业的融合,正把人们带到一个智能化时代,主导着新一代信息技术的发展方向。新一代信息技术“新”在网络互连的移动化和泛在化、信息处理的集中化和大数据化、信息服务的智能化和个性化。以信息化和工业化深度融合为主要目标的“互联网+”是新一代信息技术的集中体现。
无线通信技术的飞速发展、4G标准的国际化和带宽业务的推广普及,促进了网络互连的移动化和泛在化,使我国逐步从通信大国走向通信强国。目前,我国手机上网用户远远超过桌面计算机用户,以微信为代表的社交网络服务已成为我国互联网的第一大应用,手指经济,一“网”情深,已成为90后群体的生活习惯。正在研发的5G无线通信不只是追求提高通信带宽,而是要构建计算机与通信技术融合的超宽带、低延时、高密度、高可靠、高可信的移动计算与通信的基础设施。以软件定义的互联网和以内容为中心的互联网将继续推动互联网应用在深度和广度上发展。过去几十年信息网络发展实现了计算机与计算机、人与人、人与计算机的交互联系,未来信息网络发展的一个趋势是实现物与物、物与人、物与计算机的交互联系,将互联网拓展到物端,通过无时无刻、无处不在的泛在网络形成人、机、物三元融合的世界,进入万物互联时代。
近几年兴起的云计算将服务器集中在一起,统一调配计算和存储资源,通过虚拟化技术将一台服务器变成多台服务器,能高效率地满足众多用户个性化的并发请求,使计算机从单纯的“算得快”转变为“算得多”,即在用户可容忍的时间内尽量满足更多的用户请求。同时,社交网络的普及应用使广大消费者也成为数据的生产者;传感器和存储技术的发展大大降低了数据采集和存储的成本,使得可供分析的数据爆发式增长;数据已成为像土地和矿产一样重要的战略资源。人们把传统的软件和数据库技术难以处理的海量、多模态、快速变化的数据集称为大数据,如何有效挖掘大数据的价值已成为新一代信息技术发展的重要方向。目前,信息的数字化和网络化已有标准可循,而如何更好地提供个性化、智能化的信息服务,已成为今后信息化的主要努力方向。
1. 云计算
云计算(cloud computing)是由并行计算、分布式计算、网格计算发展来的,是一种新兴的商业计算模型。狭义的云计算指的是厂商通过分布式计算和虚拟化技术搭建数据中心或超级计算机,以免费或按需租用方式向客户提供数据存储、分析以及科学计算等服务。广义的云计算指厂商通过建立网络服务器集群,向各种不同类型客户提供在线软件服务、硬件租借、数据存储、计算分析等不同类型的服务。按通俗的理解,“云”就是存在于互联网上的服务器集群上的资源,它包括硬件资源(服务器、存储器、CPU 等)和软件资源(如应用软件、集成开发环境等)。本地计算机只需要通过互联网发送一个需求信息,“云端”就会有成千上万的计算机为你提供需要的资源并将结果返回到本地计算机。这样,本地计算机几乎不需要做什么,所有的处理都由云计算提供商提供的计算机群来完成。云计算的最终目标是将计算、服务和应用作为一种公共设施提供给公众,使人们能够像使用水、电、煤气和电话那样使用计算机资源。
目前,云计算的主要服务形式有软件即服务(software as a service,Saa S)、平台即服务(platform as a service,Paa S)、基础设施即服务(infrastructure as a service,Iaa S)。Saa S服务提供商将应用软件统一部署在自己的服务器上,用户根据需求通过互联网向厂商订购应用软件服务,服务提供商根据客户所定软件的数量、时间的长短等因素收费,并且通过浏览器向客户提供软件的模式,如Google Docs、Zoho Office等。Paa S把开发软件系统的开发环境作为一种服务来提供,用户在其平台基础上定制开发自己的应用程序并通过其服务器和互联网传递给其他客户,如Google App Engine、Salesforce的force.com平台、八百客的800APP等。Iaa S把厂商的由多台服务器组成的“云端”基础设施,作为计量服务提供给客户。它将内存、I/O设备、存储和计算能力整合成一个虚拟的资源池为用户提供所需的存储资源和虚拟化服务器等服务。这是一种托管型硬件方式,用户付费使用厂商的硬件设施,如Amazon Web服务(AWS)、IBM的Blue Cloud等。
Google Docs也叫Google文件,是最早推出的云计算应用,是软件即服务思想的典型代表。它类似于微软Office的在线办公软件,可以处理和搜索文档、表格、幻灯片,可以通过网络授权和他人分享并共同编辑文档。
2. 大数据
大数据(big data)指的是涉及的数据资料量规模巨大,无法在合理时间内通过人脑甚至主流软件工具进行撷取、管理、处理,将杂乱零碎的海量数据整理成为更有价值的信息。麦肯锡全球研究所认为:大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
大数据的特点是数据量大、数据种类多、要求实时性强、数据所蕴藏的价值大。大数据的应用可以涵盖国民经济的各个领域,如互联网金融、舆情与情报分析、机器翻译、图像与语音识别、智能辅助医疗、商品和广告的智能推荐,等等。大数据必然无法用人脑来推算、估测,或者用单台的计算机进行处理,需要依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。因此,大数据的挖掘和处理必须用到云技术。
未来的时代将不是IT时代,而是DT(data technology)的时代。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。总之,大数据是对大量、动态、能持续的数据,通过运用新系统、新工具、新模型的挖掘,从而获得具有洞察力和新价值的东西。大数据时代要求人们要用大数据思维去发掘数据的潜在价值。与其说是大数据创造了价值,不如说是大数据思维触发了新的价值增长,其关键是人的数据思维。
3. 物联网
物联网(internet of things,Io T)最初在1999年提出。国际电信联盟(ITU)将物联网定义为:通过二维码识读设备、射频识别(RFID)装置、红外感应器、全球定位系统和激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网相连接,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的一种网络。简而言之,物联网就是“物物相连、人物相连的互联网”。
物联网的核心是实现透彻的感知、广泛的互连互通、智慧的处理。利用各种传感、测量、控制设备与系统,使现实社会的人和物具有感知、通信、计算能力,成为智能物体,从而实现更加透彻的感知。在互联网基础上,利用先进的网络通信技术实现任何时间、任何地点的互连互通。利用智能分析与决策技术,提高政府、企业和个人的决策能力。
1.4 实践操作引导
1. 认识指令编码
从“项目素材”的“第1章”中下载C1.C、C1.OBJ、NUM.DAT三个文件,将其保存到D盘根目录下。其中,C1.C为C语言源程序,它依次将两个整数100、-1和三个浮点数123.456、-1.3、-0.25以二进制编码格式写入文件NUM.DAT中。在WIN-TC中编译C1.C之后生成的目标程序(指令代码)为C1.OBJ。通过查看NUM.DAT文件,可以了解整数的补码表示和浮点数的移码(阶数)、原码(尾数)表示方法。这几个文件之间的关系如图1-4所示。
图1-4 程序指令文件及数据文件之间的关系
(1)用“记事本”程序打开C1.C文件,了解该程序的内容。
其中,下列2条语句将在变量中分别保存2个整数和3个浮点数。
int a=100,b=-1; /* 2个整数各占2字节,共4字节 */
float c=123.456,d=-1.3,e=-0.25; /* 3个浮点数占12字节 */
若要用该程序查看127和10.5的编码,如何修改这2条语句。
(2)从本章项目素材中下载并启动Win Hex程序,用Win Hex打开文件C1.OBJ,查看机器指令代码。该文件的长度为______字节。
(3)能判断出C1.OBJ文件中哪些是指令,哪些是数据吗?
提示
Win Hex是德国X−Ways公司开发的一款磁盘编辑工具软件。它能够查看或编辑软盘、硬盘、U盘、CD−ROM、DVD等多种介质存储的数据以及内存、虚拟内存中存储的数据,支持FAT12、FAT16、FAT32和 NTFS等多种格式的文件系统。同时,该软件还可用来查看其他程序中隐藏的文件和数据。计算机专业人士通常借助该软件来检查和修复各种文件,恢复被删除文件,修复硬盘损坏造成的数据丢失,跟踪查找程序密码等。
Win Hex软件的主界面如图1−5所示,分为上、下两部分。上部分显示磁盘目录文件信息,双击可打开该文件夹或文件;下部分为左、右两个窗格,左窗格显示有关磁盘或文件(夹)的信息,右窗格以字节为单位显示各字节的地址和内容,可以选择只显示十六进制数值、文本,或二者皆显示。
图1-5 Win Hex软件的主界面
① 打开文件:“文件”→“打开”→找到需要打开的文件→“打开”。
② 打开磁盘:“工具”→“打开磁盘”→选择磁盘驱动器→“OK”。
③ 查找数据:“搜索”→选择需要查找的数据类型(文本、Hex值、整型、浮点型等)→输入数值→“OK”。
④ 编辑数据:在数据显示区域直接单击该字节的十六进制数值,输入新的数值即可。使用“计算器”工具可以帮助实现各种数制之间的转换。注意不要修改磁盘引导记录、文件目录表等系统敏感数据,以免导致系统崩溃。用户文件中的数据修改后,单击“保存”按钮将修改该文件数据。
⑤ 任何一个存储在计算机中的文件都是由“0”和“1”组成的二进制编码序列。Win Hex可以按文本形式或十六进制形式显示这些文件的内容。1位十六进制数能够表示4位二进制数,每字节对应2位十六进制数。
2. 认识整数和浮点数编码
(1)打开文件NUM.DAT,查看文件的内容(十六进制显示的机器指令和数值数据),如图1-6所示。其中,虚线框下方是为了对数据进行比对说明而标注的十进制和十六进制数值。
图1-6 整数及浮点数的编码
(2)对照图1-6,完成表1-8的填写。认识2字节整数的补码以及4字节浮点数的移码、原码编码方法。
表1-8 数值数据编码
提示
① 不同类型的数据编码占用的字节数不一样。例如,ASCII码字符占用1字节、国标汉字机内码占用2字节、整数占用2字节或4字节、浮点数占用4字节或8字节、RGB颜色一个像素占用3字节。
② 对于占用多个字节的数据,Intel系列微机使用逆序(小端存储)方式存储数据,即低位字节存入低地址,高位字节存入高地址。也就是说,计算机在内存中存储数据以字节为单位按照低字节存入低端地址、高字节存入高端地址的方式保存数据。例如,十进制整数10000的16位补码显示为10 27,编码为2710 H,即00100111 00010000。同理,4字节的浮点数编码顺序同样需要将显示的4个字节反过来书写编码。例如,−0.25的编码显示为00 00 80 BE,编码为BE 80 00 00,即二进制编码为:1 01111101 00000000000000000000000。
③ 对于整数256、−127的2字节补码,可参照1.3.2小节中的整数表示方法进行编码;对于浮点数10.5,可参照1.3.2小节中的浮点数表示方法进行编码。也可以修改程序C1.C中相应的数据,在TC中重新编译运行程序,之后再打开文件NUM.DAT验证数据。
3. 认识文本字符的ASCII码、汉字机内码、UTF-8编码
(1)从“项目素材”的“第1章”中下载“字符编码ANSI.txt”文件。
(2)启动Windows 7系统中的“记事本”程序,打开该文件。其内容为数字、英文字母(含大小写)、全角数字、全角英文字母(含大小写)、汉字“啊”等字符。启动 Win Hex,打开文件“字符编码ANSI.txt”,查看这些字符的十六进制编码,如图1-7所示。
图1-7 字符编码
(3)对照图1-7,完成表1-9的填写。从中可见,英文数字、字母、标点符号与中文(全角)输入的数字、字母、标点符号编码上有何区别?在程序中英文字母A和全角字母A会当作同一个符号看待吗?
表1-9 ASCII码和国标汉字机内码
(4)在记事本程序中将文件“字符编码ANSI.txt”以UTF-8格式另存为“字符编码UTF8.txt”。用Win Hex程序打开该文件,查看其字符的UTF-8编码。与“字符编码ANSI.txt”文件对照,变化为:__________。使用记事本和Win Hex程序查看你姓名的机内码为:______。
提示
UTF−8格式编码对于英文ASCII字符其编码不变,仍然占用1字节;对于国标汉字机内码,则采用全新的编码,以3字节编码。
4. 了解位图文件、音乐文件和视频文件的二进制编码形式
(1)使用“画图”程序创建一个16×1像素的图像,依次用红、绿、蓝、白、黑这5种颜色分别绘制3个点,最后用黄色绘制1个点,形成一个由16个点构成的彩色横线图像,以BMP文件格式保存,文件名为“位图24.bmp”(也可以直接从本章项目素材中下载)。使用Win Hex查看“位图24.bmp”的内容。可见,位图的十六进制编码:红色是______、绿色是______、蓝色是______、白色是______、黑色是______、黄色是 ______。
提示
① 用“画图”绘制图像时,先在“属性”对话框中设置图像尺寸为16像素宽, 1像素高;再在“查看”菜单中用“放大镜”放大图像,直到显示出这16个像素点;最后在调色板中选择颜色,用“铅笔”工具逐个像素点绘制图像。
② Win Hex打开“位图24.bmp”图像后,图像前面的42字节为文件头部信息,之后开始保存各个像素点的颜色值。每个像素的颜色值占用3字节,地址从低到高按照B、G、R顺序保存颜色值。
(2)将“位图24.bmp”文件开始的第1字节(42)、第2字节(4D)均改为“00”之后存盘,在用画图程序打开该文件,会出现什么现象:__________ ,原因是:__________。
(3)将该位图文件分别再用JPEG格式和GIF格式保存。用Win Hex程序查看并比较这些格式的图像文件,观察其文件头部说明内容有什么变化,颜色编码是否仍然相同。
(4)从本章“项目素材”中下载音乐文件、视频文件,并用Win Hex程序查看文件内容和文件的头部格式信息,了解各种类型文件的编码信息。
提示
除了纯文本文件外,其他类型的文件一般都有若干字节的文件头部说明信息,不同类型文件的头部说明信息并不相同。文件头部说明信息被破坏后,文件常常无法正常打开。
1.5 拓展与创新
(1)如果网络教学平台中默认设置的是UTF-8字符编码,而某个同学提交的作业是用“记事本”编写的一篇包含中英文字符的普通文本文件(ANSI编码格式),那么在网络教学平台上直接阅读该文件,会出现什么状况?需要如何解决?
(2)用记事本录入一段短文,存盘后用Win Hex打开,按照某种规律(例如每字节的数字都加 5)逐个修改每字节的内容,保存之后再用记事本打开该文件,会发生什么现象?如何恢复文件原貌?
(3)用Word新建一个空文档(不输入任何字符),保存该文档后,用Win Hex查看其内容,了解文件长度,猜测文件头部说明信息。随意修改部分文件头部说明信息后保存该文件,再用Word打开该文件后会出现什么现象?你从中受到什么启发?
(4)音乐、照片、视频等都有多种文件格式。如何实现不同音乐文件格式之间的转换?若要将一首MP3音乐作为图像颜色数据,以位图方式显示音乐能否可行?
(5)上网查阅有关二维码的编码方法和标准。如何从微信二维码中读取信息?
习题与思考
1.选择题
(1)任何信息在计算机中都表示为______。
A.符号
B.数据
C.二进制数
D.一定格式的二进制序列
(2)十进制数92转换成二进制数和十六进制数分别是______。
A.01101100和61
B.10101011和5D
C.01011100和5C
D.01011000和4F
(3)采用传感器获取信息,涉及的技术主要有传感技术和______。
A.编码技术
B.测量技术
C.压缩解压技术
D.加密解密技术
(4)下列4个数中,数值最大的是______。
A.1000 B
B.100 D
C.78 H
D.115 O
(5)对补码的叙述,______不正确。
A.负数的补码是该数的反码最右加1
B.负数的补码是该数的原码最右加1
C.正数的补码就是该数的原码
D.正数的补码就是该数的反码
(6)国标码是将两字节的______作为汉字标识。
A.最高位置“1”
B.最高位置“0”
C.最低位置“1”
D.最低位置“0”
(7)浮点数之所以能表示很大或很小的数,是因为使用了______。
A.较多的字节
B.较长的尾数
C.阶码
D.符号位
(8)信息处理进入了计算机世界,实质上是进入了______的世界。
A.模拟数字
B.十进制数
C.二进制数
D.抽象数字
(9)已知8位机器码10110100,它是补码时,表示的十进制真值是______。
A.−76
B.76
C.−70
D.−74
(10)下列关于计算思维的说法,错误的是______。
A.计算思维就是计算机的思维方式
B.计算思维的本质是抽象和自动化
C.计算思维是所有人都具备的基本能力
D.计算思维是人的思维而不是机器的思维
2.简答题
(1)简述信息技术与信息素养的关系。
(2)电子计算机为什么采用二进制?
(3)如何才能避免网页中出现乱码?
(4)简述计算机信息处理的基本过程。
(5)什么是云计算?试举例说明云计算的具体应用。