第1章 数据和数据展示
1.1 数据
1.1.1 数据概述
“气象台今天18点发布的报告,本市今天晴,最高气温12.3℃,最低气温5.1℃,偏北风5级。明天天气预报:小雨,10℃—6℃,微风,降水概率70%。”
“16日上证综指突破了3000点关口,以3018.18点大幅高开,午后更创下3036.35点的历史新高。当日上证综指报收于2998.47点,较前一交易日微涨0.18%。”
“截至第四节7分钟,姚明在场上15投5中得到16分,8个篮板、1次助攻、1次断球、1次封盖,并有2次犯规和2次失误。”
“今天本市空气污染指数为78,空气质量描述为良,主要污染物为可吸入颗粒。预计明天空气污染指数为40—50,空气质量描述为优。”
以上四段文字分别用不同类型的数据发布了不同的信息。其中,“晴”、“小雨”、“最低气温12.3℃”、“降水概率70%”、“上证指数3018.18点”、“得分16分”、“8个篮板”、“空气污染指数78”、“空气质量描述‘优’、‘良’”等都是数据。
数据是信息的重要组成部分,每个人时时刻刻都要和数据打交道,数据成为现代社会生活不可或缺的因素。
数据根据其来源和用途可以大致分为科学数据、社会数据和商业数据。科学数据是自然现象、科学试验和工程项目的过程和结果的记录;社会数据是社会非商业活动的事件记录,如人口、教育、犯罪等数据;商业数据是经济和商业活动的记录,如宏观经济数据、股市数据、企业经营数据等。这些分类不是绝对的,例如,环境数据既是科学数据,又是社会数据。
在商业活动中,无论是商业情报、商业计划、商业报表、商业决策,都离不开数据。数据展示和处理技术是商业活动的一项基本技能。本书的核心,就是介绍商业活动中基本的数据处理方法,用各种模型分析和处理数据,以及利用数据进行科学正确的商业决策。
科学数据的主要特征是数据来源、记录过程和数据处理的客观性。科学数据要求数据的客观性和可重复性,数据的获取和处理过程应尽可能避免人为因素的影响。而大多数商业数据本身就是人为活动的结果,而且一些商业数据只能依靠问卷调查来获得。因此,和科学数据相比,商业数据中的人为因素是不可避免的。但是这并不意味着,商业数据可以随心所欲地编造或篡改。和科学数据一样,数据的客观性和可重复性原则同样是商业数据获取和处理的基本原则。即在相同环境下,对于同一个问题,由不同的人一次或多次获取的数据应该没有本质的区别。只有遵从数据客观性和可重复性原则来获取和处理数据,数据处理的结果才有意义。
本书介绍的数据处理、建模技术和决策分析方法,主要针对商业领域。对政府、教育、科研、医疗卫生等非商业行业也是适用的。
1.1.2 数据的分类
1.数值型和属性型数据
数据可以分为数值型数据和属性型数据。数值型数据是用数值来表示的,“12.3℃”、“3018.18点”、“0.18%”、“16分”、“8个篮板”等都是数值型数据。属性型数据是用文字、判断等表示的数据,“晴”、“小雨”、“微风”、“优”、“良”等都是属性型数据。
数值型数据又可以分为连续数值型数据和离散数值型数据。“12.3℃”、“3018.18点”、“0.18%”就是连续数值型数据,“16分”、“8个篮板”等都是离散数值型数据。连续数据可以连续变化,离散数据只能取若干分散的数值,通常离散数据都是整数。
2.静态数据和动态数据
根据数据是否随时间变化,可以分为静态数据和动态数据。静态数据不变化或在所关注的时间段内很少变化,动态数据在该时间段内随时间有明显的变化。例如,某一个人的相关数据如表1.1所示。
表1.1 静态数据和动态数据
3.时间序列数据和截面数据
根据数据的时间属性,可以分为时间序列数据(简称时序数据)和截面数据。时序数据展现不同时间段数据的变化,截面数据表示某一确定的时间段各相关数据的数值。例如,表1.2所列的数据是时序数据,表示从1978年到2004年,城乡家庭恩格尔系数的变化。
表1.2 城乡居民家庭恩格尔系数(%)
表1.3所列数据是截面数据,表示2005年这一时间段内5个城市空气质量的主要指标。
表1.3 城市空气质量指标(2005年)
4.定类数据、定序数据、定距数据和定比数据
根据数据之间的关系,可以分为定类数据、定序数据、定距数据和定比数据。
(1)定类数据:数据分为不同的类,不同类的数据具有不同的单位,对不同类的数据之间求和、计算平均值都是没有意义的。
在表1.4中,户总数(万户)和总人口数(万人)就是不同类的数据,计算某一个县的户总数和总人口数之和,或者计算户总数和总人口数的平均值,都是没有意义的。但总人口数(万人)和男(万人)、女(万人)就是同类数据。同类数据可以相加,同一个县的男人数和女人数之和就是总人口数,男人口数和女人口数之比就是该县人口的性别比。
表1.4 杭州市2005年人口统计表
在某些情况下,不同类别的数据之间可以计算比例,例如,每个县的总人口数与户总数之比,就是该县的户均人口数。
(2)定序数据:数据根据一定的准则,排出一个数据序列。每一个数据都可以确定它在这个序列中的位置,如表1.5所示。
表1.5 重庆地区主要城市环境评价指标
在表1.5中,6个城市环境指标和等级是一组定序数据,这组数据表明它们环境水平的排列次序,但这些评价数据之间的差距和比例是没有意义的。
(3)定距数据:如果一组数值数据,可以比较它们之间的差距,但不能比较它们之间的比例,那么这组数据称为定距数据,如表1.6所示。
表1.6 2005年12个城市平均气温(℃)
在表1.6中,各城市的平均气温之间的差距是有意义的,例如,上海的年平均气温比北京高4℃。但气温的比值没有意义,因为0℃并不是气温的原点。
(4)定比数据:对于一组数值数据,如果数值0是数据的原点,则数据之间可以计算比例。这样的数据称为定比数据,如表1.7所示。
表1.7 2004年12个城市房地产价格指数(2003年价格为100)
很明显,表1.7中各城市的房地产价格指数是可以计算比例的,例如,2004年杭州的房地产价格指数是沈阳的1.087倍。这组定比数据同时也是定序数据,但这些数据之间的差没有意义,因为它们的基数各不相同,因此不是定距数据。
根据以上的讨论,数据分类可以用图1.1表示。
图1.1 数据的分类
1.1.3 数据收集和处理的道德准则和行为规范
数据的客观性和可重复性是数据收集和处理的基本原则,商业数据的收集和处理也必须遵循这些原则。如果违反这些基本原则,获得的数据会造成对实际情况的判断错误,导致决策失误。商业数据收集和处理应该遵循以下行为规范:
(1)应尽可能收集原始数据或称第一手收据,即收集那些经济活动和企业生产经营中产生的、未经处理和变动的数据记录。在数据分析报告中应说明原始数据来源、时段。
(2)如果需要引用别人提供或处理过的数据,首先应该辨别是否侵犯数据提供者的知识产权。在合法引用的前提下,应该详细注明所引用数据的来源,既表示对数据提供者工作的尊重,也便于第三者需要时进一步考证。窃取别人提供的数据,作为自己的成果,是违背学术道德规范的行为。
(3)原始数据中如果有异常数据,应尽可能分析产生异常的原因,并在数据分析报告中加以说明。如果异常数据是孤立或偶然的原因产生的,数据处理中有必要删除这些异常数据,则需要特别加以说明。为了达到事先设定的主观目的,随意增删、篡改客观数据,是违背学术道德规范的行为。
(4)公布数据处理结果时,应该明确说明数据处理的工具、方法以及数据处理的流程,以便别的数据研究者和使用者确信,有关数据经过这样的处理,确实可以得到相应的结论。
(5)通过问卷调查得到的数据,必须说明问卷调查内容、问卷调查表的格式、确定问卷调查对象的原则和方式、问卷发放和回收的渠道和方式、问卷发放数量、回收数量、有效问卷的数量、问卷结果统计方法和统计结果等。
总而言之,商业数据收集和处理与对待科学数据一样,是一项重要的基础工作,必须坚持实事求是的科学精神和严谨务实的科学态度。只有数据收集和处理工作做好了,数据的研究和分析才会有意义。