前言
An organization's ability to learn, and translate that learning into action rapidly, is the ultimate competitive advantage.
Jack Welch
Chairman, General Electric
这是被誉为“世界第一CEO”的杰克·韦尔奇的一句话:一个组织的学习能力,以及快速地把所学到的东西转化为行动的能力,才是这个组织的终极竞争优势。
杰克·韦尔奇在20年内把一个机构臃肿,等级森严,对市场反应迟钝,并且在全球竞争中正走下坡路的GE变成“全美最受推崇公司”。笔者经常思考这句话,对于一个人来说,只要定位清楚、有理想、有远见,打造出有自己竞争优势的学习内容和学习方法应该不是一件难事,但是对于一个组织来说,这个“终极竞争优势”应该如何打造,却不是件容易的事。
“物竞天择,适者生存”是大自然的一个普遍法则,不仅适用于生物体,也适用于企业。而今置身于市场经济且面向全球性激烈竞争的环境下,任何商家的优势都不是单纯地取决于产品、服务和地区等方面的因素,而在于知识,在于创新。谁最先获得有用的知识并转化为行动,谁就可能成为赢家。随着企业信息化的普及,承载信息的数据随着时间的推移而不断积累并与日俱增,使得企业难以从大量数据中找到真正有用的决策信息。因此,企业迫切需要新的技术和方法从大量数据中提取有价值的信息和知识。数据仓库、数据挖掘及建立在它们基础之上的商业智能就是这种技术之一。数据仓库是一种针对大量数据集中进行数据组织与管理的技术,专门用于支持分析型的数据查询,而数据挖掘是从大量数据中寻找蕴涵在其中但尚未被发现的知识,而商业智能则是把这两者应用于商务领域,提高决策效率。
在全球激烈的市场竞争中,只有在市场上领先的企业,才能立于不败之地。商业智能和数据挖掘越来越受到企业的重视,要打造组织的“终极竞争优势”,这应该是一条必经之路。
“社会一旦有技术上的需要,则这种需要就会比十所大学更能把科学推向前进。”正是因为对商业智能和数据挖掘的需求已经成为了一种普遍共识,各大软件厂商才对此趋之若鹜。微软也不例外,在其推出的新版本数据库管理软件SQL Server 2005中,不仅在数据管理方法和数据库应用程序开发方面有了很大的改进,在商业智能方面更是发生了巨大的变化。笔者在BI和DM领域已经工作多年,在SQL Server 2005推出后,第一时间使用了其增强的BI功能,并在学习和应用中有所感悟。笔者认为有必要把这些感悟组织成文,提供给同行和初学者,于是有了本书。以下是关于本书在这些方面的一些说明。
一、本书的内容安排思路
本书的内容和其姊妹篇《SQL Server 2005数据库管理与应用高手修炼指南》相比,实际上是把SQL Server 2005的应用从数据的技术实现提升到了数据的价值实现。除了数据管理方面的组件外,在商业智能方面,SQL Server 2005还提供了分析服务(Analysis Services)、报表服务(Reporting Services)和数据挖掘(Data Mining)的全面集成,数据转换服务(DTS)由SQL服务器集成服务(SSIS)代替。基于SQL Server 2005的这些内部构成原理,本书将着眼点放在数据挖掘和商业智能上,数据库的管理与应用则作为阅读本书的基础。具体的内容安排如下图所示,阴影部分即为SQL Server 2005商业智能和数据挖掘部分,也是本书重点论述的对象。
数据报表、数据分析和数据挖掘是BI的3个层面。不管是用什么软件作为商业智能的平台,一个完整的BI应用都遵循统一的一个流程,这就是BI解决方案的体系结构,如下图所示。本书在安排基于SQL Server的BI系统开发技术内容时,把这个体系结构作为本书结构构成的依据,目的就是希望读者随时都能以系统的眼光来看待BI构建中的每一个细微环节。
从图中可以看到,全书共12章,每一章都可以在BI解决方案体系结构中找到相应的坐标。具体而言每一章的内容是:
第1章 发掘数据金矿的工具:BI与DW、OLAP、DM。先简单地说明企业经营管理活动对商业智能的需求,从而明确实施BI的原因,解决Why的问题;再阐述商业智能的技术构成,大概了解如何实现商业智能,解决What和How的问题;最后列举一些实际的部署商业智能项目结果,解决What Effect的问题。
第2章 构建简单的BI应用:福马特商业智能系统。在内容安排上属于实践中的“务实”,理论上的“务虚”,只着眼于操作过程而忽略其中的深奥理论,目的在于明确一个商业智能应用的全貌。
第3章BI分析的基石:结构良好的数据仓库设计。对数据仓库的设计进行深入学习,把复杂的数据仓库与商业智能理论融入到具体的操作中,探究构建数据仓库的理论和方法。
第4章 用SSIS对数据进行ETL操作。学习针对数据仓库的提取、转换和加载操作。包括SSIS关键元素的使用、一个完整的SSIS包的创建方法、包的调试、包的配置和部署以及SSIS的管理。
第5章SSIS在商业智能中的典型应用。如何用SSIS工具来满足商业智能系统中复杂的数据整合需求。包括SSIS在BI系统中的应用场景,一个复杂的商务应用实例分析,业务数据装载,数据清洗,另外还对SSIS商业智能的应用进行了总结。
第6章 用SSAS进行OLAP操作。这一章的任务就是去实践OLAP理论,并进一步把它转化为实际应用。数据仓库最重要的一个组成部分就是数据立方,因此,数据立方的设计技巧和操作方法也理所当然地成为本章的主要内容。
第7章 数据立方的增强及其应用。包括对维度与度量关系的更改、为Cube增加计算来增强Cube的功能、定义和使用KPI来满足商业需求等。
第8章用MDX扩展OLAP功能。MDX在多维数据库中的应用,不仅为我们提供了便利查询和获取多维数据的有效途径,还扩展了多维数据的视觉化效果,从而使我们的商业智能系统更加符合企业应用的需求,实现强大的功能。本章将针对能够对多数数据进行访问和操作的MDX语言,从简单的语法要素入手,以进阶的方式,学习MDX从基础到高级的应用。
第9章 用SSRS处理智能报表。本章是前面商业智能应用解决方案的继续,把报表服务作为SQL Server 2005提供的BI平台的前端展现部分进行描述。包括报表的基本知识、SSRS的配置与管理、基本报表的增强和报表生成器的使用等内容。
第10章 基于SSAS的商业智能分析。本章的目的是在前面讲述的技术和管理需求之间搭建一座桥梁,使得技术真正能够用来解决商务活动中的实际问题。包括构架商业智能系统的生命周期、商业智能向导、KPI分析、80/20法则的分析和用专业前端展现工具呈现商业信息。
第11章 数据挖掘体系结构与基本使用方法。进入商业智能更深一层次的应用——数据挖掘。包括数据挖掘的基本知识、SQL Server数据挖掘方案的构成和一个完整的数据挖掘示例——线性回归算法(逻辑回归算法,决策树算法,聚类分析算法,Naive Bayes算法和关联算法的使用),还对数据挖掘进行了简单地总结。
第12章 用数据挖掘技术满足商业分析需求。包括商业智能应用中的数据挖掘、潜在客户分析、购物篮分析和数据挖掘的前端展现等知识。