SAS数据统计分析与编程实践
上QQ阅读APP看书,第一时间看更新

前言

数据分析,这是一个令人熟悉而又陌生的工作。

随着互联网等科技的发展,很多行业和企业愈发认识到数据的重要性,招聘数据分析师对收集的数据进行处理、分析、统计、建模。更多行业专家也已经发现,数据并不仅仅是资源,它更像土壤,从数据中就可以生长出一个优秀的企业。因此,数据分析行业对于从业者的要求也越来越高,除了过硬的数据分析能力以外,还要求分析师具有跨部门协作能力、大局观和组织能力等。

当前主流的数据分析工具有SAS、Python语言和R语言等,其中Python语言和R语言的使用较为广泛,SAS因为其非开源、付费、授权制等特点,主要应用在诸如医药、金融、市场分析等行业,成为这些行业中数据分析师的必备技能。

SAS经验谈

SAS语言的特点是功能复杂、上手有难度和特定领域应用。

自20世纪60年代诞生以来,历代SAS版本的更新都会加入最新统计分析理论的研究成果,将它们通过简单的SAS语句来实现。时至今日,SAS已经有近千个函数和上百种proc以帮助数据分析师完成各种统计分析工作。每个函数和proc的语法与功能都有差别,这使得SAS构成一个复杂的功能体系,在数据分析中扮演着不可替代的角色。

与一般语言不同,SAS对于新手并不是很友好。SAS的语法比较特殊,将所有与数据处理和分析的功能放到了data步和proc的程序块中,分析师不仅要掌握这些程序块的语法,还需要根据所建立的模型使用不同的语句。很多人在初学SAS的时候发现很难把其他语言的使用经验套用到SAS上,于是花了过多的精力却没有找到重点。

SAS的第三个特点就是其只在特定领域应用,这些领域包括医药、金融、银行、交通等,往往都是资本密集型和技术密集型行业。以笔者所在的医药行业为例,2018年被称为中国的制药元年,从这一年起,中国的制药领域已经摆脱了传统的仿制药研发和制药原材料出口的模式,真正走上了创新药研发的路径。2020年初爆发的新冠疫情,虽然让全世界的经济都蒙上了一层阴影,但也让很多人看到了医药行业发展的潜力。

虽然以上这些行业都是使用SAS作为分析工具,但不同行业的侧重各有不同,例如医药行业会更多使用SAS的数据处理和统计分析功能,金融行业则需要建模功能,如果一开始没有确定自己的行业,很可能导致学习SAS很久后发现很多功能并不会用到。

写作缘起

基于数据分析行业和SAS的特点,笔者萌生出了创作一本SAS进阶提升读物的想法,幸而找到了李翔宇老师合作,共同完成了本书。我一直从事临床试验数据分析工作,与SAS打了多年交道。李翔宇老师在新能源、通信、教育等行业都有过相当成功的项目经验。我们二人的经验也保证了本书既具有专业的深度,也具有视野的广度。

虽然本书只专注于SAS和数据分析行业,但它的创作难度并不低,因为本书不仅仅要帮助读者建立起SAS语法的基本框架,更希望建立起知识体系的逻辑架构,这对于SAS这门发展了数十年、代码系统盘根错节的语言来说绝非易事。更重要的是,笔者与李翔宇老师在本书中提出了优秀数据分析师的“士”型人才模型以及自我提升途径,笔者坚信这是对所有读者更重要的职业发展指导。

另外,笔者在创作时既考虑了行业应用,也着力弱化它。在技术方面,力求讲解SAS中一部分通用的语句和功能,它们在很多工作场景中都会被用到。同时笔者也准备了大量工作中的实战案例,让读者不仅“知道”怎么做,还要真正“学会”怎么做。

本书组织架构

在结构上分为三篇,按照递进的关系讲解SAS和数据分析。

第一篇,首先了解SAS的技术特点、历史等,然后从最简单的data步和proc开始,逐步建立SAS学习的基础框架。

第二篇是在第一篇的基础上,展开学习SAS中相对复杂的功能,包括宏编程、统计分析与假设检验、创建统计图表等,并在该篇最后一章使用一个大型临床试验数据分析案例对所有编程技巧进行总结提升。

第三篇,我们将视野展开,从SAS编程技术上升到数据分析师这个职业和数据分析行业,了解行业全貌,掌握必备技巧。笔者在本书最后一章还提出数据分析师的“士”型人才模型,帮助所有数据分析从业者建立起自我提升的正确途径。

本书读者对象

所面向的读者对象主要包含三类人:

●初入数据分析行业的新人;

●就业多年希望转行到数据分析岗位的人才;

●在校学生。

以上三类读者的需求、现状、自身条件均不相同。初入数据分析行业的从业者往往需要快速提升以适应职场节奏;转行人才则需要对行业整体现状有所了解,才能更好地指导自己的学习工作;在校学生除了技术,更需要掌握一些数据分析经验。

针对这三类读者,笔者在书中除了编程知识的讲解,也将数据分析行业工作流程、技巧和行业发展融汇在本书之中,力求让所有读者在读过之后不仅学会数据分析技术,还能成为一名合格的数据分析师。

源代码下载包

为了方便读者更好地学习本书,笔者将书中源代码整理成下载包,读者可通过以下链接下载获取。

http://www.m.crphdm.com/2020/1119/14297.shtml

备用网盘链接:

https://pan.baidu.com/s/1nGp3RzZV0vbDr6KmI3UpgQ

提取码:rmjp

交流与感谢

本书的内容大都来源于笔者的工作经验,难免存在遗漏或不准确之处。若各位读者在阅读本书的过程中有任何的意见或者建议,欢迎发邮件到笔者的工作邮箱iwenhaoma@gmail.com,笔者会在第一时间给出回复。

感谢中国铁道出版社有限公司全体工作人员为本书出版所做的努力,尤其感谢策划编辑老师长达数个月的付出,为本书做出持续的指导。笔者与编辑老师交流的过程中,经常说到的一句话就是:好的图书一定是经过长期打磨而成的作品,这个道理笔者认为同样适用于数据分析师。一名好的数据分析师不一定一帆风顺、一路坦途,更多的是一路披荆斩棘、奋勇前进。只有沥血的手指,才能弹出不朽的乐章!

愿风雨和青山常伴各位的数据分析之路。

马文豪

2020年7月