SAS数据统计分析与编程实践
上QQ阅读APP看书,第一时间看更新

1.3 SAS的行业应用

本节讲述SAS的行业应用,按照不同行业的区别叙述SAS在各行业中的应用现状和前景。需要说明的是,笔者的主要工作经历都在医药行业,这是一个与SAS结合最深的行业,目前从数据的采集、转录到整理、分析、报表,都需要SAS的深度应用。但SAS毕竟是一个综合性、集成化的统计分析工具,各个行业都有应用。因为自己能力所限,在其他行业应用上,笔者只好请教高人,总结整理出本节内容。若说东拼西凑也可,若说集思广益也行,总之是一篇总结报告。如果所述内容失之于宏观,完全在笔者理解能力有限,绝非与我探讨的行业精英的问题。

SAS语言,目前可以算是一个小众语言,因为其只应用在特定行业之中,除了第一节提到的医药、交通、金融,SAS的应用场景在教育、销售、咨询等行业中也有一席之地。其主要原因是SAS为收费软件,而且价格不低,导致一般的公司和企业更愿意选择开源免费的数据分析工具,只有数据量巨大、数据安全要求高的企业和行业才会选择SAS。其实,我们也不必为所谓“应用范围”担心,一门主流工具的使用范围,无非是松花江与长江的区别,而我们作为一条小鱼,哪条江都能保证提供足够的食物,非要担心松花江比长江小,其实是杞人忧天。下面我们来说一说SAS在各个行业中的具体应用。

1.3.1 医药行业

从2019年开始,如果你稍微关注科技新闻,就会发现中国和世界的医药企业捷报频传,有的是药厂并购,有的是新药研发。2019年伊始,新基(Celgene)制药被百时美施贵宝公司收购,当天新基制药股票暴涨。仅过了3天,礼来(Elilily)宣布收购Loxo Oncology,后者是一家专门研究癌症的公司,其下药品也是第一款被美国FDA批准可以用于不限癌症种类使用的抑制类药物。10月,美国著名医药公司艾伯唯(Abbvie)宣布收购总部在爱尔兰的医药公司艾尔建(Allergan),后者是神经康复和医疗美容行业的领军品牌。11月,中国制药公司百济神州的新药泽布替尼通过美国FDA批准,在美国上市。

诚然,医药行业作为一个知识密集型、资金密集型的行业,里面汇聚了大量精英和金融资本,作为普通人的我们想要在里面分一杯羹并不容易,但作为行业的从业者,随着行业的扩大和发展,喝得一碗热汤却不那么难。

一款新药开发的流程漫长且繁复,需要8到12年的时间才能完成全部任务,提交上市,等待审批,在过程之中,临床试验数据分析是必不可少的一个环节,而SAS在这个环节中扮演着无可替代的角色。

药物在研究完成后,经过动物试验确认没有问题,方可进行人体临床试验。一般而言,临床试验分为三期:第一期,只检测药物的安全性,即人服用后不会产生严重的副作用,这一试验一般招募10到20名健康人,按照标准计量服用药物,检测人体对药物的耐受性,这也是整个药物试验中最危险的环节;第二期与第三期,都是同时考察药物的安全性与有效性,此时需要使用随机双盲试验的方法,对数十至数百人分别进行分组试验,然后收集实验数据并形成分析结果。每次药物试验的分析结果需要呈报给监管部门审核,当审核通过后才可以开始下一期实验,当第三期药物阶段结果通过审核后,该药物方可正式上市。不过,这并不代表药物试验的结束,在药物上市后,药厂还需要进行范围更大的上市后临床试验,保证药物在大范围人群中使用也不会带来严重的副作用。

从以上过程我们可以看出,人体临床试验会产生大量数据,而数据的存储、整理、分析和可视化则要依靠SAS来完成。美国FDA目前只接受以SAS格式提交的数据,其他格式的数据一概不认。统计分析上FDA并没有限制所用工具,但以笔者的经验来看并没有发现任何例外,所有药厂和合作研究组织(CRO)都选择了SAS作为统计分析的工具。因此可以断言,SAS是药厂数据分析的“御用”工具。

那么我们使用SAS在工作中主要是干什么?我们的工作主要分为两类:一是数据整理,二是统计分析,下面分别介绍。

所谓数据整理,就是将临床试验产生的杂乱无章的数据转化成符合CDISC标准的数据。这里出现了一个新概念——CDISC,这是临床试验分析行业非常重要的数据标准。因为本书并不局限于临床试验数据分析,因此无法展开太多。简而言之,CDISC标准是定义数据怎么记录的标准,它将所有临床试验可能收集到的数据的概念都进行了定义,并规定了一系列控制规定,在不同实验中的相同数据具有相同的概念,方便了药厂分析程序的重复使用,方便了试验流程的标准化,也方便了监管部门的审核。而药厂的SAS程序员的工作就是将试验收集的非CDISC标准数据转化为标准的CDISC数据,在这个过程中,SAS的data步、proc sort、proc means、proc transpose等步骤经常被用到。

所谓数据分析,就是在收集数据之后,我们不能将一堆数据丢到监管部门面前,相反,我们要耐心地把试验结果做成可以反应信息的图表,然后创作审核文档,列出试验组和对照组药物有效和无效的数字分别是多少多少、比值比是多少、置信区间从哪到哪、p-value是多少、显著性是否很强。我们要将数据转化为人们可以理解的信息,然后提供给管理部门进行审核。

以上是临床试验统计分析师最常见的工作内容,它们都需要依靠SAS完成,可以说SAS、FDA和CDISC标准已经形成了一个完整的铁三角关系(见图1-6),在可以遇见的未来,SAS在医药行业中都会占据统治地位,作为唯一的数据分析工具伴随每一个药品临床试验的过程。

图1-6

1.3.2 金融行业

SAS应用的第二个典型场景,就是金融分析,也叫投资分析。需要注意的是,在金融这个大概念下,SAS并不占有绝对领导的地位,而是与其他很多软件,例如Matlab、R语言、SPSS等应用于不同的细分领域中。

SAS在金融或证券市场中,最常用的是处理股票报酬率数据和研究公司财务报表。股票报酬率数据一般从股票市场交易记录中提取出来,包括股票代号、开盘价、收盘价、月成交额、市值、换手率、时间等信息,利用这些信息,可以研究出公司某财务政策的好坏,以及探讨公司价值被高估或低估,因此决定股票的买卖策略。财务报表研究的对象是上市公司每季度向市场发布的财务报表,里面包含销售额、净利润、成本、研发费用、固定资产、折旧、负债率、股票分红等信息,利用这些数据可以分析出一家公司的破产风险指标、客户集中度等信息,更可以与市场中相同行业的其他公司进行对比,选择出最优秀的公司进行投资。

使用数学理论和统计工具的投资方法被称为量化投资,量化投资的量化就需要依赖强大的统计分析软件,其中就包含SAS。使用量化投资的思路,很多专业的投资策略造就了一个个股市的神话,例如巴菲特的价值投资,就是将公司在未来的价值量化,选择那些公司未来价值高于现在市值的公司投资;还有索罗斯的趋势投资,即顺着市场的趋势进行股票买卖;以及目前大热的指数投资法,就是选择某个股票市场的指数股票,不论表现全部购买,等待市场的增长,这种投资方法也导致了近几年股市中的大公司市值不断创出新高。

当然,我并非专业人士,SAS在金融和证券中的应用,也非一言半句可以讲清楚。这里我只想告诉读者,SAS在金融投资中可以发挥重要的作用,如果你计划在未来闯荡金融圈,SAS将是你安身立命的重要技能。

1.3.3 营销行业

下面说一说SAS在营销推广中的应用。

说到中国经济发展的独门绝技,我们很容易想到四个字——世界工厂。自从改革开放以来,中国已经逐步成为世界上最大的商品生产国,门类之全,产业链之复杂,是世界上任何一个国家在短期内无法替代的。同时,在2020年,我国的消费总额历史性地超越美国,成为世界上第一大消费国。与此同时,“消费升级”“国货复兴”等概念也在中国人,尤其是年轻人的心目中逐渐清晰,过去那种“贴牌生产”的商业模式已经过时,在这个时代成功的公司是类似小米、李宁这样懂得品牌营销的公司。

随着营销的重要性日益增长,公司对营销概念的理解也有了迭代。在早期,营销主要关注手段,例如电视广告、户外广告牌、小广告等,并没有注重用户体验和获取反馈数据,当然这也是因为过去的统计手段有限,很难收集相关数据,比如在北京市投放广告,我们可以基本确定西单的户外广告牌的观看人数比顺义某小区广告牌的观看人数更多,但具体多多少,是无法计算的。如今的营销,更多依赖于互联网平台,可以做到精准投放,即把广告推荐给最可能买某个产品的人。此时,数据分析的作用凸显。

200年前的广告大师约翰·沃纳梅克提出过“广告界的哥德巴赫猜想”——我有一半广告投资浪费掉了,但我不知道是哪一半。借助数据的功劳,现在的广告再也不是随便乱投的时代,它可以精确地告诉你每一个人在看了广告多少秒后选择了购买,或者多少人在广告的某一秒选择了关闭。

以上都在强调数据分析在营销行业的重要性,那么SAS究竟为什么可以在营销环节中发挥出神奇的作用呢?原因之一就是SAS拥有强大的建模能力。例如,一款产品所有购买者的性别、族裔、年龄、居住城市、历史消费记录等信息被记录下来,我们可以简单地使用随机森林或决策树模型对数据进行分析,形成预测性模型(见图1-7),在未来可以准确地为每一个广告观看用户计算出购买概率,然后提供针对性的营销方案。

我们可以使用SAS进行某类用户的生存分析,在图1-7中左图中,可以看出男性用户比女性用户的留存度更高,我们就可以有针对性地将男性用户的留存转化为购买,或者针对女性用户提供不同的广告。而图1-7中右图则是随机森林的ROC曲线分析,用于检测模型的拟合度。

图1-7

另外,SAS的Enterprise Guide版本还提供可视化编程,通过拖动操作,建立某些分析模型,保证营销数据分析的快速性和及时性。

通过以上行业的例子,相信大家可以看出,SAS在很多行业中都有所应用。这些行业或者是跟SAS深度捆绑,或者是SAS在其中扮演重要角色。当然,不同行业对SAS功能的使用是不同的,例如医药行业侧重数据的整理,分析所占的工作内容不超过50%,因为SAS的作用是生成向监管部门报告的结果;金融行业更重视分析结果的有效性,所以往往会使用各种复杂的模型,分析的部分占了绝大部分;营销行业偏爱使用Enterprise Guide版本,因为它具有更强的便捷性。在学习的时候,我们一般先要确定自己的兴趣,再有针对性地开始SAS的学习。本书的内容更偏重于基础,所以不论你计划未来从事任何跟SAS相关的职业,都可以用本书做入门的第一步或者系统性的梳理。

在下一章,我们将会开始学习SAS的基础知识,希望大家做好准备,让我们畅游在数据分析的海洋中。