Microsoft Power BI 智能大数据分析
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 Power BI——基于云计算的商业分析服务

Power BI 是基于云计算的商业分析服务,旨在通过连接本地或云端数据来帮助用户创建可交互的仪表板和报表,用户可以通过不同移动设备随时随地连接Power BI,统一管理、分享和查看报表及仪表板。在Power BI中,仪表板可以让用户随时把握工作的脉搏,对工作情况了如指掌。Power BI主要由三部分构成:Power BI服务、Power BI Desktop和Power BI Mobile。

1.2.1 Power BI服务——用浏览器实现导入数据、创建、修改报表

Power BI服务是构建在微软云Microsoft Azure上面的一个SaaS(Software as a Service)服务,用户可以通过浏览器直接访问Power BI服务,所以也可以称其为Power BI Web或者Power BI Web服务。通过Power BI服务,用户可以创建或导入内容包,创建或修改报表和仪表板,设置数据网关及数据集的刷新,以及分享报表等。它是Power BI中最为核心的组成部分,也是用户对Power BI最直观的感受。图1-2-1是一张Power BI服务的结构示意图,其中浅色的部分都属于Power BI服务的范围,它在数据与用户之间起到了重要的桥梁作用。

图1-2-1 Power BI服务结构示意图

下面我们来看看Power BI服务中最重要的几个概念。

仪表板:仪表板可以将多个不同报表的数据汇聚到一起,任何报表中的图表都可以被固定到一个相同的仪表板中(在仪表板中叫作磁贴),而且这些图表中的数据也会随着报表内数据的刷新而自动更新。不仅如此,用户还可以向仪表板中添加图像、Web内容、文本框、视频等到仪表板。仪表板特别适合作为公司或者部门的数据展示,所有的重要数据和关键指标都可以被集中展示在一个仪表板中,所以很多用户都会选择把仪表板展示在大屏幕上。仪表板不仅可以用来做展示,还是讲故事(Storytelling)的好工具。因为每个被固定在仪表板中的磁贴都是一个跳转接口,只需要单击一下这个磁贴,Power BI就会跳转到这个磁贴来源的报表上,方便演讲者在某一个论点上展开多维度的详细分析。图1-2-2中展示的就是一个Power BI中的仪表板。

图1-2-2 仪表板

可视化对象:可视化对象也可以叫作视觉对象或可视化,也就是一般意义上的图表。仪表板和报表都是由可视化对象组成的。Power BI 提供了多种可视化对象,让用户以多种方式展现数据。包括:比较图表(柱状图、条形图、分区图、瀑布图),组合图表(树状图、环形图、饼状图),混合对比和组合图表(堆积条形图、堆积柱状图),关系型图表(气泡图),地理图表,百分比图表等。图1-2-3就是Power BI可视化效果模板,从这里用户可以轻松创建图表。除此之外,微软还向公众开放了代码,开发者可以根据需求和喜好构建自定义视图。普通用户也可以根据自己的需要,直接获取第三方视图。

图1-2-3 可视化效果模板

报表(交互式报表):Power BI可以让用户在友好的界面中创建丰满鲜活的交互式报表。一个报表由一系列基于相同数据集的图标和视图构成,图1-2-4展示了Power BI中的一个交互式报表。用户可以从零开始灵活地构建报表、选择准备好的报表(如用Power BI Desktop制作好的报表)、选择相应数据集预制的默认报表,或者添加新视图。如果使用相同的数据涉及需要强调的方面,需要尽可能多地从单一数据库创建报表。报表是仪表板易于查看阅读的基础,报表包含必要的视觉对象、固定报表、内容子集,报表也可以分享到个人用户和企业组织,并在电脑和移动设备上操作。

图1-2-4 交互式报表

自然语言查询:自然语言查询也叫智能问答,是Power BI提供的另一特殊功能。它能够解析自然语言(目前还不支持中文)。用户不需要知道SQL查询语句,更不需要对语法死记硬背,只需要随着自己的思维输入问题,Power BI便能将基于问题的关键字智能化地过滤,并且选择合适的视图进行展示。使用问答功能只需要在仪表板左上方的文本框输入问题即可,操作简洁明了。图1-2-5展示了一个使用自然语言查询的例子。智能问答可以给出答案,答案的视觉对象还可以被固定到仪表板中,方便进一步使用。

图1-2-5 自然语言查询示例

注意

仪表板的图表可能包含了来自多个数据集的数据,因此建议数据模型的相关表名使用简单的词,如果表的名字是英文,应尽量避免缩写。

数据源授权与认证:更新数据和对数据的访问进行加密,在BI解决方案中都是很重要的工作。个人用户使用注册的账户登录网站https://app.powerbi.cn,企业组织用户使用由管理员分发的同一域名下的账户,这些统一组织的账户彼此之间可以轻松地分享仪表板和报表。如果是微软合作同盟Active Directory下面的客户,也能进行数据访问。SSO(单点登录)机制将允许Power BI自动识别企业组织的令牌并相应地根据授权策略发放权限。

Power BI使用安全集成的方式连接数据源,依据已存在的账户登录信息连接特定的数据源。在SSAS(SQL Server Analysis Services)与Power BI连接中,Azure Active Directory应用现有的基于角色的安全性,以及行级安全性来限制数据访问。当用户使用 Power BI查看数据时,数据将保留在Analysis Services多维数据集级别的内部部署中,并应用维度和单元级安全性。当Power BI连接Azure服务时,可以用Azure AD管理认证过程和控制云端环境的访问。在Excel和Power BI Desktop中,商业分析员通过登录信息连接本地的数据源,导入多个数据后发布到Power BI服务,这其中数据网关能够让仪表板和报表保持更新同步。基于多种认证方式,Power BI、Excel、Power BI Desktop可以连接多种数据源,认证方式如表1-2-1所示。

表1-2-1 认证方式

数据刷新:Power BI通过刷新让数据保持最新的状态,通过连接云端的Power BI,可以实现本地数据源的实时刷新、计划刷新等功能。参考界面如图1-2-6所示。

通过Azure的流数据分析或Power BI REST API集成Power BI时,数据将被直接推送到Power BI,因此可以实现仪表板和报表的实时刷新和实时可见。例如,对交通灯、温度等用物联网设备捕获到的实时性较高的数据进行实时分析。通过Power BI连接本地的SQL Server和SSAS,是一种实时连接,它意味着不需要对数据设置计划刷新便能实时查询获取到数据,当导航或单击报表和视觉对象的时候,自动获取到最新的数据反馈。对于 SaaS解决方案,Power BI不需要人为干预便可以日常自动刷新,用户也可以根据需求进行手动刷新。

基于Excel工作簿存储在One Drive for Business或SharePoint上的报表也可以刷新。无须设置刷新,Power BI大约每小时会自动检测Excel工作簿是否存在更新,如果文件有变更,如度量值修改、列的修改、可视化编辑,则这些更改会在一小时内反映在仪表板和报表中。当你需要立即看到更新时,可以使用“立即刷新”功能来手动刷新数据集。

图1-2-6 数据刷新

Power BI的数据同步解决方案是创建本地数据到Power BI服务的数据网关。这些数据网关允许用户从构建的数据源上刷新Power BI Desktop文件中的数据,用户还可以根据自定义的计划手动或自动刷新数据。Power BI 的数据网关分为两种:个人网关和企业网关。两者的本质区别在于企业网关为多个用户设计,因此具有细粒度的访问控制、监控和审计。作为额外的好处,企业网关允许Direct Query连接本地数据源SQL Server数据。Power BI的个人网关和企业网关主要区别如表1-2-2所示。

表1-2-2 个人网关和企业网关的主要区别

Power BI 的数据网关如同桥梁,它起到了连接Power BI服务和数据源的作用,并承担它们之间数据加密传输的中转作用。Power BI服务作为一个公开服务,通常没有办法直接访问那些安全级别较高的数据,例如公司内部网中的数据库或数据仓库等。数据网关首先起到了为Power BI打通内网的功能,使得由Power BI服务发起的数据刷新请求可以最终到达数据源。其次,它保证了数据网关与Power BI服务之间的加密通信。用户可以开启数据网关设置中的 HTTPS 通信,这个设置可以将数据通过加密的方式发送到 Azure 的Service Bus(服务总线)服务,然后Service Bus会根据Power BI的实际需求以安全的方式转发给Power BI的底层服务。数据网关的结构如图1-2-7所示。

图1-2-7 数据网关的结构

1.2.2 Power BI Desktop桌面应用——可视化的报表分析工具

在Power BI组件中,Power BI Desktop是专门用来制作报表的工具,也是Power BI服务配套应用程序之一。相对于以往创建商业智能资源库和报表的分散、不连续的问题, Power BI Desktop 提供的是集成化、简单化、线性化的体验。用户可以连接几乎所有常用类型的数据源,并且使用多种方式构建、转换、分析并浏览数据,以拖动视觉对象放入数据的方式制作报表。对于用户来说,它非常简单易用,只需要简单几步就可以连接上数据源,开始制作需要的报表,不需要经过专业培训。但是作为 BI 解决方案中的重要一环, Power BI Desktop也可以胜任复杂的抽取和转换的任务。

Power BI Desktop提供一个查询编辑器(Query Editor),这个查询编辑器是构建于Power Query之上的一个可视化工具。在用Power BI Desktop 连接数据源之后,用户便可以根据自己的需求对数据进行转换和加工,其中包括移除错误行(不进行抽取)、改变数据类型、展开数据列、合并数据行、检验和修复错误等。对多个查询合并和对已有的查询进行追加,交互式的查询视图能够精确地进行优化。查询编辑器还会捕获用户对数据进行的操作步骤,用户不仅可以浏览整个操作和对应的结果,还可以对过程进行修改,它支持添加、编辑、删除等操作。

Power BI Desktop还提供了数据分析能力,帮助用户构建复杂的数据、创建数据关系、定义多样化的计算、发现关联、标注异常、预测商业收入等。当数据导入到Power BI Desktop中时,它将会自动检测数据关系、数据类别、应用默认摘要并最终自动建立一个数据模型。具体来说,它的 Autodetect(自动检测)功能可以识别所有数据里不同表之间的关系并加以分析。当然,用户也可以根据需要改进模型,例如手动创建关系或调整关系类型,其中包括一对一、一对多、多对一和多对多关系。用户可通过应用单向或双向过滤器对其他视图进行交叉过滤。

为了支持数据分析,Power BI Desktop 还可以定义计算(Calculation)和度量值(Measure)。这些度量值的结果将会被用于报表的求和或平均值等。用户也可以通过数据分析表达式(Data Analysis Expression)DAX语言定义度量值。Power BI Desktop包含了拥有200多个公式的DAX库,极大丰富了报表的内容。通过DAX语言,用户不需要对数据源进行任何修改,便可以按照自己的意图产生需要的计算数据,从而生成需要的报表。

通过多种可视化的方式,用户可以选择、排序浏览数据,也可以过滤数据、交叉过滤数据、钻取数据集,透视和切片数据,改变可视化的方式。图1-2-8展示了一个Power BI Desktop 中的可视化对象,在画布中可通过自由拖动进行数据的选择、转换、整合、创建报表等操作。Power BI Desktop除了丰富的数据优化整合功能外,还提供了直观交互式的报告创作体验。加载数据,自由拖动相关数据进行选择、转换、整合并创建报表,连接数据源之后便可直接进入画布创建报表。

图1-2-8 Power BI Desktop中的可视化对象

当完成报表制作之后,用户可将它保存为.pbix格式的文件。这是一种Power BI专用的格式,文件中包含了从数据源加载的数据。可以保存数据用的模型,并发布到Power BI服务。需要注意的是,正确的共享方式是将报表发布到Power BI服务,然后打包成内容包共享给目标用户。如果将.pbix文件直接发送给其他人,用户则可以访问该文件的全部内容。

1.2.3 Power BI 移动应用——手机端访问交互式报表

Power BI移动应用也是Power BI的重要组成部分之一。在移动互联网时代,手机已经是人们接入互联网最重要的媒介,Power BI也理所当然地提供了手机端的支持。Power BI服务是用户管理和使用报表仪表板的核心组件,它具备最完善的功能。但是在一些实际应用场景中,用户是没有办法使用计算机来访问报表的,而移动设备的Web浏览器又受限于屏幕尺寸,很难以让人满意的效果来展现交互式报表和仪表板。针对这个问题,Power BI为移动应用场景专门设计了解决方案。不管是仪表板还是报表,在设计和开发的过程中,用户都可以直接指定开发的布局模式:桌面布局(Web 布局)和移动布局(电话布局)。默认的桌面布局就是在计算机上看到的效果,而切换至移动布局就可以看到手机上的移动视图预览,如图1-2-9所示。这两个布局是相互独立的,用户可以根据自己的喜好修改设计。

图1-2-9 移动视图预览

除了提供不同的视图效果以外,移动应用还提供了分享、智能问答等功能。甚至还有根据地理位置筛选、二维码分享等一些有趣又实用的移动版专属功能。目前Power BI移动应用已经针对几乎所有主流移动平台提供了专属的移动应用,可用的移动设备有 iOS 设备:iPhone、iPad、iPod Touch和Apple Watch,Android手机和平板电脑,以及Windows 10设备。

1.2.4 Power BI示例展示—— 一家国际公司的全球数据分析案例

Power BI服务中包含了一些行业常用的分析示例和合作伙伴作品展示。对于刚开始接触Power BI或者交互式报表的用户,可以快速导入这些现成的示例报表和仪表板,体验一下它们的效果,直观地体会一下交互式报表的强大功能。

注意

由于示例中使用的数据都来源于Power BI国际版,尽管Power BI的界面支持用户选择自己使用的语言,但是这些示例中的英文数据却没有被汉化。

1.2.4.1 IT支出分析示例

在用户连接了“IT支出分析示例”后,可以看到工作区内出现了以“IT支出分析”(IT Spend Analysis Sample)命名的数据集、报表和仪表板。其中的报表又包含了三页不同的分析报告页,分别是IT支出趋势(IT Spend Trend),支出成本要素(Spend by Cost Element)和计划差异分析(Plan Variance Analysis)。其中工作区在图中最左侧,报表页的选择按钮在下方的黑框内,占绝大部分面积的白色区域都是报表的内容,页面布局如图1-2-10所示。在图中展示的IT支出分析页面上,可以看到四个视觉对象,其中包括按地区划分的计划与差异的柱状图,按业务范围划分的计划差异散点图,按时间划分的计划差异折线图,和按IT分类划分的计划差异区域图。

图1-2-10 页面布局

当用户单击图1-2-10中柱状图中的拉丁美洲区域后,Power BI显示的报表就变成了筛选后的样子,如图1-2-11所示。可以注意到在柱状图中,除了被选中的地区外,其他颜色都变成了浅绿色。表明这个报表内的数据进行了过滤,显示的都是拉丁美洲区域内的数据。例如在右下方的区域图内,由于拉丁美洲的IT分类中只有三类数据,所以区域图中的分类从原本的五类变为了三类。

图1-2-11 拉丁美洲区域筛选结果

这种对数据集从不同维度上进行筛选的操作,通常被称为切片与切碎(Slicing and Dicing)。在大数据行业内,这是非常重要的一个概念。如果需要把一个多维的数据集有效地转变为人能够理解的知识,首先就需要对它的维度进行过滤,然后转换成最直观的表现形式。同样地,当用户单击散点图中的基础设施(Infrastructure)类别的时候,相应地, Power BI也会对数据根据基础设施类别进行筛选。基础设施筛选结果如图1-2-12所示,折线图和区域图都变成了业务范围属于基础设施的数据,而左上角的柱状图变成了两个柱状图嵌套在一个视觉对象中的样子,筛选后的柱状图如图1-2-13所示。当鼠标悬停在视觉对象上面的时候,还可以显示出数据的具体图例。这是由于Power BI支持多种筛选过滤的形式,用户可以根据自己的实际需求进行修改。

图1-2-12 基础设施筛选结果

图1-2-13 筛选后的柱状图

1.2.4.2 客户盈利率示例

再来看一下客户盈利率示例中的团队记分卡报表,如图1-2-14所示。当用户单击左下角柱状图中的1月份的立柱来进行筛选时,就会得到如图1-2-15所示的筛选结果。

图1-2-14 团队记分卡报表

图1-2-15 1月份筛选结果

如果用户希望通过更多维度进行数据筛选,例如:查看Andrew Ma团队11月份的数据,就需要通过Power BI中的切片器来实现。选中图1-2-15中左边方框内的“Andrew Ma”,再根据用户的需求进行交互,则报表的交互结果都将是筛选Andrew Ma团队之后的数据,如图1-2-16所示。

图1-2-16 Andrew Ma团队11月份筛选结果

通过切片器,用户可以达到任意维度的数据筛选。Power BI支持对所有类型的数据进行筛选,而针对不同类型的数据,还可以选择单选、多选及范围选择等。

这种交互式的筛选,要求系统能够对不同的查询进行实时反馈,任何延迟都会造成用户体验值的下降。正是得益于微软的内存计算引擎,Power BI才能达到这种体验效果。需要注意的是,只有被导入到Power BI系统的数据才能获得最佳的交互效果,而使用Direct Query 形式连接的数据源将很大程度上取决于数据源和网络的响应速度,很难保证上佳的用户体验。