洞见数据之密
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

明略技术合伙人杨威:MDP打造新一代高性能、高可用、高安全大数据平台

作者 孟夕

InfoQ:这次特意邀请了明略数据技术合伙人及MDP产品经理杨威先生,一起来聊一聊关于企业大数据处理平台的相关话题。杨威先生您好!首先想请您介绍一下自己,谈一谈之前的一些工作经历,以及现在所从事的主要工作。

杨威:各位好,我是杨威,来自明略数据。在加入明略数据之前我一直在秒针系统工作,期间参与了秒针的广告监测平台、交易平台以及投放平台的建设,后来主导了秒针大数据平台的建设。从2014年加入明略数据之后,参与了一些大型金融企业的大数据平台建设,以及Hadoop数据库相关的建设,之后也参与了一些公安系统以及电信领域的一些大数据平台的建设工作,而现在则主要在明略负责大数据平台产品的研发工作。

InfoQ:您职业生涯的大部分时间里都是在跟大数据平台打交道,那么能否分享一下在之前从事产品设计工作时,印象比较深刻的一件事?

杨威:我参与比较多的确实还是跟大数据平台技术相关的工作,印象比较深刻的应该是在秒针系统介入到大数据平台业务的这个阶段中所做的一些工作,因为这个阶段相当于大数据平台产品的研发雏形阶段。

建立秒针大数据平台的原因,其实是因为企业对于大数据平台的一种典型需求——首先要面对的就是海量数据,因为每天都有上百亿的曝光数据需要处理;其次还要面临海量的运算需求,因为每天都需要统计所有的广告曝光、PV、UV等数据,此外还有其他各种各样运算类型的需求,比如实时计算、反作弊广告监测等,这其中既有实时的计算系统,同时也有离线的批量计算系统以及数据挖掘系统,另外还有用户画像、用户模型的建立等等。

除此之外,秒针大数据平台还处在多租户的环境下,比如秒针内部本身就有多个部门在使用该平台,大家要在这个平台上共享计算资源,并且要共同使用这个平台上的数据,而这就会产生很多权限和资源方面的管理需求,接着这些需求其实在后来明略的产品设计过程当中,都会被抽象成一个企业级大数据平台产品的需求,然后在整个秒针大数据平台的建设过程当中,我们自然而然的就积累很多这方面的经验,最后变成我们产品的一些功能的实现,然后能够应用在现在的很多大数据平台建设中。

InfoQ:在明略数据工作的两年时间里,您感受到了一种什么样的技术团队的文化?这种文化氛围对您产生了什么影响?

杨威:明略其实是一家非常新的技术公司,马上就要到它的两周年生日了。明略的技术氛围是一种既温和又热烈的技术氛围。温和其实是体现在这种人与人之间的关系上,包括上下级之间的关系。无论是CTO还是CEO,在平常很多工作生活当中都可以直接与他们接触和沟通,他们也会经常与我们沟通公司的一些发展情况、行业发展情况等等,大家并没有一种上下级的隔阂关系,反而是一种非常融洽的共同奋斗的关系。

而热烈则体现在大家对技术的追求上,明略虽然是很新的技术公司,但是在开源领域投入得非常多。作为初创型公司,这非常难得。明略在很多开源社区里都有代码提交者,除了在完成自身的工作之外,公司也将很多资源投入到了开源技术方面,这是在很多其他公司都很难看到的情况。

这使得明略的整个技术氛围都是非常先进、前卫的。比如针对前段时间的AlphaGo围棋赛,明略内部就曾安排了深度学习领域的大牛来给大家整体介绍AlphaGo是利用什么机制来实现的人工智能,以及战胜世界顶级围棋选手的原因是什么。在这样的氛围内,大家就可以很轻松地接触到当前大数据或人工智能领域最先进的技术或者是一些新的技术理念,这对大家的提升是非常有帮助的。

InfoQ:去年10月份的时候明略数据公布了最新的大数据平台产品MDP,那么能否请您介绍一下MDP?

杨威:谈到大数据平台,可能需要先说一下对企业IT系统的理解。企业IT系统一般分为两种类型,一种是交易型的系统,与企业业务相关,比如说银行交易系统或者电商交易系统,一般是建立在关系型数据库上的业务系统,这一类系统的系统特点是不同的业务部门都有自己的一套系统,比如财务、ERP等等都属于这样的系统;另外一类IT系统,比如以前有些企业会做自己的分析平台,或者是自己的数据仓库,这就是分析型的平台系统。

那么随着大数据平台相关技术的完善,企业其实完全可以构建统一的分析型平台,这个分析型平台能够介入企业现有的所有业务系统的数据。这种交易系统里面的数据以及外部的数据资源,可以在统一的平台上面进行数据分析、数据挖掘,产生新的数据价值。

这种平台的建设就可以称之为企业的大数据平台,那么MDP其实就是一个大数据平台的技术的实现,可以帮助企业建设自己的的大数据平台,帮助企业接入业务系统里面的各种各样的数据,能够在上面支撑很多的不同的数据应用,另外这还是一个分布式的、可扩展的平台,不像上一代的数据仓库技术受限于技术框架限制,可扩展性非常有限,而现在的大数据平台的扩展性可以达到成百上千台的机器,计算资源其实是非常庞大的。在今后建设大数据平台过程中,一家企业只需要一个这样的平台就可以承担所有的分析性的计算应用。

InfoQ:明略数据的上一代数据平台产品叫做BDP,那么能否请您谈一谈MDP和BDP的区别?而MDP是否在数据存储、高性能计算框架、以及安全防控方面又有所加强呢?

杨威:MDP这一代产品的主要增强都体现在了企业级需求上面,比如说高性能、高可靠、安全以及易用性,这些方面都有了很大提升,尤其在高性能方面涉及的比较多。首先来说,运用了几种不同的计算手段,比如实时SQL分析的手段,引入了最新的Impala 2.3版本,计算性能非常好,MPP计算架构可以并行处理整个平台上面的数据,进行SQL查询分析。而内存方面则引入了Spark 1.6的版本,这也是Spark最新一代的引擎,其内存迭代计算,以及新的DataFrame接口能够非常方便的进行数据处理,使得在MDP在内存计算方面上了一个新的台阶。

另一个企业级的非常重要的需求就是高可用,这方面明略也做了非常多的工作,新的MDP提供了一套从网络层面到系统设置再到整个产品内部的这种服务进程,以及包括产品内部的源数据,就是说在这种情况下任何一个网口、一台交换机,或者一台服务器,甚至一块硬盘、一个进程坏掉,都不会影响整个平台服务的正常运行,MDP能够以7×24小时、5个9的方式保证企业的服务正常运转。

还有一个就是安全方面,企业的数据安全也是明略数据非常关注的一个点,因此MDP从主机安全、网络安全、服务安全和数据安全,四个角度来构建了平台级的企业级数据安全保障的。

InfoQ:在去年明略产品发布会上,另外一个提的比较多的话题就是数据关系挖掘,是否可以请您谈一谈如何从大数据平台建设的角度,帮助企业级用户做好数据关系挖掘?

杨威:数据关系挖掘其实就是接入企业各种各样不同的数据源,然后把这些数据在一起做关联挖掘他们之间的关系,这个过程其实涉及到几个方面,首先,有能力接入非常多的数据源,比如可以支持这种传统的关联数据库的接入,也能够支持一些非结构化的数据的接入,比如网页数据、音频、视频数据的接入等等,在接入这些数据之后,它要将这些数据进行关联分析,就要提供很多关联分析的存储和计算的手段,那么关系的存储可能我们会提供一些图数据库来支持关联分析应用,能够在这个过程当中存储它的实体之间的关系,分析型的话我们前面提到会提供像Spark这样的内存迭代式引擎来帮助关系的应用,利用这个引擎来引入一些关联分析,还有一点就是,本身来说这些数据也是关系到整个企业的非常多个业务的核心数据,在数据安全性的保障方面也是要做非常多的工作,我们要提供非常细力度的这种数据的权限控制手段来保证敏感数据不被一些无关的用户所看到。

最后还有一点就是关联分析它的整个平台资源消耗也是非常高的,明略需要提供一个非常好的资源管控和隔离手段来保证关联分析应用的资源不被其他的应用所抢断,明略是通过Cgroup来控制来给关联分析应用的资源分配的。那么,主要是从这几方面,一个是数据的接入,第二是数据的关联数据的存储以及关联分析的手段的支持,最终从数据安全和条线隔离、资源隔离几方面对关联分析提供支撑。

InfoQ:今年大数据领域又出现了一些新的热点,比如说数据湖、人工智能,还有像刚才说的阿尔发狗,那么您认为今年在企业级的数据安全技术方面又出现了哪些新的变化呢?

杨威:今年企业技术数据安全有两方面变化,一个是从传统的数据安全保护的手段来看,它是从离线这种分析转向实时预警的方式,从大数据平台中来看就是以前可能大家都尽可能事前做一些规则的限制,限制某些用户对某些数据的访问权限,通过这种方式来限制。当然以前也有审计的手段,审计的时候记录用户的数据访问限制,但是现在会有实时的对这种访问限制的分析和预警,而且这个预警可能是一种不是基于规则,而是基于特征发现的基于数据挖掘手段来进行。

典型的就是比如现在有一个项目叫Apache Eagle,这是eBay研发出来的一个项目,它能够分析整个大数据平台上面用户对数据的访问,能够实时的监控对敏感数据的访问,以及就是越过规则的一些访问操作,另外它还是能够通过对用户行为的分析建立这种用户行为的特征值,然后通过这种异常发生在异常空间里面异常访问行为空间里面的一些用户行为对它发出报警,这就是一些更快速然后也更智能的对数据安全的保护,另一方面其实是体现到受到这个数据安全现在比较火的这种数据交易。

企业在数据交易过程当中怎样保证数据的安全,这里面其实也有几个方面的事情了,一个是在数据交易过程当中怎样保护用户的隐私不被泄露,那么这可能涉及到用户数据脱敏的一些工作,第二个事情就是在数据交易的过程当中怎样保证数据双方的交易双方的数据价值不被窃取或者丢失,因为数据本身是一个可复制的、可copy的一个东西,如果说买方买走了数据就随意的应用,那么对卖方是一个很大的打击,另外一方面就是说如果卖方随意把数据以很低的价格随便卖,那对买方也是一个很不能接受的事情,因为这个数据还是有唯一性和稀缺性这种特点的,所以要保证这方面特点在平台方面也要做很多工作。

我们要从这些方面保证数据安全或者保证数据价值的话,其实都是只能从技术手段解决,技术手段我们其实是在交易双方都做了限制,其实双方都是用的我们这个MDP平台,无论是这个数据的输出和数据的接入都是由MDP来负责做技术上的处理的,从这种手段上面来保证双方的价值都不会被伤害。

InfoQ:能否具体谈谈如何从网络、服务、运维这几个层面来把控企业数据安全?

杨威:网络层面以前做的比较多,一般来说就是网络隔离、网口的限制等等,这个通常企业里面已经做的比较完善了。服务方面,我们主要说的是平台内部的服务,它其实是包含了几个层次,首先平台内部服务之间的数据交互是有一个传输的通道的,这个通道我们是做了加密限制的,第二是说服务平台,服务对外部提供数据访问接口的时候,这些接口都是提供加密的手段,第三个就是服务本身的使用权限限制,不同用户有不同的服务使用权限限制,以及每个服务内部可能有自己的不同的使用的服务,就是不同级别或者不同力度的这种控制,比如说有的人可以提交查询,有的人可以杀死别人的查询,有的人可以申请更多的资源,有的人可能就是只能用自己的资源,这些非常细力度的控制我们也提供一个接口来控制,还有的就是服务的上层,比如输出数据这个地方,我们也提供数据脱敏的手段来避免敏感数据泄露出去。

另外从大数据平台角度来看,整个平台运维也是很重要一点,区别于以往的这种像关系型数据库里面的运维决策,以前关系型数据库里面非常关键一个角色叫DBA,它其实是一个系统的最高权限管理员,最高权限人员拥有所有的数据访问权限以及所有的相关的运维操作的权限,在明略数据平台里面其实是把这样一个角色分成两部分,一部分是运维的角色,另外一部分是权限管理角色,运维角色只有对平台的运维权限可以去服务、去操作配置文件、看日志等这些操作,但是其实是访问不了这里面数据的,而另一个权限管理员,可以给每个帐号分配你可以看到哪些数据的权限,两个角色拆分来看,保证了运维人员权限不会像以前在关系型数据那么高,没有数据权限,从而保证数据的安全。

InfoQ:您刚才也提到数据脱敏,那么是否可以详细谈谈数据脱敏应用场景以及里面涉及到哪些技术关键点?

杨威:数据脱敏应用场景以前也存在,就是当你需要把一份数据交给第三方的时候,其中肯定会有很多敏感数据的,比如有时候可能会存在个人身份信息,这样的数据通常来说是企业不能把它转交给第三方的,但是又有很多时候你要转给其他的企业数据,你不得不面临你需要暴露出一些这种类似的数据,或者需要有一些特征,在这个时候就需要用到数据脱敏这种应用。

脱敏这种手段其实有很多种,最简单一种就是遮掩,我们把关键的链给它mark掉,用特殊符号代替或者怎样,另一种手段就是扰动,我们在里面做随机的扰动,使得数据变得不真实,这些都是一些比较简单的手段,这些手段确实能够避免隐私数据的丢失,但是它同时丢失了数据本身的统计特征,因为扰动是随机的或者遮掩是随机的,那么它原来应该带有一定的数据统计特征,比如北京地区的总收入应该在什么样的一个水平,上海地区的平均收入应该在什么样的水平,一旦随机做了扰动之后统计特征就丢失了,对于数据使用方来说数据价值就降低了。

那么在这些简单的方法之外还有很多更高级的方法,它能够使数据在数据脱敏过程当中不会丢失,这其实有一些像我们自己的系统里面已经实现这样一些类似的方法,能够保证数据在脱敏过程当中这些数据统计价值不会丢失,能保留数据的统计意义。

InfoQ:那么从大数据平台应用这个角度来看,目前传统行业以及政府部门主要集中在哪些地方应用情况比较多?

杨威:无论是政府或者企业,有两类部门的应用对大数据平台建设需求比较多,一类部门就是本身就是自己的原来的核心的业务部门,比如说在一些焦点的业务部门,比如说在政府领域,像交通行业,交通部门就是非常典型的交警的行业,因为大家对交通问题非常关心,在交通行业应用大数据平台非常多,他们的大数据平台建设走在前面的行列,比如说在银行领域就是这种风控部门,风控部门是现代部门,因为现在业务面临很大压力,而且这些部门通常IT技术走的非常先进,所以他们也是一个使用大数据技术处在前列的一个位置。

另一方面就是企业的IT部门,就是说除了业务部门主动发起大数据平台建设之外,IT部门也会考虑主动建设大数据平台,因为前面我提到就是在一个企业里面通常最终只会有一个大数据的分析型的平台,这种分析型平台管理和维护通常由IT部门统一进行,所以IT部门统一建个大数据平台也是非常常见的。

InfoQ:您能否介绍一个比较成功的MDP平台的应用案例么?

杨威:可以说一个电信行业的应用案例。现在大家都有手机,手机可以上网可以打电话,那么它其实在不上网不打电话的时候会发出去很多数据,其实就是说现在手机跟电信公司的通信都是会产生很多数据的,而明略建设的这个平台就是所有手机通信数据的一个存储和查询平台。

比如说一个省的数据,大概每天有数十T的数据进入这个平台,那么其需求就是要很快能够查到一个人所有的通信的数据,以及在任何一个时间段和时间点都能够分析出其通讯信号的好坏,或者详细的话费情况、流量情况等等。

在这样的背景下,另外还有一个要求就是高可用,因为是电信领域的在线业务系统,它是前端,是面对很多这种客服人员的查询需求的,那么它就不允许出现任何一分钟的业务中断。这就对高可用提出很高的要求,而明略则从网络层面到系统层面到明略自己内部的服务层面都提供了各种高可用的支持,以保证任何一个节点的故障都不会导致整个平台服务的不可用,而且最终这个平台也体现了非常好的性能,其在任意查询一个个人账户在半年之内任何时间段的通话记录可以在秒级的时间内返回结果。

InfoQ:您认为今年的大数据平台建设方面出现了哪些新的趋势吗?

杨威:其实也不是今年,从去年或者甚至前年就开始了,一个比较明显的趋势就是企业的IT数据越来越多的搬到云上面去,他们也会有非常强烈的需求把大数据平台建设在云上面,从国外大数据平台公司比如Cloudera,以及Hortonworks,他们都已经提前布局把大数据平台部署到云上面,我们其实也在和云厂商合作,然后把明略自己的MDP部署到这些不同的这种云的公有云上面去,以便用户能够非常快速的在云上面实现平台的部署。