第三节 事务之间的关联规则与相关性表现
在讲述业态之间的关联规则前,先讲述一下事务关联规则。
在很多人的概念里,甚至在很多统计学、数据分析的专著中,经常会把事务之间的关联规则以及相关性表述为同一件事情的不同概念,但是本书认为,事务之间的关联规则与事务之间的相关性不是一个概念。
一、事务之间的关联规则
从数据挖掘的角度来看,事务之间的关联规则,指的是事务之间存在某些频繁出现的规律或模式,从严格意义上讲,具有关联规则的事务必须满足以下两个条件:
第一,具有关联规则的事务必须共同处于邻近的物理空间内,即产生关联规则的事务之间必须具有相同的物理空间属性。
第二,具有关联规则的事务的发生必须是时间序列模式,即发生关联规则的事务之间具备时间前后顺序。
因此,事务具备关联规则的基本条件,首先要求产生关联规则的事务必须发生在相同的物理空间内,如果两种事务不是位于共同的物理空间内,就不是严格意义上的关联规则,而可能是后面提及的事务之间的相关性的表现。
在大多数场合,事务之间的关联规则可能代表着事务之间存在因果关系。
按照关联规则的属性,事务之间的关联规则可以分为以下三种基本类型:
1.正向关联
事务之间的正向关联,指的是不同事务会按照确定的频率同时出现的频繁集合模式。(1)
2.负向关联
事务之间的负向关联,指的是不同事务会按照确定的频率、按照相反的方向同时出现的频繁集合模式。
3.无关关联
事务之间的无关关联,指的是不同事务会同时出现,或同时不出现的频率和模式为随机模式,此时可以定义事务之间无关联规则。
二、事务之间的相关性
事务之间的相关性指的是按照统计学的方法,对事务之间的某些指标进行相关性数据分析,根据统计的结果,确定事务之间是否存在统计学意义的相关性及其相关性的强弱属性。
事务之间具有相关性不需要事务一定存在于相同的空间内,对于事务发生的时间序列要求也不严。
事务之间的相关性往往不代表事务之间具有因果关系。
分析事务之间相关性指标的方法很多,如后续介绍的皮尔森相关系数等。
统计学意义的相关性具有正相关(2)、负相关、无关三种基本属性,这三种相关属性对应了事务之间相关性数值的不同范围。以皮尔森相关系数为例,R值的范围在-1~1,R值接近1,代表事务之间的强正相关性;R值接近-1,代表事务之间的强负相关性;R值接近0,代表事务之间可能是无关。
事务之间的相关性表现往往不一定限定在特定的空间范围内,只要两种事务之间呈现了具有统计学意义的相关性,就值得关注。事务之间的相关性分析往往是一种探索性的先验分析方法,即先对事务之间的相关性进行定性分析,确定了事务之间具有有实际意义的相关性后,再进行定量分析。
对事务之间的相关性进行定量分析后,就可以找出事务之间的相关性属性以及相关性强弱程度,以此确定事务之间的相关性对应的商业逻辑,及其是否具有商业价值。
三、事务之间的关联规则与相关性
事务之间的关联规则与事务之间的相关性经常被当作同一事务的不同侧面,但是在本书中,对这两个概念进行了区分。
事务之间的关联规则代表了一种事务之间出现的频率及模式的关系,在商业领域真正有意义的关联规则必须具有相同的时间序列、空间属性,也就是必须限定于相同的商业生态圈或者相同的商业空间。事务之间的关联规则有直接关联和间接关联两种基本形式,商业领域关注的关联规则大多为直接关联形式。
事务之间的相关性只是事务之间某些指标具有统计学意义的相关性,指标间呈现的相关性代表了事务同时出现的概率和模式,是某些事务的某些指标形成了统计学层面上的数据映射,这种数据映射可能是由事务之间的关联规则形成的(有可能是间接关联),也有可能是其他因素造成的,这种数据相关性经常不代表事务之间具备关联规则。
事务之间的关联规则必然表现为一种确定的数据相关性表现,差别在于,在商业领域,事务之间的关联规则可以使用商业知识、商业逻辑予以解释,而最佳的解释方式就是通过消费者行为予以揭示,而事务之间的数据相关性表现往往无法通过知识或商业逻辑进行解释。因此,事务之间的关联规则必定对应了事务之间的数据相关性表现,而事务之间的数据相关性表现并不一定代表事务之间必然具有关联规则。
很多统计界、数据挖掘界的人士遇到过这种情况:判断具有相关性数据表现指标的事务之间是否具有关联规则,与数据分析本身无关,而需要到现场、需要资深业内人士利用丰富的业务知识才可以辨别,因此事务的相关性与关联规则之间的差别,常被有意无意地忽略了。
我们经常会发现,事务之间的关联规则与数据相关性有时可以忽略不计,有时可将关联规则与数据相关性对等,而有时不能。因而完全将关联规则与数据相关性对等,就会对实际的商业逻辑及商业现实产生误导,对关联事务的知识解释会“失之毫厘,谬以千里”。
四、商业领域常见的关联规则与相关性
商业领域存在大量的事务之间关联规则与数据相关性,我们以零售场所的购物中心为例予以说明。
在购物中心的业态组合中,业态关联指的是同一个消费群体会在不同的店铺进行交叉消费,这种交叉消费行为会出现在同一个商业建筑空间内,消费者的交叉消费行为具有明确的时间序列特征,即某个消费群体可能是先去服装店购买服饰,然后去餐厅就餐,最后去娱乐场所娱乐,这种店铺之间的交叉消费行为必然发生在同一个商业建筑空间内,按照时间顺序前后完成。这种交叉消费形成一种固定的模式后,我们称其为业态关联模式。
而店铺之间的数据相关性,指的是店铺之间某个统计指标存在统计学意义上的相关性数据表现。例如,将某电影院与某服装店的客流量进行皮尔森相关系数分析,发现两个店铺的客流量呈现正相关性,说明两家店铺的客流量具有同升同降的特性,但不一定代表两家店铺的消费群体进行了交叉消费,如购买了服装的消费者又去看了电影。
这种数据相关性可能对应了同一个消费群体在购买服装后,又去看了电影,也可是对应了两个消费群体的各自消费行为,只是由于某些因素(如节假日),不同的客流同时出现在两家店铺,导致了店铺之间统计学意义上的相关性,店铺层面的相关性不代表店铺之间的关联规则。
同样在美食街、美食中心,可以看到大量关联规则与相关性完全无关的典型案例。
例如,在购物中心的美食街、美食中心会有很多餐饮店,对这些餐饮店的销售数据进行相关性分析发现,大多数店铺之间会呈现很强的正相关性,即一家店铺销售状态好,别的店铺销售状况也不会太差,一家店铺销售状况出现问题,其他家店铺的销售额也会随之下降。
餐饮业与其他业态不同,一般不存在消费者交叉消费的情况,如消费者在一家店铺吃了饭,不会马上去第二家店铺再吃一顿。
在这种情况下,店铺之间的数据相关性不代表店铺之间的关联规则。
要想验证店铺之间的数据相关性是否对应了店铺之间的关联规则,需要采用多种数据源、多种数据分析手段,尤其是通过商业逻辑,才可以验证店铺之间是否存在交叉消费行为。