统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

8.3 一个特殊的数据挖掘案例

我们在本章前面提到的有关市场份额估算模型的研究文献,没有涉及用我们的方法研究一个市场份额案例。已经出版的市场份额估算方法都不适用。完整的企业和竞争对手数据(市场份额估算的薄弱环节)是各种模型必需的输入信息。我们要讨论的特殊案例涉及对一家公司进行市场份额估算,该公司了解相关信息,但是只有一部分数据,就是促销数据。

特殊案例:婴儿配方奶粉YUM

婴儿配方奶粉生产商知道,母亲住院生产期间接受的配方奶粉品牌,最有可能在育儿第一年或更久时间继续购买。

配方奶粉生产商也一直寻求与医院合作,为其提供免费试用的产品,以便建立合作关系和品牌忠诚。为住院生产的新妈妈们提供免费配方奶粉有助于培养对品牌的信赖。在新生儿出院时,制造商给新妈妈们提供了一系列含有配方奶粉优惠券的“出院包”。一些厂商同时提供了“母乳喂养”和“配方喂养”包,里面都带有配方奶粉和优惠券。

一家龙头婴儿配方奶粉厂商(就称之为RAL吧)跟踪了新妈妈们对其配方奶粉的使用情况,这些新晋目前采用母乳喂养,只在婴儿出生12个月之后才改用配方奶粉。这些母亲决定了RAL的整个市场销售。然而,RAL只为那些提前选定的医院提供YUM配方奶粉,供新晋母亲在住院期间使用,而这些医院对其市场销售有重要影响。需要注意的是,RAL不是唯一一家向住院生产的新妈妈们提供婴儿配方奶粉的厂商。

RAL给新妈妈们赠送“出院包”。六周之后,RAL会再发一封促销信给新妈妈们,里面装着购买YUM奶粉的打折券。RAL会进行一些有限度的面板数据分析,了解新妈妈们自行报告的出院三个月之后的婴儿配方奶粉使用情况。

RAL希望估算YUM相对其他那些免费提供给医院的婴儿配方奶粉的市场份额。每位新妈妈只有两个市场份额数据可以使用:

1)一个表示新妈妈出院3个月后是否在使用YUM奶粉的二值变量。

2)新妈妈收到的促销打折券。但是没有她们已经使用促销券数量的信息。

RAL想知道促销在计算市场份额时的影响。在构建这个模型时,候选预测变量包含典型的人口、社会经济和地理变量,此外还有态度、偏好和生活方式方面的变量。市场混合变量(marketing-mix)不包含在这套候选预测变量之中。