1.3 数据挖掘应用
数据挖掘技术从一开始就是面向应用的。数据挖掘技术应用很广,有大量数据的地方就有数据挖掘的用武之地。目前,应用较好的领域或行业有金融保险业、电信、市场营销分析、医学、体育及生物信息学等领域。下面主要介绍数据挖掘在商业领域和计算机领域方面的应用。
1.3.1 数据挖掘在商业领域中的应用
在商业领域中,典型的应用是商业智能。所谓商业智能(Business Intelligence,BI),是指能够帮助企业确定客户的特点,从而使企业能够为客户提供有针对性的服务,并对自身业务经营做出正确明智决定的工具。商业智能是目前企业界和软件开发行业广泛关注的一个研究方向。IBM建立了专门从事BI方案设计的研究中心,ORACLE、Microsoft等公司纷纷推出了支持BI开发和应用的软件系统。商业智能技术的核心是数据挖掘,所能解决的典型商业问题包括:数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、客户背景分析(Profile Analysis)、交叉销售(Cross-selling)、客户流失分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈检测(Fraud Detection)等。其主要可分为以下几方面。
(1)电子商务
通过智能化的交易平台,电子商务实现企业与顾客双向互动。顾客通过网站了解企业提供的服务,企业通过网站了解用户的喜好和行为模式,从而改进网站的结构,为顾客提供更有针对性的营销手段和服务。在电子商务领域,数据挖掘主要应用于以下几方面:客户关系管理(客户细分、获取与保持)、个性化服务、交叉营销、资源优化。有效的聚类技术和协同过滤的方法有助于识别客户组,将新客户关联到合适的客户组,以推动目标市场。例如,利用聚类技术,根据客户的个人特征和消费数据,可以将客户群体进行细分,然后针对不同的客户群实施不同的营销和服务方式,从而提高客户的满意度;利用分类技术,可以根据顾客的消费水平和基本特征对顾客进行分类,找出对商家有较大利益贡献的重要客户的特征,通过对其提供个性化服务,从而提高他们的忠诚度。
(2)风险分析
客户信用风险分析和欺诈行为预测对企业的财务安全非常重要,利用数据挖掘中的关联分析、离群点检测技术对企业经营管理数据进行分析,如何预测可能将发生的风险?判定哪些因素会导致风险?这些风险主要来自于何处?通过准确、及时地对各种信用风险进行监视、评价、预警和管理,评价这些风险的严重性、发生的可能性及控制这些风险的成本,进而采取有效的规避和监督措施,在信用风险发生之前对其进行预警和控制,趋利避害,防范信用风险。
(3)市场分析和管理
数据挖掘技术可以用于市场营销,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”,通过收集、加工和处理,能够反映消费者消费行为的大量信息,来确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对识别出的消费群体进行特定内容的定向营销。这与传统的不区分消费对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。商业消费信息来自市场中的各种渠道。例如,当客户使用信用卡消费时,商业企业就可以在信用卡结算过程中收集商业消费信息,记录下客户消费的时间、地点、感兴趣的商品或服务、愿意接收的价格水平和支付能力等数据;当客户在申办信用卡、办理驾驶执照、填写商品保修单等其他需要填写表格的场合时,客户的个人信息就存入了相应的业务数据库。企业除了自行收集相关业务信息之外,还可以从其他公司或机构购买此类信息为己所用。
这些来自各种渠道的数据信息通过融合,商家可以挖掘出能够用于向特定消费群体或个体进行定向营销的决策信息。在市场经济比较发达的国家和地区,许多公司都开始在原有信息系统的基础上通过数据挖掘对业务信息进行深度加工,以构筑自己的竞争优势,扩大自己的市场份额。基于数据挖掘的营销对我国当前的市场竞争具有启发意义,我们经常看到繁华商业街上一些厂商对来往行人不分对象地散发大量商品宣传广告,其结果是不需要的人随手丢弃资料,而需要的人并不一定能够轻松得到。如果家电维修服务公司向在商店中刚刚购买家电的消费者邮寄维修服务广告,药品厂商向医院特定门诊就医的病人邮寄广告,那么其营销效果肯定会比漫无目的的营销效果要好很多。
(4)企业危机管理
危机管理是管理领域新出现的研究热点,是以市场竞争中危机的出现为研究起点,分析企业危机产生的原因和过程,研究企业预防危机、应付危机、解决危机的手段和策略,以增强企业的免疫力、应变力和竞争力,使管理者能够及时、准确地获取所需要的信息,迅速捕捉到企业可能发生危机的一切可能事件和先兆,进而采取有效的规避措施。在危机发生之前对其进行控制,趋利避害,从而使企业能够适应迅速变化的市场环境,保持长久的竞争优势。但是由于危机产生的原因复杂,种类繁多,许多因素难以量化,很多因素由于没有历史数据和相应的统计资料,很难进行科学的计算和评估。数据挖掘技术在危机识别、分析和控制等方面都可以发挥作用。
利用Web挖掘收集、整理和分析外部环境信息(包括政策、市场、竞争对手、供求信息等与企业发展有关的信息),利用数据挖掘技术分析企业经营状况(包括企业资金流,生产、供销物资流,客户关系等有关信息),获得企业危机的先兆信息,当出现对企业的生存、发展构成严重威胁的信息时,能及时预警,以便企业采取有效措施规避危机,为管理者及时做出正确决策、调整经营战略提供支持。当危机发生时,利用Web挖掘技术、各种搜索引擎工具、E-mail自动处理工具等,可以快速地获取危机管理所需要的各种信息,以便向客户、社区、新闻界发布有关的危机处理信息,并在各种媒体尤其是单位或部门的网站上公布详细风险防御和危机管理计划,使相关人员能够及时获取危机处理信息及危机最新的进展情况。
(5)欺诈行为检测和异常模式的发现
利用历史数据建立欺骗行为模型,并使用数据挖掘帮助识别类似例子,基于异常分析、分类模型的方法可广泛应用于保险、零售业、信用卡服务、电信等行业。例如:
⊙汽车保险——检测出那些故意制造车祸而索取保险金的人。
⊙医疗保险——检测出潜在的病人。
⊙洗钱——发现可疑的货币交易行为。
⊙银行信用卡和保险行业——识别信用卡、保险欺诈者。
⊙股市——股票交易过程中不良操作、违规交易、异常交易的发现。
⊙电信——电话呼叫欺骗行为检测。
1.3.2 数据挖掘在计算机领域中的应用
(1)信息安全:入侵检测、垃圾邮件的过滤
随着网络上需要进行存储和处理的敏感信息的日益增多,安全问题逐渐成为网络和系统中的首要问题。现代信息安全的内涵已经不局限于信息的保护,而是对整个信息系统的保护和防御,包括对信息的保护、检测、反应和恢复能力等。
传统的信息安全系统概括性差,只能发现模式规定的、已知的入侵行为,难以发现新的入侵行为。人们希望能够对审计数据进行自动的、更高抽象层次的分析,从中提取出具有代表性、概括性的系统特征模式,以便减轻人们的工作量,且能自动发现新的入侵行为。利用数据挖掘、机器学习等智能方法作为入侵检测的数据分析技术,可从海量的安全事件数据中提取出尽可能多的潜在威胁信息,抽象出有利于进行判断和比较的与安全相关的普遍特征,从而发现未知的入侵行为。数据挖掘技术也可以分析比较垃圾邮件与正常邮件的异同,建立垃圾邮件过滤模型,过滤无聊电子邮件和商业广告等方面的垃圾邮件。
(2)互联网信息挖掘
互联网信息挖掘是数据挖掘技术在网络信息处理中的应用,是指利用数据挖掘技术从与Web相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等领域,是一项综合技术。
互联网信息挖掘或Web数据挖掘包括Web结构挖掘、Web使用挖掘、Web内容挖掘。
① Web结构挖掘:挖掘Web上的链接结构,即对Web文档的结构进行挖掘。对于给定的Web文档集合,应该能够通过算法发现它们之间的连接情况。文档之间的超链接反映了文档之间的包含、引用或者从属关系。引用文档对被引用文档的说明往往更客观、更概括、更准确。通过Web页面间的链接信息,可以识别出权威页面、安全隐患(非法链接)等。
② Web使用挖掘:指通过对用户访问行为或Web日志的分析,获得用户的访问模式,建立用户兴趣模型。Web上的Log(日志)记录了包括URL请求、IP地址和时间等用户访问信息。用户在网上冲浪时,会留下大量的网络访问行为信息,通过将数据挖掘算法应用于网络访问日志,对用户的点击以及浏览行为进行分析,深层次挖掘用户兴趣爱好,建立用户兴趣模型,以便为用户提供个性化服务,如智能搜索、个性化商品推荐等。分析和发现Log(日志)中蕴藏的规律,可以识别潜在的客户、跟踪Web服务的质量、侦探用户非法访问行为等。
③ Web内容挖掘:指对Web页面内容及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有用知识的过程。Web内容丰富(包含文本、声音、图片等信息),且构成成分复杂(无结构的、半结构的)。Web内容挖掘与文本挖掘(Text Mining)和Web搜索引擎(Search Engine)等领域密切相关,包括文档自动摘要、文本聚类、文本分类等。
(3)自动问答系统
自动问答系统(automatic Question Answering,Q/A)采用自然语言处理技术,一方面完成对用户疑问的理解,另一方面完成正确答案的生成。该研究涉及计算语言学、信息科学和人工智能,是计算机应用研究的热点之一,其核心是自然语言理解技术。目前,虽然离自然语言完全机器理解尚有很长的距离,但对于一些特定领域,采用一些针对性的方法,已经开发出许多成功的应用。例如,北京理工大学自然语言处理实验室成功完成了银行领域的业务咨询问答系统。百度知道、维基百科(Wikipedia)等利用群体智慧来部分实现自动问答的功能。
目前,自动问答系统的研究方兴未艾,许多科研院所和著名公司都积极参与到该领域的研究中来,如Microsoft、IBM、麻省理工、阿姆斯特丹大学、新加坡国立大学、苏黎世大学、南加州大学、哥伦比亚大学等;国内在自动问答系统方面的研究相对国外较为不足,主要研究单位有中科院计算所、复旦大学、哈尔滨工业大学、北京理工大学、沈阳航空工业学院、香港城市大学、台湾中研院等。
在2011年2月14日至16日举行的有史以来首次广义性人机智力大赛中,IBM超级计算机“沃森”(Watson)击败美国颇受欢迎的智力竞赛节目Jeopardy中的两位最成功的参赛者肯·詹宁斯(Ken Jennings)和布拉德·鲁特(Brad Rutter)。这一事件充分说明,自动问答系统所需技术已经取得了长足的进步。
(4)网络游戏:网络游戏外挂检测、免费用户到付费用户的转化
在网络游戏中,游戏外挂是对游戏运营商最严重的危害之一。所谓网络游戏的外挂,是指玩家利用游戏本身玩法的漏洞或通过作弊程序改变网络游戏软件。外挂会修改、破坏游戏数据,严重的甚至可以造成游戏数据丢失,游戏速度缓慢。外挂为玩家谋取利益、使得游戏运营商遭受损失。利用数据挖掘技术分析玩家的特征,发现游戏的漏洞,可以使游戏本身有自动检测外挂的功能,减少游戏运营商遭受损失。
在网络游戏试玩初期,游戏运营商为了测试和完善网络游戏并快速扩大玩家群,通常会推出游戏免费试玩期。因此,在网络游戏正式运营前就会存在大量的注册用户,这些注册用户会在网络游戏运行后存在很长一段时间。如何把这些注册用户转化成付费客户,真正为游戏运营商带来收益呢?数据挖掘技术的应用使网络游戏运营商能够对注册用户采取差别化营销,对正确的注册用户采用合适的营销手段,从而提高市场营销活动效果,使企业利润最大化。
1.3.3 其他领域中的应用
① 生物信息或基因数据挖掘:大规模的生物信息给数据挖掘提出了新的挑战,需要新的思想的加入。由于生物系统的复杂性及缺乏在分子层上建立的完备的生命组织理论,虽然常规方法仍可以应用于生物数据分析中,但越来越不适用于序列分析问题。机器学习的目的是期望采用如推理、模型拟合及从样本中学习的方法,从数据中自动获得相应的理论。机器学习使得利用计算机从海量生物信息中提取有用知识,发现知识成为可能。
② 情报分析挖掘:目前,数据挖掘技术应用于情报学已经成为学科的热点之一。在经济、军事情报分析挖掘研究中,有许多亟待解决的问题。尤其在实际推广应用中,如数据的复杂化需要更多的领域知识,巨大的数据库对算法的效率提出更高的要求。数据挖掘过程中,人机交互功能以及对内部数据璌个人数据的安全保护等都需要强化。
③ 体育竞赛:美国NBA的30个球队中有25个球队使用了IBM的数据挖掘工具Advanced Scout,通过分析每个对手的数据(盖帽、助攻、犯规等数据)来获得比赛时的对抗优势。
④ 天文学:JPL实验室和Palomar天文台就曾经在数据挖掘工关的帮助下发现了22颗新的恒星。
⑤ 过程控制/质量监督保证:自动发现那些不正常的数据分布,暴露制造和装配操作过程中变化情况和各种因素。
⑥ 化学及制药行业:从各种文献资料中自动抽取有关化学反应的信息,发现新的有用化学成分。
虽然数据挖掘具有广泛应用,但它绝不是无所不能:首先,数据挖掘仅仅是一个工具,而不是有魔力的权杖;其次,数据挖掘得到的预测模型可以告诉你会如何(what will happen),但不能说明为什么会(why)。