大数据挖掘技术与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

从20世纪80年代中期开始,我一直在做数据分析工作——最初是做数据库管理信息系统的研发工作,接着从事数据建模工作,后来又做数据仓库系统研发,以及数据共享与交换平台构建的工作。从2015年起,我又开始从事行业大数据分析与数据挖掘工作。2017年年底,因为年龄的原因,我不再从事一线的研发工作,转而扮演技术顾问的角色,并应邀开办大数据技术讲座。出乎意料的是,讲座的反响非常热烈,并陆续接到各种讲课的邀请:有科普性质的,也有专业研讨性质的;既有二三十人的课堂讨论式讲座,也有三四百人的礼堂演讲式讲座,还有听众更广泛的中国电子科技集团内部视频会议方式的讲座。一年来,共开办了20多场大数据技术专题讲座,制作的讲课用幻灯片多达600多张。

2018年5月,我的老领导,也是中国电科首席科学家、大数据与人工智能方面的知名专家,看了我的幻灯片后,建议我以此为素材,结合自己多年的工作经验,写一本大数据技术方面的专著。在领导和同事们的鼓励下,从2018年6月份开始,我一头扎进写作中,经过4个月的努力,终于完成了初稿。由于是第一次写书,很多方面没有经验,遇到了很多困难。幸得中国电子科技集团公司第二十八研究所C4ISR技术国防科技重点实验室主任丁峰研究员鼎力相助,他指派王菁博士协助我整理书稿。王菁博士不仅重新绘制了书中的图、表,补充编写了逻辑回归算法,还为每章增加了思考与练习题,并负责书稿出版的所有事务性工作。

目前,国家正在大力倡导和鼓励大数据技术和产业的发展。但一年多来,通过与关心大数据技术的各个层次人员接触,我发现在具体承担技术决策、管理和研发任务的人员中,有些人对大数据技术的实现途径、能力与限定、关键环节的认识不够透彻,这很容易造成技术决策和方向选择出现偏差。因此,在编写本书时,我不仅要通俗易懂地介绍大数据挖掘技术全貌,还要讲解技术细节和技术难点,以免把这本书写成纯粹的科普读物。书中既要有通俗的比喻,也涉及严谨的数学公式推导;所参考的书籍既有经典、严谨的《数据挖掘 概念与技术》和《信息检索导论》,也有通俗易懂的《世界是随机的 大数据时代的概率统计学》和《图解机器学习》。这是一项十分艰巨的任务,希望这种尝试能够为各个层次的读者都带来帮助。

最后还要感谢我的家人对我的理解和支持,他们免除了我所有的家庭杂务,以使我有充足的时间和精力潜心写作。

周中元
2018年11月于南京