前言
随着信息技术的不断普及和互联网的飞速发展,在电子商务、社交网络、网络营销等领域,信息呈爆炸性增长,不可避免地引发了大数据和信息过载问题。以电子商务为例,持续增加的商品和服务虽然丰富了用户的选择,但用户在找到自己需要的商品之前,往往需要浏览大量有用或无用的信息,致使信息使用效率下降。推荐系统作为帮助用户发现其感兴趣的物品、解决信息过载问题的重要工具应运而生。亚马逊和Netflix公司是应用推荐系统促进商品销售和服务提供的典型案例。20世纪90年代以来,推荐系统方面的研究成果不断涌现。尤其近年来,互联网用户数量呈现爆炸式增长,社交网络异军突起。美国著名的尼尔森调查机构针对“影响用户相信某个推荐的因素”的调查结果显示,相较于一般的推荐来说,近百分之九十的用户会相信朋友对他们的推荐。基于社交信任的推荐算法也得到广泛的关注与研究,大量的研究结果表明其可以提高推荐的质量。
在此背景下,本书结合社交网络带来的社交信任、电子商务中的用户兴趣和旅游景点推荐中的地理位置等现实问题,运用网络科学的理论,系统研究网络科学视角下的推荐系统问题。具体来说,本书的创新研究工作主要体现在以下几个方面。
第一,基于二分图和选择性随机游走的推荐系统研究。复杂网络推荐算法的经典算法是基于二分图网络结构的推荐算法,但以往研究通常不考虑用户对项目的显式评分或直接排除低分项目,造成信息丢失,使数据更加稀疏。针对此问题,在用户推荐能量流动时充分考虑用户对项目的显式评分,提出用户兴趣相似系数和用户评分代表能力两个概念,设计基于二分图的多参数网络结构推荐改进算法,有效地提高推荐算法的准确性,使推荐服务更好地满足用户的偏好需求。传统协同过滤推荐算法存在可扩展性差、多样性低、多样性与准确性不平衡问题。运用网络科学理论,将显式用户行为数据与隐式用户行为数据分别映射为有权二分图与无权二分图。在网络局部范围使用选择性随机游走代替传统的Pearson相关系数、余弦相似度或修正的余弦相似度方法,计算用户之间的相似度,研究随机游走过程中的目标节点选择策略,避免明星用户与多个用户产生弱连接,从而有效提高算法的多样性。此外,选择性随机游走的鲁棒性保证了推荐算法的可扩展性。采用MovieLens和Netflix显式数据集以及TMALL隐式数据集进行算法的实验验证。
第二,考虑用户社交信任和兴趣的推荐系统研究。传统的协同过滤推荐算法本身存在的数据稀疏性、冷启动、新用户等问题,影响了推荐的精度与质量。在该部分,提出基于用户行为系数挖掘用户间隐性信任关系的研究思路,进一步结合改进后的用户显性信任关系提出用户信任度函数,缓解用户信任关系数据稀疏性。结合用户评分和项目属性标签的关系提出用户兴趣相似系数的概念,挖掘用户潜在兴趣;利用概率矩阵分解模型对用户评分信息、用户信任关系、用户兴趣标签信息进行矩阵分解,进一步挖掘用户属性中的潜在特征,研究考虑用户社交信任和兴趣的概率矩阵分解推荐算法,缓解推荐系统中的稀疏性问题。采用Epinions基准研究数据集进行所提出的推荐算法的实验验证。
第三,考虑用户社交信任和标签偏好的推荐算法及其在旅游景点推荐上的研究。针对现有的旅游景点推荐算法在处理用户关系时忽视了用户隐性信任和信任传递问题,以及当用户处于新城市时由于缺乏用户历史记录而无法做出准确推荐的情况,提出一种综合考虑用户信任关系和标签偏好的个性化景点推荐算法。在考虑用户相似度时推荐质量差的情况下引入信任度,通过挖掘用户隐性信任关系避免了现有研究在直接信任难以获取时无法做出推荐的情况,有效缓解数据稀疏性和冷启动问题。同时,在用户兴趣分析过程中,将景点和标签的关系扩展到用户、景点和标签三者的相互关系,把用户的兴趣偏好分解成对不同景点标签的长期偏好,有效地缓解缺乏用户历史游览记录时推荐质量不佳的问题。最后,在Flickr网站上选择符合要求的数据进行实验验证。
本书第1、2章由米传民撰写,第3、4章由单晓菲撰写,第5、6章由彭鹏撰写,第7、8、9章由陈烨天撰写,全书由米传民进行框架设计和统稿。在本书的写作过程中,得到了南京航空航天大学钱媛媛、王怡静、李朋磊、赵楚凡和叶楠等同学的热情帮助。本书的出版得到了中央高校基本科研业务费专项资金(学术著作出版基金)资助(No.NR2018048)。在撰写本书过程中,笔者参阅了大量文献资料,吸收了许多专家和学者的研究成果。电子工业出版社的领导对本书的出版也给予了大力支持,尤其牛晓丽编辑对本书的编辑和出版提供了大量宝贵的意见、建议和热忱帮助。在此,一并表示衷心的感谢!
由于笔者水平有限,加上推荐系统的理论和应用发展迅速,本书难免存在不足与疏漏之处,恳请专家和广大读者不吝批评指正。