上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.3.4 图数据不符合独立同分布
此外,传统的机器学习所用的数据样本,通常符合独立同分布(Independent and Identically Distributed, IID)假设,不同样本之间并无关系。一朵鸢尾花不同于另一朵鸢尾花,一张猫或狗的图片不同于另一张猫或狗的图片。它们彼此不知道也不需要知道对方的存在。
独立同分布是机器学习领域很重要的假设。这个假设意味着,如果假设训练数据和测试数据是满足相同分布的,那么通过训练数据获得的模型(比如,拟合一个决策平面)能够在测试集上获得很好的预测效果。
而基于图的机器学习,样本数据之间存在连接边的关系,也就是样本之间不是独立同分布的。因此,传统机器学习和图机器学习有显著不同。这带来的挑战就是,研究人员在传统机器学习领域积淀的经验可能无法用于图数据的处理。