联邦学习技术及实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.1.2 数据结构与术语

机器学习所使用的数据类型通常有四种:截面数据、时间序列数据、混合数据、面板数据。

截面数据包含了一组不同的个体,这些个体可以是个人、家庭、公司、国家等,这一组个体是在某一个时间点一起取出的。有时候这些个体的取出时间不一定完全相同,比如在一次为期三个月的人口普查中,有的人先被普查到,有的人后被普查到。在分析截面数据时,我们通常会忽视这些细微的时间差异,而将这些个体和它们的特征看作在同一时间截面上取出的。截面数据有一个重要的特性就是,我们假设这些个体是从某一总体中随机采样而成的。然而,随机采样并不是随时都能够满足的,比如我们在对信用风险建模时通常会要求用户报告他的收入,然而用户可能出于保护隐私的目的低报收入,也可能出于获得贷款的目的高报收入,甚至因为要提供收入信息,导致很多对隐私敏感的用户不注册账户,那么这样得到的样本,无论是在收入的取值上,还是在样本涵盖的人群上,都不能认为是对所有人具有代表性的,也就不能是全量人的总体中的一个随机样本。

时间序列数据包含了同一个体在不同时间点上的特征取值。时间序列的例子包括某一公司的股票价格、货币供给量、消费物价指数等。因为过去的事件会影响未来的事件,而且在很多时间序列数据的场景中存在滞后性,所以时间成了时间序列数据分析的重要维度。不同于截面数据,在时间序列数据中,每个观测点的前后顺序本身就带有重要的信息。时间序列数据还有一个重要的特性,这使得它们比截面数据难以分析和使用,这个特性就是时间序列数据中的观测值在大多数时候在时间上并不独立,不仅如此,在大多数时候它们还会出现强烈的相关性,这一相关性通常随着观测点之间的时间间隔变大而变小。例如,本周的股价通常与上周的股价接近,而与一年前的股价差异较大。虽然适用于截面数据的机器学习模型不加处理也可以用于时间序列模型,但是考虑到时间序列数据自身可能存在的特性(平稳性等),我们也有针对时间序列数据的单独模型。

混合数据则是包含了截面数据和时间序列数据的数据。例如,中国连续两年进行全国消费者抽样调查,每次调查都随机采样,都记录了消费者的年度消费金额、消费次数等信息,但两次抽中的个体并不一致。在训练模型通过消费者收入预测消费者消费金额时,一年的数据往往不够,于是我们将第二年的数据也加入样本中,这样形成的数据就称为混合数据。除了补充训练样本,我们还可以分别使用两年的数据建模,进而分析两年间消费者行为的差异。

最后一类数据是面板数据,它包含了多个个体、多个时间点。每个个体在每个时间点均有一组特征,这样形成的数据就称为面板数据。例如,在股票市场上任选100支股票,它们过去一年的每日收盘价就形成了一个面板数据集(假设不考虑停牌等因素)。总之,面板数据就像一个面包,每横着切一刀就会得到一个截面数据,如果竖着切一刀,得到的就是时间序列数据。那要是把两种口味的面包各切一片放在一起呢?那就是混合数据。

除了数据类型,机器学习还涉及一系列的常用术语(个体、样本、总体、特征、标签、训练集、验证集、测试集等)。