1.1.2 轨迹数据特征
近几年来,随着大数据的蓬勃发展,轨迹数据也进入了大数据时代。轨迹数据不仅具备时序数据的特征,还包含大数据的诸多属性。此外,由于数据来源、采集环境、采集手段、采集设备及数据处理的独特性,轨迹数据也展现出了一些独特的特征。本节从以下6个方面来概括轨迹数据的主要特征。
(1)体量大。体量大是轨迹数据的首要特征,轨迹数据作为大数据的分支之一,也具有体量大的特征。由于轨迹数据的来源多,其整体体量目前没有明确的统计数据,但是我们可以从单一类型数据上来感受其数据量的冲击。对于一线城市而言,仅是出租车的轨迹数据量,一天就能够达到TB级以上。中国互联网络信息中心(CNNIC)发布的第52次《中国互联网络发展状况统计报告》显示,截至2023年6月,我国网民规模达10.79亿人,移动互联网累计流量达132.5EB。可想而知,网页浏览、邮件往来等作为互联网最主要的活动之一,能够产生的轨迹数据量非常庞大。
(2)实时性。实时性是轨迹数据的第二个典型特征。轨迹数据体量大,不同领域需求的差异大,因此,要求轨迹数据在分析、处理与存储方面能够相对高效,满足实时处理的需求。例如,在对出租车、公交车等交通工具的轨迹数据进行清理和分析时,需要满足实时监测交通流量、拥堵情况和出行的需求,从而更好地为城市交通规划和调度提供决策支持;在基于位置和爱好的推荐服务中,也需要满足实时性需求,以期为用户提供更好的服务;在台风、飓风、海啸等自然灾害预警中,也需要满足实时性需求,做到积极预警、及时处置,保证人们的生命和财产安全。
(3)多样性。轨迹数据的多样性主要体现在数据类型、数据来源、数据规模上。首先,从数据类型上来说,传统大数据以结构化和半结构化数据居多,而互联网的不断发展,非结构化数据的比重越来越大,互联网轨迹数据是上述数据的典型代表。其次,从数据来源上来说,轨迹数据的来源包含人类活动、交通工具活动、动物活动及自然气象活动等,数据来源的多样性同时也带来了数据类型和数据规模的多样性。最后,不同类型和来源的轨迹数据在数据量上各不相同(见表1.1)。不同类型、来源及规模的轨迹数据共同造成了轨迹数据的多样性,使得轨迹数据的分析和处理技术更加丰富多彩。
(4)时空序列性。轨迹数据是位置、时间、速度等观测值的采样序列。这个序列包含了空间维度和时间维度两方面的观测属性,共同反映了运动对象的时空动态性。时空序列性是轨迹数据最基本的特征。轨迹数据体现出的时空序列性,使得研究者在数据分析和处理时很容易联想到可以用时序数据的分析和处理方法来解决轨迹数据的有关问题。但值得注意的是,轨迹数据还具有一般时序数据不具备的特征,如质量差、异频采样及数据漂移等。因此,需要根据数据特征和任务需求来开发适合轨迹数据分析的模型及算法。
(5)异频采样性。异频采样性是轨迹数据区别于其他时序数据的典型特征。由于移动对象活动的随机性及采样设备的差异,轨迹数据的采样时间间隔通常存在较大差异。如表1.1所示,交通工具活动轨迹多以秒或分钟为采样时间间隔,而社交媒体等产生的人类活动轨迹可能以小时或天为采样时间间隔,采样频率的差异性加大了轨迹数据分析和处理的难度。
(6)数据质量差。轨迹数据受到采样环境、设备精度、预处理方式等的影响,质量参差不齐。例如,在城市中采样的轨迹数据容易出现缺失、过程容易受到环境或者其他设备的干扰,数据噪声较大;采样频率的差异及数据传输过程中的时延问题,使得轨迹数据容易在时空上分布不均;连续性运动轨迹的离散化过程可能引入误差。上述所有情况的出现都可能极大地影响轨迹数据的质量,给基于轨迹数据的分析带来一定的困难。