1.1.1 轨迹数据来源
轨迹数据由多个与移动对象运动相关的观测值的有序序列构成。这些观测值可能包含采样位置、时间、高度、速度等信息。以人类活动数据为例,一条典型的人类活动轨迹数据如图1.1所示。图中,移动对象沿箭头所示方向从家出发,先到达办公室,再到达超市,最后回到家中。在上述过程中,对移动对象所在位置进行采样获得如黑色圆点所示的移动轨迹,其中任意点坐标pi(longi,lati,ti)的语义表述为该移动对象在ti时刻到达经纬度为(longi,lati)的位置。
图1.1 人类活动轨迹数据
在不同的数据来源、采样方式、采样环境及采样设备条件下,获得的轨迹数据在数据质量、数据规模、数据语义等方面存在不同程度的差异。例如,在城市环境中采样轨迹数据时容易受到建筑物阻挡,这会导致设备在传输数据时信号干扰较多。因此,数据缺失、噪声及数据漂移问题显著。为方便对不同类型的轨迹数据进行分析,研究人员根据轨迹数据所描述的移动对象,将现有轨迹数据分为人类活动轨迹、交通工具活动轨迹、动物活动轨迹及自然气象活动轨迹4类。上述4类轨迹数据的比较如表1.1所示。
表1.1 4类轨迹数据的比较
(1)人类活动轨迹。人类活动轨迹是轨迹数据的重要组成部分,在整个轨迹数据中占比较大,数据量达到了EB级。这类轨迹数据反映了与人类活动相关的诸多观测行为随时间变化的情况,如人类行走行为、网页浏览行为、邮件往来行为、图书借阅行为等,是人类行为分析、兴趣爱好挖掘的主要数据对象。一般来说,人类活动轨迹的记录方式有主动式记录和被动式记录两种。主动式记录轨迹是人们通过定位设备主动分享出的位置信息,如通过社交网络分享的照片获得的社交网络轨迹。被动式记录轨迹是人们无意间暴露的通过定位设备捕捉的轨迹数据,如通过蜂窝ID记录的手机用户位置等。由于人的个体差异大、活动方式多样,人类活动轨迹的采样频率需要覆盖较广的范围,从每秒一次到每天一次都有可能。例如,行人轨迹按秒采样,而邮件往来记录多按天采样。
(2)交通工具活动轨迹。交通工具活动轨迹主要是指海、陆、空构成的人类交通系统中采样设备获得的轨迹数据。例如,车载GPS或GIS获得的车辆行驶轨迹;IC卡刷卡记录构成的公交车运行轨迹等。这一类轨迹数据和人类活动轨迹数据一样,数据量很大。由于运行路线及交通工具性能的差异,不同交通工具的活动轨迹的数据特征差异较大。交通工具相应服务要求的实时性较高,因此,采样时间间隔基本以秒和分钟为主。需要指出的是,多数交通工具的活动轨迹也反映了人类的活动规律,和人类活动轨迹的主要区别在于:交通工具活动轨迹主要以不同交通工具为依托,研究一类工具的活动行为,常用于交通规划和管理。
(3)动物活动轨迹。动物活动轨迹相较于前两种轨迹数据的数据量要小很多,是在野外环境下通过GPS颈环、无线观察器、红外线照相机等设备获得的一类描述动物活动的轨迹。对该类数据的采集主要在野外进行,采样时间间隔以分钟和小时为主。这类数据可以为动物学家和环境保护专家研究动物迁徙特征、行为特征和生活习惯等提供数据支撑,从而促进动物和生态环境保护。
(4)自然气象活动轨迹。自然气象活动轨迹是气象学家、地理学家、天文学家等研究人员关注的研究领域之一。例如,气象学家、地理学家通过收集台风、飓风移动轨迹及海洋事件等来探索自然现象的活动规律;天文学家通过收集行星运行轨迹帮助人们认识宇宙天体的运动规律。这类数据的数据量小,但是采样时间间隔较大,按秒、分钟、小时、天采样的都有。在台风、洋流及其他海洋事件预警中,实时性要求高的采样通常按秒进行,而在气候研究中,采样通常需要按天进行。