第一章 绪论
第一节 研究背景与意义
在An Introduction to High-frequency Finance (2001) 这本书的导论里有这样一段对话,大意是,“为什么把一生置于这危险的攀岩?因为山峰等在那里”(Because they are there. )。同样地,浩繁的高频数据也等在那里,等待我们去“攀登”( The feld of Statistics is constantly challenged by the problems that science and industry brings to its door.)。“上帝创造问题,并诱惑我们来解释。”
金融高频数据构成海量数据集,是大规模数据集的一个重要子集,越来越受到学界和业界的广泛关注。其中一个主要的原因是市场结构和交易过程的快速演变,这主要得益于技术进步以及由此推动的交易系统的深远发展、交易所之间的竞争加剧以及日内交易活动日渐频繁。
然而,高频数据本身并不是新事物,地质、气象、工厂生产线、实验观测、高峰时刻的超市、车站和机场、金融市场等各领域的高频数据俯拾皆是。但为何数据泛滥发生在今天?是今天产生的数据果真比过去多了吗?或许是因为我们越来越擅长记录了。但擅长记录是好事吗?一层层的数据,像埋葬自己的墓穴。我们把过多的精力放在了捕捉和存储数据,而后束之高阁,却忽略了对已有数据的“开采挖掘”( mining) 和“蒸馏提纯”(distilling)。贪婪?动物大都只存一个冬季的食物。长期眼光,还是不自信的表现?
随着技术的不断发展,不仅各领域记录数据的时间尺度越来越精细,而且也使存储与处理类似的大规模数据集成为可能。过去因记录和存储等方面的限制只能有选择性地存储 (如精简的古文、有影响力的文献),而现在则是泥沙俱下等权记录,论语和一行微博同样载入史册。网络公开课、大规模开放网络课程 (massive open online course, MOOC)、开放存取仓储 (Open Access Repositories) 等也已经逐渐开始对传统的教学和科研产生冲击。我们已身处大数据的洪流,而且是“被卷入”,一如对现代通信工具的被迫回应,特别是目前异常活跃的增速。一方面,数据记录大量产生 (数据尾气,商业记录、行政记录等);另一方面,不仅原始数据而且数据的复制品 (报纸、杂志、网页等) 也需要存储空间,信息累积的方式也从竹简、纸张、软盘过渡到硬盘、网盘等效率更高的存储媒介。
2008年9月4日刊出的《自然》杂志 (Nature) 以“big data”作为专题 (封面) 探讨了环境科学、生物医药、互联网技术等领域所面临的大数据挑战。2011年2月11日,《科学》杂志 (Science) 携其子刊《科学—信号传导》(Science Signaling)、《科学—转译医学》(Science Translational Medicine)、《科学—职业》(Science Careers) 专门就日益增长的科学研究数据进行了广泛的讨论。格雷还进一步提出科学研究的“第四范式”(the fourth paradigm) 是数据 (数据密集型科学,data-intensive science),不同于实验、理论和计算这三种范式,在该范式下,需要“将计算用于数据,而非将数据用于计算”。这种观点实际上是将数据从计算科学中单独区别开来了。在《大数据时代的历史机遇:产业变革与数据科学》(2013) 一书中,鄂维南院士也提道:“大数据在科学领域的表现是数据科学的兴起,数据科学将成为科研体系中的重要组成部分,并逐渐达到与物理、化学、生命科学等自然科学分庭抗礼的地位。”然而数据科学目前只是多个相关学科“拼接”起来的一个新兴学科,尚未形成完整的学科框架体系;同时,也鲜有统计学视角下的探讨。
其实追溯起来,股票交易至少有两百多年的历史,但直到20世纪50年代,日收盘价还要等到次日才可知晓。而今天,在流动性良好的市场中,单个交易日的超高频数据量与30年按日统计的交易数据量相当。作为金融市场的雏形,外汇市场可以说是最大也是最为复杂的金融市场,如交易约束条件 (所在时区、工作时间、交易成本、信息获取方式、交易制度等) 迥然相异。从实务部门的角度来看,股指期货是一个值得研究领域,如光大银行 (2010) 曾出过类似的研究报告。中国量化投资研究院林健武教授在发布“2012中国量化投资半年报”时提到,“中国可以做高频的就是股指期货和商品期货,这里面发挥了很多量化投资的高等技巧,频率也越来越高”。CSMAR中国证券市场高频交易数据库(2008Level-1) 的使用指南也提出了一些亟待实证和理论分析的研究领域,如中国证券市场的微观结构、交易规则、交易者特征等。事实上十年前Goodhart和O'Hara (1997) 对金融市场高频数据所带来的一些问题和实际应用曾予以概述,他们指出,“目前大部分实证文献仍然保持相当的描述性……大部分聚焦于造市商如何从交易中学习 (获取信息),然后又怎样影响价格和报价”。Robert Wood (2000) 不仅讨论了金融高频数据量的快速增长趋势及其在市场微结构研究中的应用问题,而且还对所用的不同频率数据库的组织形式和特征等进行了分析。
研究金融高频数据的一个直接的意义在于,高频数据是否能提供一些低频数据所不能够提供的信息。如果将其单纯作为一个优质的时间序列来看待,意义可能并不大;就我们目前的研究来看,高频数据 (high-frequency data, HFD) 的意义可能更多地在于短期分析,比如市场微观结构方面的探索,特别是超高频数据 (ultra -high -frequency data, UHFD;tick-by-tick; transaction-by-transaction) 所提供的大量交易细节为实证微结构理论提供了丰富的凭据。然而在目前金融高频数据的研究过程中,尚存一些认识上的误区,如混淆了低频数据、高频数据与超高频数据:周橙 (2009) 认为高频数据是等间隔的,只是加细了抽样间隔,与低频数据没有本质区别,仍然可以采用ARCH族模型。这是错误的,因为高频数据有异步交易 (non-synchronous trading; asynchronous trading)问题,而且高频数据也并不是简单加细了取样间隔,而是有其特殊的分析目的,如对短期行为的考察 (市场微结构理论)。退一步而言,即便是加细了取样间隔,也并不是越细信息就越充分,因为还存在微结构噪声的扰动。为此,需要从更严格的意义上澄清、界定和辨析低频数据、高频数据与超高频数据,进而从统计学和数据挖掘的角度来审视金融高频数据挖掘的内容和方法,这一方面有利于明确统计方法的应用现状和所面临的困难;另一方面可以引起统计学界对金融高频数据挖掘的广泛关注,也有利于激发统计方法的进一步拓展、深入和创新。
研究金融高频数据挖掘的意义还在于: (1) 高频数据可以连续地记录金融市场上发生的变化,因此高频数据具有很多采用低频数据所无法观察到的重要特征,如微结构噪声的干扰、跳跃成分、日内模式、离散变动(discreetness)、随机交易间隔等,而加总或稀疏取样则可能会掩盖或漏掉这些特征所蕴含的信息。(2) 理论上来讲,统计分析通常要求达到一定的样本容量,而低频数据通常难以满足,所以为了保持较高的自由度,模型应尽量简洁 (变量或待估参数,要尽可能少),但这样可能会遗漏重要的信息,而高频数据可以为构造理想的模型 (可能是复杂的) 提供一个很好的起点。(3) 从实证分析上来讲,中国证券市场历史短暂且发展迅速,跨期的观测数据往往在可比性上不能令人满意,如果采用高频数据,那么就可以在较窄的观测区间内产生满足分析所需要的数据量,同时可以对市场微结构模型做出恰当的验证,也为理解金融市场价格形成机理、市场组成结构与市场交易机制等方面提供丰富的素材。(4) 在宏观经济分析中,长期与短期视角下的结论不同,金融高频数据分析在很大程度上是为了探索短期行为特征 (如日内波动) 与市场微结构 (如价格发现)。这种研究尺度的变换改变了分析的单位或尺度,高频数据扩大了我们的视野,就好像用“显微镜”可以看到肉眼看不到的东西,从而更深刻地理解一些现象。比如,慢镜头重播运动员的动作,可以通过这种“放大”找出错误以便于矫正。当然,也不可避免地会遇到一些无特征尺度的现象,即在不同的时间尺度上表现出相似的性质。(5) 研究金融高频数据一个很重要的目标是减少交易成本或增加交易的灵活性,提高风险管理的能力。(6) 目前研究有通过高频数据来验证证券市场的有效性,研究信息传导机制、波动溢出效应、风险测量和异常值检测等问题。对高频数据的研究也有助于回答如下问题:应该披露多少的信息给市场、极端波动对市场流动性的影响有多大、造市商 (market maker) 是必要的吗、如何利用金融高频数据来进行资产组合的选择,等等。