第二节 文献综述
一 国内的研究现状
国内的数字档案馆研究,最早始于1999年,以后逐渐成为档案学领域中的一个热点问题,并呈逐年上升趋势。对CNKI文献资源数据库以“数字档案馆”为检索词进行主题检索,获得相关文献5704篇,由于云计算技术出现的较晚,将云计算技术运用到数字档案馆的研究的时间也比较晚。笔者以“数字档案馆”和“云计算”为检索词,对CNKI文献数据库进行主题检索,共获得文献101篇,最早的一篇论文发表于2009年,尹雪梅对云计算技术进行了介绍,并借鉴个人数字图书馆的情况,认为可以将云计算技术引入个人数字档案馆。[16]其后沉寂了两年,到2012年,云计算技术才得到档案学界的广泛关注,成为数字档案馆研究中的一个热点问题。对这101篇文献进行阅读分析,发现国内档案学者基本上是从云计算与档案资源建设、云计算与档案的灾备、云计算与档案安全三个视角出发对云计算技术进行了研究。
从云计算与档案资源建设的角度出发,国内学者们研究了云计算的特征、云计算给数字档案馆带来的影响、档案馆如何利用云计算技术等内容。如方昀[17]等认为云计算顺应低碳经济的需要提供了一种共享IT基础设施的方法,具有更加安全、更低成本的特点。云服务模式在档案信息化工作中具有实现资源共享、节约投资成本、提高可靠性、解决IT人才短缺和提高运维效率等方面的优势;彭小芹[18]等分析了云计算的优点,分别从资源、基础设施、档案利用等层面提出了档案馆利用云计算技术的方式;祝庆轩[19]等提出了利用云计算技术构建“云档案馆”的设想,并指出“云档案馆”有利于政务信息公开、节省软硬件投资、减少对计算机人才的依赖等优点;田雷[20]提出了云计算在档案基础设施、档案业务平台、档案网络利用等方面的利用;吕元智[21]、宁家骏[22]分别提出了建设档案云,推进档案信息资源建设的思路。
在普遍认识到云计算在档案信息资源建设中的优势之后,已经有学者开始比较深入地探讨将云计算运用到数字档案馆建设之中应该注意的问题或者所采用的模式。如郑枢祺[23]分析了我国现有电子文件中心建设中存在的问题以及云存储技术应用在电子文件中心建设的优势,对电子文件中心的结构进行了设计,并针对新技术面临的问题进行了初步探讨;陶水龙[24]认为云计算模式能够对分散的、异构系统中的档案数字资源进行有效集成和共享,提出了区域性数字档案馆的概念,指出云计算是区域性数字档案馆建设的实现路径。薛四新[25]则对云计算运用到电子文件管理中的一些核心技术,包括电子文件的对象建模技术、海量异构电子文件的分布式存取技术、电子文件及其元数据的溯源技术进行了初步的探讨。吴绪成[26]则认为应该在云计算的基础上建设第四代智慧档案馆。
从云计算与档案的灾备角度出发,学者们研究了基于云存储技术的档案异地备份方案。如邓岚[27]指出了云计算在灾害档案信息管理中的运用;黄新荣[28]分析了基于云计算技术的云存储的特征和优势,指出可以利用云存储技术解决数字档案馆的异地备份问题,并提出了组建档案系统的私有云的思路。张钟月[29]也对电子文件在云存储中的安全问题进行了探讨。
从云计算与档案安全角度出发,学者们研究了云计算的安全问题对档案的影响。如王丽华[30]分析了档案的重要性,提出将档案置于云中要加强安全技术的使用,如保密技术、权限技术、防攻击技术等;黄正鸿[31]分析了档案馆在采用云计算技术时要注意的数据隐私问题、数据安全问题、数据标准规范等问题。杨巍、李刚[32]探讨了云计算在应用电子文件管理时应该注意的问题:标准规范问题、第三方审计问题、文件安全存储问题以及信息隐私问题。并针对这些问题提出了一些应对策略。徐华[33]等人指出了云环境下和传统网络环境下档案信息安全的不同,并从数字档案馆建设的安全责任主体、组织体系、安全制度、岗位设置、角色职责和保障体系等方面进行了探讨。
对于数字档案馆的建设模式问题,笔者以“数字档案馆”和“建设模式”为检索词,对CNKI文献数据库进行主题检索,共获得文献25篇。虽然邱晓威[34]、张二峰[35]在2001年撰写的论文中已经提到了数字档案馆的建设模式一词,但并没有对数字档案馆的建设模式进行分析。2005年傅荣校[36]等对数字档案馆的建设模式进行了首次分析,认为由于主体的差异性,我国数字档案馆不可能有统一的建设模式,提出了数字档案馆的建设会从个体模式向群体模式发展,即狭义的数字档案馆和广义的数字档案馆的区别。并对当时有代表性的综合数字档案馆的建设进行了总结,提出了深圳模式、青岛模式、杭州模式、萧山模式等划分方法。[37]2008年,周刚[38]对大连开发区数字档案的建设模式进行了介绍,大连开发区数字档案馆工作主要包括三个方面的内容:①基础设备;②档案数字化资源库建设;③数字档案信息管理系统。2009年,周丽莲[39]等人对数字档案馆的建设进行分析,提出数字档案馆的建设可以按不同的标准划为不同的模式,如建设主体的不同、合作方式的不同、外包方式不同等。随着网络技术的发展和普及,人们开始关注网络(包括云计算等技术)对数字档案馆的建设模式的影响,如2012年,徐丽娜[40]将数字档案馆的建设模式划分为实体信息管理模式、共享信息管理模式。薛四新等[41]提出由省市级档案局牵头规划、设计和建设一个能够为本区域内档案机构使用的数字档案馆,即区域性数字档案馆。该区域性档案馆采用云计算技术建设。程结晶[42]分析了云环境下数字档案资源共享与管理的价值取向,提出了建设云服务平台,借助云计算节约成本、提高效率,打造“低碳经济”档案信息化建设模式。2013年,黄新荣等[43]对云计算在数字档案馆建设中的优势进行了分析,认为云技术的应用会改变数字档案馆的开发模式,将来的数字档案馆应该在云技术的支撑下走向联合,提出了数字档案馆建设的云模式,指出云模式是联合模式的升级,并提出组建全国档案云的设想。2015年,程妍妍[44]对云计算技术进行了介绍,指出国际云数字档案馆主要有四种建设模式:私有云、公有云、混合云、领域云。
可以看出,国内的学者从2009年开始,对云计算的概念从引入、消化,到主动研究,其研究也越来越深入。大家都看到了云计算技术对数字档案馆带来的好处,同时也想总结出在数字档案馆建设中的一些成功模式,并以此来推动数字档案馆的建设和发展。但对于数字档案馆的建设模式一词的含义的认识是不统一的,有的人认为模式就是一个系统由哪些功能或模块构成的,有的人则认为模式是合作建设的方式(如个体模式、合作模式等),还有人认为模式是信息系统共享和服务的范围(如私有云、公有云模式等)。意见纷争,却不能形成共识,自然也不能成为指导数字档案馆建设的“样板”。在云计算技术和数字档案馆的结合方面,也有不同的提法,如区域性数字档案馆,档案云服务等,虽然大家都认识到云计算技术是一种合作共享的服务形式,但对数字档案馆如何共享合作没有提出明确的设计。因此,有必要对数字档案馆的建设模式进行进一步深入的探讨,并结合云计算等技术的发展,进一步摸索适合我国当前综合档案馆建设数字档案馆的模式。
二 国外的研究现状
云计算技术起源于美国的Google等公司,因此,也受到了国外政府和档案管理界的重视。美国国家档案与文件署(NARA)于2010年9月8日就发布公告,指导政府机构在云环境下的电子文件管理。[45]美国首席文件管理官(CRO)保罗·M.韦斯特(Paul M.Wester)介绍了美国一些联邦机构已经开始使用云计算技术来进行文件档案管理,而且非常有效。[46]涂子沛也介绍了美国政府利用云计算和大数据技术来减少数据中心的数量,提高政府管理的效率的情况。[47]英国国会数字档案馆采用英国政府的G-cloud云服务框架采购和定制其云服务,将其档案资源存储在EMC Atmos、Amazon S3 Web Service两个不同云服务商的平台中。[48]美国国家档案与文件署(NARA)的ERA项目,也开始采用云服务来管理和存储联邦政府和国会产生的海量的电子文件。[49]
对Web of Science数据库的SCI和SSCI数据库以“cloud computing+Archive”和“cloud computing+record”检索,共检索出研究论文45篇。同时对LISA数据库以“cloud computing+Archive”进行检索,得到文献34篇,以“cloud computing+Record”进行检索,得到相关文献36篇;对PQDT-ProQuest Dissertations & Theses硕博士论文文摘库以“su(cloud computing)+su(archive or record)”为检索词进行检索,共找到一篇相关硕士论文。对所有的文献人工去重,共得到相关文献100篇。通过分析,国外档案学者对于云计算的研究主要集中在以下两个方面:一是从宏观角度探析云计算在档案管理中的应用;二是侧重于从技术角度开展具体的实例研究。
在研究的初期,许多学者从宏观角度出发研究、探析云计算对档案管理的影响,如富兰克林·尼克拉(Franklin Nicola)[50]认为,在过去的十年里,在文件管理方面已经出现了戏剧性的变化。除了出现电子文档和记录管理系统(EDRM)外,档案管理中的新趋势包括Web 2.0和云计算的影响。威斯特·艾米(West Amy)[51]指出GPO的服务器因在2009年8月出现问题而中断,因此考虑将服务转至云计算。这种迁移意味着一种转变:从本地到远程的管理,有更可靠和更强大的计算、规模经济、信任关系的延伸、新的服务提供商。必须考虑“云计算”技术基础设施的优点和缺点,着重考虑基于云计算的解决方案及其相关政府的信息访问。布拉德肖·洛林(Bradshaw Lorraine)[52]认为技术发展使人们对数字技术的依赖增加,需要更多的存储空间,一个企业必须考虑存储成本,而云存储是一个不错的选择,采用云计算之前要考虑几个因素,如云存储的成本、文件格式的变化、服务器升级、元数据的保存,处置业务记录的保存和信息的安全性等。詹姆斯·罗杰(James Roger)[53]认为云计算可以控制成本、提高组织能力,可以扩展内容管理工作的内容,他认为,基于云计算的创新将刺激组织重新考虑什么样的信息,他们希望保护和释放什么信息。云计算的发展使管理组织信息变得越来越简单。在新的环境下,存储成本已经不是问题,人们将关注信息的内容和背景;德尔格多·戈麦斯·安琪(Delgdo Gomez Angel)[54]从技术的角度分析了云计算、分布式处理、社会化媒体对档案管理持续的影响。康奈利·尼古拉(Convery Nicole)[55]认为越来越多的企业组织正在应用虚拟化和云计算服务。许多组织应用云计算技术意味着,节约成本以及改善信息技术服务交付。云计算可以被描述为拥有并保持由第三方通过互联网访问的计算资源池的能力。他介绍了英国档案与文件协会资助的一个研究项目,这个项目主要研究“信息存储”在分布式虚拟环境中的法律、技术和运营问题。弗格森·鲍彻(Ferguson Boucher)[56]认为,对于许多文件和信息管理(RIM)的专业人员来说,云计算就像一个传统的托管服务,将信息存储或应用外包给第三方的供应商和组织,通过网络连接访问。然而,信息、应用程序的分布在云基础设施的许多服务器上和其他客户的信息一起存储,只是通过逻辑隔离机制隔离,这就给RIM提出了新的挑战。
技术角度的研究主要是对在档案中应用云计算系统所面临的一系列问题进行深入的探讨。在这方面,许多美国的学者非常关心美国的个人健康信息记录的共享,认为云技术为异构的电子健康记录共享提供了一个平台,但又涉及个人隐私保护等多方面的问题,于是学者们纷纷开展研究,来解决这方面的问题,许多学者开发了一些云系统。如吴若愚(Wu Ruoyu)[57]认为在网络环境下,需要创建一个基础设施,以便医生取得病人的完整病历和医疗数据,为了满足异构集合以及安全合规的需要,设计并实施了一个基于云计算的电子健康档案共享系统。罗伯特·德韦罗(Robert Devereaux)[58]认为,云的发展,使文件从纸张转到电子,改善了病人的护理工作。他定义了什么是“云”,讨论了云的风险和收益,并提出了一些建议,如根据联邦立法和建议、专业伦理标准和准则进行实践。古·洛(Gul O)[59]提出了一种电子健康记录系统,其采用混合云计算模型,提出了在全国范围内连接所有卫生保健设施,使卫生保健提供者访问病人时可以从任何地点随时记录,可以有效地临床护理病人。他设计了数据集成系统,该系统采用半自动分类技术、人工神经网络来完全数据的集成。谢冠慈(Hsieh GuanChyun)[60]指出,由于消费者在安全、隐私和信任方面的担忧,个人健康记录(PHR)应用缓慢。作者设计了一个安全的可互操作的基于云计算的服务。在这个系统中采用了广泛的安全机制,如访问控制、加密和数字签名;拉·席尔瓦(LA Silva)[61]指出,诊断成像程序在过去的十年里不断增加,这一趋势可能会在未来几年里,影响PACS(图像归档通信系统)的存储和检索功能。云计算可以满足这一新兴的需要。利用这种新的范式,基于云架构,提供了满足数据隐私保护、完整、可用的PACS存档方案。该方案以Amazon S3为基础,是稳定、安全的。阿什迪普·巴赫加(Arshdeep Bahga)[62]提出了一个基于云计算的电子健康记录(EHR)系统。设计了一种基于云的卫生信息系统电子病历系统技术架构(CHISTAR),该系统通过使用一个通用的设计方法、使用一个参考模型,定义了一个通用数据结构、原型模型、临床数据属性,实现了语义互操作;李明(Li Ming)[63]指出个人健康记录(PHR)是一种新兴的健康信息交换,往往外包给第三方的云服务提供商,不过,个人健康信息的隐私可能会暴露给那些第三方服务器和未经授权的第三方,为了保证病人访问自己的个人健康记录的控制权,可以设计一个新的以病人为中心的框架和一套数据访问控制存储在semitrusted服务器的PHR机制中。
还有一些学者致力于解决档案在使用云技术时产生的新问题,包括海量信息搜索、异构系统的整合等。如安德森·埃里克(Anderson Eric)[64]针对云计算系统所提出的海量存储、实惠、永远在线等要求,设计开发了适合档案存储的Pahoehoe系统。阿斯霍伊·简(Askhoj Jan)[65]分析了云环境中电子文件管理的特点,对比开放档案信息系统(OAIS)参考模型,发现有些云技术的特点与OAIS模型不能集成,作者根据OAIS参考模型定义了一个新的云归档系统的分层模型。米贾·德曼(Mitja Dečman)[66]则重点对公共部门三个层次的数字化保存框架进行了研究,分析了这个框架与云计算的概念,提出适当的解决方案。塔卡尔·阿尼(Thakar Ani)[67]试图将天文数据库——斯隆数字巡天数据库的数据归档到云中,但发现,无论是亚马逊(EC2)或是微软(SQL Azure),都无法完成这个超过1TB的复杂SQL数据库的迁移。SDSS数据库与亚马逊云进行比较,显示出较大的性能差异。作者探索了如何在迁移到云中之前进行数据整理,以使将来能把数据方便地转移到云中。山崎(T Yamazaki)[68]研发了一个正在进行的项目,一个基于云计算的Web服务的被称为“仿真平台”的在线模拟平台。云仿真平台是一个虚拟机运行GNU/Linux。在虚拟机上,预装了各种软件,包括开发工具,如编译器和库、GENESIS等科学的软件。当用户发送一个请求时,虚拟机被分配给该用户,并在该机器上开始仿真。林嘉峰(Lin Chia-Feng)[69]提出了一个基于IaaS抽象层的录像机的原型系统,该系统提供了可伸缩的视频记录、备份和监控功能。此外,这个系统通过Hadoop分布式文件系统来存储视频,MapReduce机制可以用来完成智能视频分析任务。
另外,在云计算运用到电子文件和档案管理的过程中,其安全问题也是大家关心的一个热点问题,国外的档案学者也对此问题进行了探讨。如,小麦克(Small Mike)[70]对云计算中的安全风险进行介绍,他指出不同的企业要根据自己的业务类型来选择云服务商,以降低风险。肯尼斯·J·克纳普(Kenneth J.Knapp)[71]认为,随着云计算的发展,云数据中心的相关安全问题越来越被人们重视,他提供了一个与云数据中心相关的安全问题,包括物理安全、数据中心管理、灾难规划等方面。克里斯蒂安·辛格尔(Christian Stingl)[72]认为云计算给人们共享电子健康记录提供了方便,但是它的安全问题也需要重视,如个人隐私的保护。作者建议采用匿名通信、身份验证等技术手段来保护服务中的高度敏感的健康数据。王强(Wang Qian)[73]认为云计算已经被预想为下一代架构的IT企业。但有许多安全问题没有解决,作者认为,采用第三方审计(TPA)来验证云中的数据的完整和安全,是一条可行的方案。杨康(Yang K)[74]指出,在云计算中,数据所有者把他们的数据托管给云服务器,用户(消费者)可以从云服务器访问数据。然而,数据外包、数据托管服务这一新的模式也面临了新的安全挑战,这就需要有一个独立的审计服务。作者首先设计了一个基于云存储系统的审计框架,并提出了一种高效和隐私保护的审计协议。
三 现有研究的不足
国内外学者的研究使大家认识到在数字档案馆建设中使用云计算技术的重要性,也提出了使用云计算技术应该注意的问题,甚至许多学者已经在积极探讨试验解决档案管理在云计算应用中产生的问题,这些研究为后续的研究提供了重要的参考,但依然存在很大的深入空间。
1.研究深度不够
虽然云计算在企业中发展得如火如荼,但在档案的研究中,仍然停留在表面,如对“云计算技术”“大数据”“智慧档案馆”等概念的介绍、引用。少数学者开始将云计算技术和数字档案馆建设结合起来,设计了一些建设方案,但更多的是宏观的和理论的探讨,在理论研究过程中,缺少具体的、生动的案例。对于数字档案馆的建设模式,不同的学者也有不同的解释,没有达成统一的认识。对于云环境下数字档案馆的建设模式,还处于概念引入阶段,尤其是对数字档案馆在应用云计算技术过程中存在的问题,如模式、合作机制等,缺乏深入的探讨。
2.研究视角单一
国内的研究者主要介绍有关云计算技术的概念,国外的研究者主要研究基于云计算技术的一些档案系统,如病历档案系统等,这些纯技术或纯理论的研究,并没有给我国现实中的数字档案馆建设带来更多的有价值的参考,也没有对数字档案馆的建设起到实际的促进作用。
根据上述的研究状况,本书的研究空间在于:在研究视角上,认为云计算是一种技术的发展,更认为云计算也是IT建设模式的演进,云计算技术下的数字档案馆,不仅是一个IT项目,更是一个庞大的系统建设工程,因此将技术和管理结合,需要从技术和管理两个角度来进行研究。从理论的角度,需要结合有关档案管理、云计算技术、IT治理的相关理论,深入探讨我国现代数字档案馆的建设模式、治理机制等问题。从实践的角度,将云计算技术与数字档案馆建设相结合,深入发现建设中存在的问题,并提出解决策略。