
2.3 政府信息资源开发利用
2.3.1 行业大数据的协同应用
2.3.1.1 交通领域
通过开放公共交通数据,政府将允许第三方人员使用这些数据来创建应用程序,以此改进市民出行体验;市民也能够使用开放数据报告基础设施出现的问题。许多互联网企业正在做类似的事情。例如:谷歌设计了MapMaker,任何人都可以在谷歌地图上做标注。基于这款产品形成了“在线公民制图员联盟”,花了两个月的时间,就将巴基斯坦地区长达25000多千米的未标注公路线绘制出来了。
1.美国交通部开放数据改善交通效率和安全性
提供大量的业务服务,致力于解决与国家运输系统相关的复杂安全问题是美国交通部的工作重点之一。美国交通部长期以来重视向公众公开数据工作,根据美国《开放政府指令》的要求,该部门先后于2010年6月和2012年4月制定发布了第一个《开放政府行动计划》和第二个《开放政府行动计划》。美国交通部已经在Data.gov门户网站上发布了765个数据集或工具及大量的应用。
美国交通部的管理者意识到,为了更好地提供高价值的数据,有一些基础性问题必须通过内部政策得到解决,包括制定数据清单,选择合适的数据进行发布;研究决定如何建立整个交通部范围内的数据架构;以对产业和个人有用的方式提供数据,同时要遵守安全、隐私和保密的相关规定;保持数据的质量,并与利益相关者形成关于数据可用性方面的对话机制等。
为积极应对上述问题,更好地完成《开放政府指令》提出的目标要求,美国交通部主要采取了两方面行动。
一是组建强有力的工作团队。2010年,美国交通部指定负责IT政策监督的副首席信息官为该部负责开放政府的高级负责官员,并成立了开放政府工作组,该工作组由政策、预算、绩效、战略规划、人力资源管理、技术运营和法律等方面的专家组成,其一大任务是向高级领导者提出政策战略建议,建立美国交通部开放数据政策。
二是研究制定战略性行动计划并积极推进实施。在该部负责开放政府高级官员的带领下,2010年6月研究制订的第一个开放政府行动计划成为其他机构学习的模板。该计划主要从以下三个维度推进工作。
(1)战略维度:在短期内,要转变交通部对信息发布的态度;从长远来看,要实现和维持开放性。
(2)政策维度:提供确认数据集和按照优先顺序发布的指导。
(3)目录清单:建立信息系统资源列表,运用这些列表形成一个完整的数据集目录清单,并按照优先次序排出对外开放的数据。
美国交通部在2012年4月制订的第二个开放政府计划中确定了“安全社区”旗舰项目,即在Data.gov门户网站上开设安全社区版块(Safety.Data.gov),当时在该版块中提供了713个数据集、4个移动应用、14种资源和公共软件工具和3种挑战比赛。2012年9月,召开了首届安全数据大型论坛(Safety Datapalooza),其目标是运用大量的安全相关的数据集,通过挖掘安全应用开发者的创新、互联网的即时性和政府收集的相关安全信息,使公众能够在大量对安全现状描述和影响将来安全环境分析的数据基础上,做出更好的与安全相关的决策,从而提高美国公共安全水平和改善公共健康。美国交通部的开放数据及相关应用如表2.1所示。
表2.1 美国交通部开放数据及相关应用

(资料来源:工业和信息化部电子科学技术情报研究所)
下面重点介绍两个应用:一是美国国家公路交通安全署的SaferCar APP,二是航班延误时间的分析系统Flyontime.us。
1)SaferCar APP
SaferCar APP在美国国家公路交通安全署网站SaferCar.gov上向消费者提供实时汽车安全信息,主要包括:
(1)5星级安全汽车排名信息。考虑购买汽车的消费者可以查找事故测试排名,且可在不同品牌和车型之间进行对比。
(2)召回信息和投诉信息。APP用户可预见可能碰到的安全问题。如果发现安全问题,消费者可进行登记并由美国国家公路交通安全署发布公告,从而使消费者就可能存在的问题向美国国家公路交通安全署投诉更加容易。
(3)提供安装小孩座位帮助。APP用户可快速确定最近的小孩座位检查地点,并得到相应帮助。
(4)安全头条和警告信息。APP用户可从美国国家公路交通安全署获得重要新闻和信息,包括召回通知,并可推送被记录汽车通知。消费者可以利用这些数据和信息做出购买决策,确保购车安全、开车安全和维护安全(buy safe, drive safe, stay safe)。
2)Flyontime.us
Data.gov上线以后,美国交通部开放了全美航班起飞、到达、延误的数据,有程序员立刻利用这些数据开发了一个航班延误时间的分析系统(Flyontime.us)。该系统向全社会免费开放,任何人都可以通过它查询、分析全国各次航班的延误率及机场等候时间。这个系统上线之后,由于其简单、实用,获得了全美多个新闻报刊的报道和关注,成为很多人乘机、候机的行动指南。
以波士顿至纽约的航线为例,用户可以在系统主页上通过机场名称查看不同天气、不同日期、不同时段、不同航空公司、不同航班等各种条件下飞机是否准时以及平均延误时间的数据明细。这个简单的操作,对消费者和整个社会的经济活动具有巨大的作用。
(1)帮助消费者找到表现最佳或者最符合自己需要的航班。如果没有这些信息,消费者在选择航空公司的时候,信息是不完全、不充分的,与航空公司构成一种典型的信息不对称关系。航班的历史数据很有参考价值,公开这些信息,弥补了消费者的信息不对称。此外,消费者在对比分析大量历史数据的基础上,自己做出判断,即使结果不尽如人意,也会感觉公平。
(2)最大程度降低了旅客等待时间的不确定性。憎恶等待,是人之常情,因为等待意味着时间流失、经济损失,不确定性的等待还往往导致精神焦虑。单次航班的延误时间似乎是随机的、无规律的,但是,当数据累积到一定程度时,航班延误时间的长短就会在统计上呈现出一种秩序和稳定。航班延误分析系统把这种统计学上的“秩序和稳定”传达给了旅客,帮助他们建立正确的期待,合理安排时间,避免焦虑。
(3)有利于推动航空市场的良性竞争。航班延误分析系统按平均延误时间给相关航空公司排了“座次”。回到上面的例子,经营波士顿至纽约航线的公司共有5个。就是否准点而言,谁好谁差,几乎一目了然。此外,各次航班的表现也有明细。例如American Eagle航空公司的第4617航班,全年共有182班次,平均延误7分钟;相比之下,该公司的4614航班,全年也是182班次,但平均提前8分钟到达。这些数据,不仅是消费者的行动指南,也是各大航空公司的核心竞争指标。通过公开这种数据,无疑可以促进市场竞争,航班延误必然逐渐下降到消费者能够接受的合理范围之内。
其实,为了缓解航班延误的问题,美国政府也想过同样的办法。早在Data.gov之前,国家交通安全局就在其网页(NSA.gov)上提供过一个“航班等待时间计算器”,帮助旅客估计因航班延误而导致的等待时间。2009年政府开放数据之后,民间开发出来的这一免费工具明显比交通安全局提供的“计算器”功能更强大、界面更友好。很快,该局便关闭了这个“计算器”,也节省了维护这一应用的开支。
Flyontime.us还能够查询各个机场安检通关的时间,这个数据也是机场服务质量的一个重要指标。但这部分数据来源并不是政府发布的数据,而是乘客自己提交的数据。候机的乘客可以通过推特(Twitter)或者智能手机向该系统提交其在某个机场通过安全检查的时间。这些数据,通过汇总和平均,成为其他用户的参考。
伴随着Data.gov的开放,美国的航班延误率正在呈下降趋势,由2008年的27%下降到2009年的20.8%,再到2010年的20.2%。数据开放在其中的作用不可小视。
2.旧金山利用开放数据优化城市交通系统
美国旧金山市为公众提供了大量的开放数据,包括从停车计费器到公共艺术表演等信息,但并不是所有的人都意识到了这些信息的作用。为了让民众进一步了解这些开放数据的价值,旧金山市联合Kicker Studios公司,通过对开放数据的利用来优化城市的交通系统,见图2.4。

图2.4 Kicker利用旧金山开放数据开发的应用
Kicker公司拥有大量能够用来处理的公开数据,包括公车路线、事故报告、最快和最安全的路线以及停车信息等。在与旧金山运输局进行会谈之后,Kicker公司发现,公车信息更新系统NextBus中所运行的日程方面的数据每年只更新四次,这就意味着每次公车的延迟情况(这种情况其实很常见)都可能会造成车次抵达时间的偏差,而运输局却没有中央通信系统,司机们只是在工作结束之后把这些延误情况记录在事故报告中就算完事了。因此,Kicker公司建议使用一个短信息的界面来记录事故报告,同时让司机们来重新设定自己的公车路线。也就是说,当一场球赛结束后,民众对公车的需求会比较强,但如果按照原有的路线是不能为当时所有等车的人提供运输服务的。而针对陈旧的公车调度系统,Kicker公司也提出了一个非常全面的解决方案,界面上包括实时的交通信息和正常的公车路线,可以在公车进站前对其到达时间进行更好的预估。同时,该界面还允许用户丰富公交车的相关信息,比如在14号线上有一位喜欢吵架的乘客之类的信息。
图2.5中显示的是Kicker公司开发的应用中一个基于手机或网络的用户界面,它能够展示距离自己最近的公交线路、下一班车到来的时间、出租车最多的线路(有时候出租车是很难找到的)和最佳的骑车路线等。此外,该界面还能够告知用户最省钱和最省时的交通方式。所有这些服务都需要用到开放数据。

图2.5 Kicker公司开发的应用用户界面
3.移动应用SpotHero缓解多个城市停车难问题
SpotHero是一个手机应用,支持iOS和Android手机,能够实时跟踪入网城市的停车位数量变化,用户只需要输入地址或者在地图中选定地点,就能看到附近可用的车库或停车位以及价格和时间区间。目前它已经能够实时监控包括华盛顿、纽约、芝加哥、巴尔的摩、波士顿、密尔沃基和纽瓦克七个城市的停车位。
4.芝加哥市推出“领养”人行道的应用
芝加哥市推出了“领养”人行道的应用,市民志愿者将在大雪天为自己领养的人行道清除积雪,不仅方便居民出行,而且减轻了市政开支。
5.里昂市用交通数据治堵
2013年IBM的研究者与法国里昂市合作开发了能缓解道路拥堵的决策支持系统优化器(Decision Support System Optimizer, DSSO),基于实时交通报告来侦测和预测拥堵。若交管人员发现某地即将发生交通拥堵,就可以及时调整信号灯让车流以最高效率运行。这个系统对于突发事件也很有用,例如帮助救护车尽快到达医院。随着运行时间的积累,这套系统还能够“学习”过去的成功处置方案,并运用到未来预测中。
6.浙江某市利用大数据改善交通管理
浙江省某市经济发展迅猛,地方交通越来越繁忙,机动车辆不断增加,经过几年交通信息化的发展,已经陆续接入了100多套智能监控卡口系统、300多套卡口式电子警察及500余路视频监控。地方交通部门采用了数据驱动的方法,在市内重要检查点安装了上千台数字监控设备,这些设备每周7×24小时不间断地捕获图像和视频数据,每月数据量达TB级。这些数据采集设备获取的结构化数据,例如:时间、地点、车辆信息等集中存储在市交通支队数据中心,而图片和视频等半结构化数据存储在各县数据中心。当地交通部门面临着如何有效利用这些不断增加的交通信息数据改进交通管理的挑战。
(1)集中管理交通数据:集中访问分散存储在不同的支队数据中心的图像或视频等交通数据和道路交通管理设施、装备及应用系统等。
(2)优化海量数据利用:提供尽可能长时间段的车辆监控数据为市公安治安、刑侦、经侦部门人员及一线民警等提供信息支撑服务。
(3)改善交通:提高对各种交通突发事件的应急调度能力,依据历史数据预测交通或突发事件的趋势。
其解决方案主要包括三个方面:
(1)部署统一的交通数据中心:通过22台服务器、198TB的存储空间对数字交通信息实现集中存储。
(2)部署Apache Hadoop软件:利用Hadoop分布式文件系统(Hadoop Distributed File System, HDFS)和Apache HBase实现基础过车结构化数据的永久存储以及最近24个月的交通违法图像数据,实时检索数据,并可随时无缝扩容。
(3)部署城道重点车辆动态监管系统:发挥开放数据分析平台的优势,实现海量数据的挖掘和分析。
以上方案取得了显著的效果:
(1)提升了交通案件侦破能力。机动车违法图像信息在系统的保存周期从3个月延长到24个月,交通警察等部门可根据车辆的颜色、车型、号牌等信息实时查询其历史行为、行车路线和车辆营运公司、驾驶人等关联信息。
(2)增强了交通警察对机动车辆的监管能力。交警可以从24亿条过车数据中轻松检索被监测机动车的号牌,精确查询行车轨迹。
(3)便捷利用关联车辆的分析数据。针对24亿条实际过车数据进行两卡点、多卡点的伴随车辆和碰撞车辆的复杂分析,查询耗时仅为10秒左右。
2.3.1.2 医疗领域
开放医疗数据可以帮助实现类似大规模流行病分析这样的研究,并产生实质性的突破成果。在这个过程中,需要严格制定措施,确保病人的隐私权利。例如,可以向研究人员开放出生时的健康状况登记,允许医生通过追踪丰富的信息,发现环境因素对人体健康的影响。谷歌流感趋势(Google Flu Trends)数据已经展示了通信连接和规模化两者结合可以改变我们对某种已知病毒的了解,几乎不用再分享和核对信息。
简单地集中管理数据并将其向研究人员和临床医生开放,就已足够医疗人员开发出可更好地了解和治疗疾病的新模型,医疗保健机构通过将病人的健康记录电子化及隐私化,同时为医生、保险公司、相关部门和病人开放数据,可以产生更大的价值。各种数据与电子病历记录相连接又可挖掘出新数据,包括病人满意度调查、医生的临床笔记以及磁共振的图像数据等。健身和健康追踪器产生的大量数据看似有趣,但个人很难从中搜集到有意义的东西;然而,当成千上万人的数据被用于挖掘与健康结果相关的信号和链接时,这些数据就可能发挥作用,比如可被用作预防疾病或及早检测到疾病的新方法。
美国食品及药品管理局(FDA)正在为某些药物发行标签,为经历某种基因变异的病人注明不同摄入剂量(或解释为何某些病人不能服用该药物)。这预示着未来可能实行更多个性化的用药措施。医院开始使用的Clipmerge软件更便于医生进行快速查找,同时,当电子医疗记录表单上的药物可能发生相互作用时,也能及时通知医生。
1.美国卫生和公众服务部
美国卫生和公众服务部是美国政府最大的卫生保障机构,是美国医疗系统的官方最高管理机构,基本职能是保护国民身体健康,提供最基本的医疗卫生服务。该部非常重视开放数据工作,是第一批发布机读版数据目录的联邦政府行政部门之一。该部于2010年6月发布了第一个《开放政府计划》,从领导治理与文化变革、透明、参与和协作、旗舰行动4个方面进行了详细计划,提出了5大旗舰项目和80多项专门工作,并且在hhs.gov/open网站上周期性地发布实施进展情况,如表2.2所示。2012年4月,该部又正式发布了第二个《开放政府计划》(计划于2013-2014年完成),在第一阶段工作基础上又明确了3大旗舰项目和60多项专门工作,并增加了“智能发布”和“大数据”的两个专门项目。截至2012年4月,美国卫生和公众服务部已经在Data.gov网站上提供了300多个数据集和工具。在第一个开放政府计划中提出的里程碑要求都已实现或超过,正在以新的方式带给公众更多的收益。美国卫生和公众服务部于2009年成立了创新委员会,主要负责协调和监督该部的《开放政府计划》,推进该部朝着更加透明、参与和协作的方向努力。美国卫生和公众服务部还成立了一个包括创新委员会成员的工作组,定期评估信息获取方面的工作。该部在开放数据工作中注重公众参与和协作,自从发布第一个《开放政府计划》以来,已经组织了50多个挑战性竞赛,以吸引公众参与到问题讨论和解决方案的建设中来。
表2.2 美国卫生和公众服务部《开放政府计划》中的旗舰项目

(资料来源:工业和信息化部电子科学技术情报研究所)
下面重点介绍两个重要项目:一是健康指数仓库,二是健康卫生数据行动计划。
1)健康指数仓库(Health Indicators Warehouse)
数据指数仓库旨在提供一个有关国家、州和社区健康指数的单一、界面友好的数据来源,满足多人口健康行动的需要,作为数据港为健康公共卫生数据行动计划提供服务。数据指数仓库项目由美国健康统计中心(美国卫生统计中心)开发维护,提供数据支持和资金协作的部门有美国医疗保健和医疗补助服务中心、美国卫生和公众服务部副部长办公室、青少年健康办公室、疾病预防和健康促进办公室、少数民族健康办公室、计划和评估助理部长办公室。可从该项目网站上分主题(如疾病、条件、年龄等)、地理(州、郡、医院等)和行动角度获取相关数据。2013年6月1日,该网站发布了最新版(1.7版),提供1215个指数。
2)健康卫生数据行动计划(Health Data Initiative)
该项目原名为社区健康卫生数据行动计划(Community Health Data Initiative),后改名为健康卫生数据行动计划(Health Data Initiative, HDI),是美国卫生和公众服务部开放政府中的一个主要的成功项目,其核心工作是提供中央数据资源,以帮助新的数据用户确认可以创造新应用和服务的数据。HDI由美国医学研究所、美国卫生和公众服务部在一个会议后于2010年联合发起,该会议的参会代表包括来自联邦政府部门、学术机构、社会领域、公共卫生社区、信息技术公司、主要业务企业和保健实施系统的领导。目前,健康卫生数据行动计划已组建了联盟,现有17个单位会员,并设有联盟网站。该项目的目标不仅要有效配置数据,而且要引发创新和对那些新应用的使用,该项目通过公私合作,鼓励创新者应用健康卫生数据开发各种应用,提高健康卫生意识和改善健康卫生成效,激励改善健康卫生的社区行动,帮助美国民众更好地理解健康卫生和所在社区的健康卫生保健实施情况。该项目开展的工作有:美国卫生和公众服务部发布大量更加可用的健康卫生数据,软件开发者使用健康卫生数据开发新的应用,随着数据的不断改善和新应用的不断开发,消费者、社区和服务提供者在疾病预防、健康卫生促进、保健质量提高等方面取得了新的成效。该项目已扩展到许多州和地方政府的社区。美国卫生和公众服务部门在倡导建立数据使用者和提供者这一生态系统方面发挥了重要的领导作用,这个生态系统为改善政策制定者、公众、健康医疗专家、研究者和其他人员的决策创造了价值。Healthdata.gov网站为创新者生态系统提供一站式资源,这些创新者将数据转换成新的应用、服务和观点,帮助人们改善健康。该网站的用户能够免费获得与健康相关的数据,查找与健康相关的创新,并可与其他创新者联系,通过网站上的专门栏目咨询有关数据集的专门问题,通过应用程序接口获取所有的数据集目录。
健康卫生数据行动计划每年举行一次名为“Health Data Palooza”的大型医疗卫生数据行动年度论坛,为数据使用者、数据拥有者、开发者、风险投资、政府和企业提供交流如何挖掘数据潜力的机会。2013年6月3~4日在华盛顿举办的第三届论坛内容丰富,包括产业界和政府官员的重要讲话,数据使用的专题讨论,50多家单位的新应用展示(App Demo),由开发者、诊所和技术专家参加的额度为2.5万美元的编码比赛(Health Code-a-Palooza),以及发布联盟下一步将开展的重要行动计划和项目,宣布挑战比赛的获胜者和即将发布的数据集等。
健康卫生数据行动计划正在采取的措施主要包括:
(1)向公众免费提供来自联邦、州、地区和郡的有关保健、卫生和医疗成效的数据,这些数据没有知识产权限制、容易获取,具有标准化、结构化的特点,其中有年龄、性别、种族、收入的数据,也有来自医疗保险和医疗补助服务中心的关于疾病、质量、费用等的数据,以及以前从未发布过的数据。
(2)与技术公司、研究人员、卫生提倡者、媒体、消费倡导者、市场人员等进行广泛的沟通交流,帮助激励民间领袖和公众改善公共卫生的状况。
具有潜力的案例有:
(1)交互式医疗卫生地图,使公众能够方便、清晰地了解其所在地区与其他地区的医疗卫生情况的比较。
(2)“排行榜”使市长和其他民间领袖能够跟踪和了解当地医疗卫生现状和存在的问题。
(3)社交网络应用能使医疗卫生领导者与其他人员互相联系,比较成效,共享实践经验。
(4)在线游戏能够帮助教育民众了解社区医疗卫生情况。
(5)PatientsLikeMe(像我一样的患者)是一个社交网络医疗站,建立在美国医疗服务部(US Department of Health Services)的开放数据之上,可让潜在患者有机会及早发现病情,也可让更多病人互相分享信息,彼此交流病症情况。
2.西奈山医疗中心
西奈山医疗中心是美国历史最悠久、规模最大的教学型医院之一,其在医学教育与生物医学研究方面的地位非常突出。目前该中心正利用来自大数据新兴企业Ayasdi公司的技术对整个大肠杆菌基因组序列进行分析,其中包括超过100万个DNA变异,旨在努力理解某些菌株如何在与抗生素的共处中获得抗药性。细菌的抗药性影响着全球各地数以百万计的病人。Ayasdi的技术为数学研究、拓扑数据分析(简称TDA)开辟了一片新天地,有助于人们更深刻地理解数据形态。西奈山医疗中心的目标是用这些方法为多种疾病的病人进行个性化诊断和治疗,比如癌症和糖尿病病人等,以及改善医院对病人的护理情况。
在预测方面,西奈山医疗中心已经将名为PACT的预测模型内置于电子医疗记录系统,用以预测出院病人90天内返回医院的可能性(新卫生保健法为医院提供了某些财政奖励,以减少90天内病人的再入院率)。根据预测,医疗中心的高风险病人或许将真正获得不同的护理,比如为他们分配一个治疗后协调员。
3.数据开放造就医生图谱
在ZocDoc、Healthgrades、Vitals、Yelp中虽然可以找到医生在病人中的口碑,但是,病人对医生的评价毕竟还是会存在一定的片面性和主观性。如果一位医生在其他医生中的口碑也不错的话,那这位医生应该就错不了。
自称为“黑客活动家”的Fred Trotter通过FOIA(信息自由法案)申请到了数百万份美国联邦医疗保险(Medicare)的医生推荐数据,然后将这些原始数据提供给Medstartr大众融资活动的支持者,成功募集到1.5亿美元。他还发动了将当前数据集与另一个数据集进行合并的活动,以打造“医生图谱”。
2012年11月,医患网络初创企业HealthTap发布了一项名为DOConnect的新功能,该功能将HealthTap自身的医生数据(约17000名医生)与Trotter拿到的联邦医疗保险医生推荐数据等结合起来,为病人展现出一个全新视角的医生互信网络。
此项功能可以让病人了解到250万名医生的推荐关系,每一名医生的关系和位置可尽收眼底。这些信息可以帮助病人在搜索医生和专家时做出决定,同时也可以让医生有机会建立一个反映其线下网络的在线网络。
Trotter的目标是创建一套病人感觉有用、医生认为公平的排名算法,同时也希望学术机构、医疗政策专家、创业者能够利用这套东西来提高医疗保健的整体透明度。
2.3.1.3 教育领域
目前全世界的教师和大学机构正在以免费开放版权的形式提供高质量的教育内容。更重要的是,偏远地区的人们使用这些内容也越来越方便了,带宽和通信连接打破了社会体系中一直存在的教育壁垒。
1.意大利教育部
意大利教育部、大学以及研究机构针对CC-BY协议成立了自己的开放数据门户网站,公开了意大利的学校(如地址、电话号码、网站、行政代码)、学生(如人数、性别、表现等)和教师(如数量、性别、退休等)等相关内容,旨在将所有的数据开放使其得到更透明公开的再利用。此举将有助于意大利学校教育系统更好地被公众认可,同时为学生、教师和家庭提供更好的服务。
2.“全球教育伙伴”开放数据以评估教育进步
“全球教育伙伴”(Global Partnership for Education, GPE)组织开始于2002年的“全民教育-快速跟踪计划”(Education for All-Fast Track Initiative, EFA FTI),致力于让所有儿童都走进学校接受优质教育的多边合作。在过去十几年中,GPE已经从7个成员国发展到接近60个成员国,调动了35亿美元扩大教育机会与提高教育质量,已帮助2300万儿童第一时间重返校园,同时支持了37000间教室的新建并培训了41.3万教师。其成员国68%的女童现在都完成了小学教育,其中18个成员国实现了入学机会的性别平等。
2013年5月,GPE宣布启动“开放数据计划”,第一批29个成员国数据在线免费开放,第二批25个国家的数据在2013年年底开放。开放的所有数据都是从淹没在GPE发展中国家成员伙伴的教育部门计划、相关部门总结文件、GPE贷款申请,以及由GEP合作伙伴,如联合国教科文组织与世界银行提供的数据中总结提炼出来,所有开放的数据都有原始来源,在注解中还具体说明了其背景和界定以及获取数据的方法。数据分6个教育大类共57项指标。六大类包括:关键教育产出与目标;国内、外部与GPE资助;学习结果,尤其是阅读与数学评估;地方教育团体的构成与发展伙伴;教育部门援助的效率。
作为监测与评价战略的一部分,GPE开发这一在线数据库的目的是对每一个GPE成员国的教育目标与实际结果进行比较,显示这些国家政府在让更多儿童走进学校、提高女童入学机会以及增加教师数量方面取得的进步,同时帮助这些国家评价其进步情况,并制定基于证据的计划解决儿童教育问题。
GPE认为,数据的免费使用将带来巨大变化,并有助于提高成绩并影响决策制定,还能有效刺激成员国增强该国的统计系统。
3.美国教育数据计划
美国政府于2012年6月初启动了“教育数据计划”,旨在帮助学生及其家庭从基于开放数据的创新中获益。2012年7月上旬,美国白宫、美国教育部和乔治华盛顿大学商学院联合召开了“教育数据困境”(Education Data Jam)研讨会,各界教育技术专家和企业汇聚一堂,就如何利用开放教育数据开发新的应用、产品、服务及产品功能,促进学生成才展开讨论,借助“我的数据计划”(My Data Initiative)鼓励拥有学生数据的学校、软件厂商和其他机构将这些数据以电子、机器可读的格式提供给家长和学生,使学生能随时掌握自己的学习概况,获取个性化学习体验,方便他们更理智地选择学校和财政资助。
4.MOOC教育模式
全球不断兴起的大规模开放式在线课程(Massive Open Online Courses, MOOC)教育模式,也是开放数据革新教育行业的另一例证。例如:Khan Academy在线网站有超过3000份教学视频,涵盖各个方面,从物理课程到金融学指南等不一而足。全世界的人都可以使用这个不断增长的资源库,或者贡献自己的内容。通过这一平台,孟买的学生可以通过手机获得MIT最顶级的课程,甚至成为一名教师,上传自己的教学视频。
2.3.2 城市大数据的协同应用
在政府信息资源开发利用方面,世界上许多城市已经率先开始行动。“开源城市”已经不仅仅是互联网时代对知情权的迫切需要,它已成为政府治理方式的革新手段。
1.基于媒体报道的China AidData项目
中国对非洲援助一直以来都是个饱受争议的问题,而在这长达60年的资助历史中,中国对非洲到底援助了多少金额,可能没有多少人搞清楚过。致力于国际援助款透明化与开放化的研究机构AidData在2012年起便针对这个问题展开了研究。
由于中国官方并未采用一些国际援助款登记平台,如经济合作与发展组织(Organization for Economic Cooperation and Development, OECD)的CRS或者国际援助款透明计划(IATI)的援助款数据平台,因此AidData无法通过搜索这些现有的数据库来获取所有援助款数据。AidData在这个项目中便采用了一种基于媒体报道的数据采集方式:通过对不同中外媒体源例如维基解密(WikiLeaks)、BBC的相关报道进行挖掘与整理,AidData研究员成功搜集了大量官方公开或未公开的对非援助项目以及金额数据,从而形成了China.AidData的数据库。2000-2011年中国对非年度援助金额分布如图2.6所示。

图2.6 2000-2011年中国对非年度援助金额分布
AidData在这个项目中证明了基于媒体报道的数据采集方式是一个很好的解密非公开援助款项目的手段。例如,非洲马拉维作为中国的受援助对象在其官方系统中仅公布了两项中国援助计划,但通过挖掘不同媒体报道,AidData成功地将额外14个总值163万美金的中国援助项目公开,进一步将中国对非援助计划透明化。
AidData的数据库目前囊括了2000-2011年间中国资助50个非洲国家的1673个项目,项目总值达750亿美元。为了便于记者、研究人员、政策制定人员等访问这些数据,AidData创建了项目网站china.aiddata.org提供数据的查询、访问、下载以及可视化。同时,为了提升数据的质量以及持续追踪中国对非援助项目,网站也接受用户提交的新信息,例如照片、文件、媒体报道、视频等。
2.开源芝加哥:把整个城市搬上GitHub
GitHub是一个代码托管网站,但与过往许多代码托管网站不同的地方在于,其提供了充分“开放”的工作模式。它鼓励任何人对一个公开的代码库进行“复制”从而对原有代码进行修改、扩展、改正,同时,它也充分鼓励任何人参与项目的讨论,可以新开一个“工单”来提出问题,汇报Bug,建议新增功能。正是这样“开放”的模式使其成为程序员界最重要的工具和社区。
在2013年2月,芝加哥市政府决定将其整个城市的数据上传至GitHub,并鼓励所有人来“复制”它们的数据,帮助它们提升数据的质量或者利用这些数据做出创新的应用。这是自2009年奥巴马政府宣布全国开展开放数据运动及英国成立开放数据研究所以来,开放数据领域的又一模式创新。
如果说将数据放在开放门户提供民众下载是开放数据1.0,那么将数据放在GitHub这样一个鼓励开放协作的平台就是进入了开放数据2.0。开放协作使得数据能够像代码一样被“复制”并由社区来提升质量,而这就提供了一个“发布者-使用者”之间的双向通道来进一步帮助城市管理者将数据化为真正有用的资源,这是仅将数据开放下载所不能达到的效果。
3.开放的城市服务热线:从FixMyStreet到Open311
FixMyStreet是英国民间非营利机构MySociety推出的第一款产品,也是首款在城市服务领域内引入开放模型的应用。往常,对于公共设施比如路面、街道路灯等的报修以及其他城市服务的投诉都是单向、单人的沟通,这也就造成了问题的重复投诉率高、处理进度不透明等问题。而FixMyStreet首次引入了开放模型,将单向、单人的沟通改造成双向、多人的沟通模式,允许多人集中对一个问题进行投诉,并提供平台对有关部门的处理进度进行追踪。
例如英国南安普敦市市民向市政府投诉有路障倒地阻碍了人行道,地图上标记了准确的问题地点,次日早上市府便立刻回复说该问题已登记在案,并且在问题解决后,立刻再次回复让公众知情。
这样的开放模型在解决城市服务问题中有着众多的优点。首先,这样的开放模型更容易吸引人参与到城市问题的投诉中。对于如今的手机党、微博党、微信党而言,简单地在地图上点点,写上两句话,要比一本正经地拨打热线电话更容易。其次,沟通成本会更低。传统的热线电话方式,使得单一问题的投诉重复率大大增加,而开放模式则使得单一问题能够由多人同时参与,这也就减轻了相关部门在接受问题投诉上所付出的时间和人力成本,避免资源浪费在同一问题上。最后,采用开放模型是政府树立良好形象的极佳途径。开放模型不仅是将工作流程开放,允许更多民众参与,更是对信息的透明化:政府何时受理该问题,是否持续跟进,是否已解决问题等信息都通过一个透明化的渠道让公众知情,而这也能更好地塑造一个透明、公开的政府形象。
FixMyStreet的成功,引爆了一场民间对城市服务热线改造的风潮。各种类型的类似产品在各个国家、城市相继推出,民众的参与热情一度高涨,但随之产生的问题也越来越多。首先,民间自行开发的类似产品虽然可以吸引民众参与,但是有时候却无法保证政府的参与。其次,由于产品过多,政府不可能在所有产品上同时跟进问题,这反而降低了政府效率。最后,因为每个人采用的产品很可能不同,因此投诉的重复率问题又回来了,因为民众的注意力被不同产品分散了。
为了解决这些问题,Open311诞生了。Open311本身并不是一个新的App,而是一个供第三方应用与政府的城市服务热线进行数据交换的API标准。它所制定的标准确保了各个地方政府采用统一的接口来供第三方产品使用,这样就确保了所有第三方应用都能通过统一的渠道将数据反馈到政府机构。同时第三方应用之间也就有了统一的接口来交换以及同步数据,从而解决了上文提到的由于产品过多,民众的注意力被分散的问题。
更为重要的是,Open311制定的API标准使得城市服务热线的数据得以真正开放。而此类数据对于城市规划等问题是极为重要的。2010年,Wired就曾经从纽约的NYC 311服务里私下获取过近百万311电话的数据,并就此制作了可视化图表进行数据分析。而现在有了Open311协议,通过开放的渠道来完整取得相关的数据就不再是问题了。
Open311脱胎于美国城市服务热线311,但它本身不仅是一个美国的标准,而是期望成为一个国际标准。目前除了美国的城市比如纽约、芝加哥之外,还有英国南安普敦、巴尼特,芬兰赫尔辛基等城市采用了Open311的API标准。
4.用众包的LocalData和Streetmix设计城市
城市规划听上去好像是一件离老百姓很远的事情,但如果政府采用开放模型来重新组织城市规划活动,那么普通民众也能参与其中,并且还能出其不意地帮助城市规划部门提升效率。如城市规划的前期调研,规划机构往往需要耗费大量人力成本和时间成本来收集详细的城区地块数据。而这一过程如果能够让熟悉这一地块的民众来协助,则会事半功倍。2012年,美国Code for America的一批成员(Fellow)在和底特律市合作过程中,便意识到了这个城市规划中收集数据的难题,进而开发了一款新的应用LocalData。LocalData引入开放模型的理念,由规划部门来设定详细的问题,而民众则可以通过实地考察,然后在手机应用上录入数据回答问题。
这种众包的思路在不同的美国城市都取得了极为难得的成绩。例如,印第安纳州的格雷市从20世纪60年代起就面临着人口衰减的问题,如今整座城市到处都是空宅无人居住,市政府有意将一些空宅拆除另做开发,但又缺乏翔实的数据来确定需要拆除的建筑范围,于是LocalData便成为解决这一问题的关键。通过市政府和芝加哥大学公共政策学院的合作与协调,当地67名志愿者调查了市内2000英亩的11651幢房屋。而调研的结果通过LocalData的可视化功能直观地展现给决策者,让他们了解空房的密度、空间分布情况等,极大地方便了拆除计划的制订。
普通民众的参与方式当然不仅仅局限于做这些数据的收集工作。Streetmix是另一个由Code for America的成员制作的应用,旨在释放人们对自己城市街道的想象力,用简单的网页应用,通过拖曳页面元素,设计出自己心目中的街道。而人们对某一街道的设计,又能通过该平台汇总产生统计数据,例如“70%的设计中包含了一条自行车道”,那么决策者便能更好地决定是否要在新街道规划中预留出一条自行车道以及具体如何设计它。这一应用一经推出,便受到了民众的广泛欢迎。因为它本身简单易用,很多人便把它作为简易版的“模拟城市”游戏来尽情发挥想象力。例如,一位网民制作的Streetmix街道图就展现了把整条街都占领当作自行车道的“霸气”设想。
5.加利福尼亚州ISO优化电网运行
加州独立系统运营商(简称ISO)管理着全加州地区超过八成电网中的供电走向,每年提供的电力达到2.89亿千万时,惠及3500万民众,供电线路的总长度超过25000英里。他们利用Space-Time Insight公司的软件实现情景智能化机制,从而将多个来源的大规模数据进行关联与分析,其中包括天气状况、传感器数据以及计量设备测绘结果等,并以可视化形式帮助用户查看及理解如何对可再生能源进行优化,实现整个电网的电力供需平衡以便快速应对潜在危机。
6.拉斯维加斯市构建实时公共事业网络模型
由于记录太过古老、信息不够准确,大部分城市中的公共事业机构都不了解埋在地下的资产处于何种状况——因此居民往往会由于某条供电线被意外切断或者某条供水管线老化爆裂而受到影响。为了解决这些难题,拉斯维加斯市采取智能数据方式开发出一套实时公共事业网络模型。VTN咨询公司帮助市政当局通过各种渠道汇总数据,并利用Autodesk技术创建出实时3D模型。这套模型中包含着地上与地下的所有公共设施,目前已经被用于监测城市地下设施的具体位置以及运转状况。
7.迈阿密市属戴德县使用情报仪表板节省开支
佛罗里达州迈阿密市属戴德县希望将35个区域自治单位与迈阿密市聚拢起来,努力帮助政府领导做出更为明智的管理决策——包括充分利用水资源,减少交通拥堵以及改善公众安全等。IBM通过云计算环境下的深层分析为该县带来一套情报仪表板,从而帮助各机关与部门彼此协作并实现可视化管理。举例来说,戴德县公园部门2013年预计将通过识别并修复因锈蚀而漏水的浇灌管道节省100万美元经费。
8.西雅图市使用公有云、大数据实现节能措施
西雅图市最近与微软和埃森哲试点大数据节能项目。该项目基于微软的Azure云计算平台,可收集和分析来自四个城区建筑管理系统的数百个数据集。通过预测分析工具,大数据系统将能找出可行的节能措施,目标是将耗电量降低25%。
9.波士顿鼓励个人“领养”消防栓减轻市政负担
波士顿的冬天积雪很厚,2013年1月份波士顿新城区办公室发布了一款名为“领养消防栓”的应用。根据哈佛商学院博客,该项目在地图上标注了全市13000个消防栓的位置,市民可以申请“领养”一个或多个消防栓,并承诺在大雪天负责将自己领养消防栓从积雪中挖出来。完成“领养”手续后,志愿者将在消防栓被雪埋时收到消息通知。