国际政府数据开放的经验与启示 | WeCity观察

|WeCity 作者:李瑞龙 2021-05-11

​   

 

作者

李瑞龙    腾讯研究院高级研究员
梁恺璇    腾讯研究院助理研究员

智慧城市的建设源起于全球各国城市化率的快速上升、城市场景的不断扩充,以及随之而来的在城市决策、治理、服务等方面复杂度的增加。 在此背景下,数据被赋予了重要的生产要素属性。 城市所产生的呈指数级增长的数据若加以有效利用,将会作为宝贵的社会资产创造出巨大价值。 通过整合以数据为代表的新型要素和以人、财、物为代表的传统要素,可以实现对城市更高效治理的赋能和对居民、企业更全面精准的服务。 万维网之父伯纳斯·李在2010年接受BBC采访时表示: “政府数据是未开发的资源,我们为之付出了很多,但如果数据永久封存在某个人的办公室,则是一种浪费。 ”

英国、美国、新加坡、澳大利亚等国已建立并不断完善自己的政府数据开放平台,通过收集、记录和整合多地区各部门的数据资源并以可机读、易处理的形式予以开放,与社会进行双向互动和分享,极大地助力了政府透明度的提高和社会创新活力的迸发。 全球范围内,各国也针对数据开放这一主题开展了多次国际性的交流,取得了一系列阶段性成果。

然而,数据开放还面临着诸多挑战和难题,例如如何从数据的维度出发,平衡涉及个人权益的隐私保护与聚焦社会公共利益的数据开放。 在数据量剧增和数据来源扩大的情况下,保证数据获取的准确度、可信度和便捷性的难度也相应上升。 如何通过强有力的技术手段、完善的政策文件和与各层级机构的协调,保障数据的高质量,是世界各国正在探索的方向。

 

核心关键点

 

政府数据是指行政机关在履行相应职责过程中生产、采集、加工、使用和管理的数据,具有数量大、增长快、权威性、公共性、经济和社会价值大等特点。 根据数据来源可以把政府数据分为五大类:政府各部门内部管理中所产生的数据、政府在社会管理和公共服务中实时产生的数据、由政府专门的职能机构采集的社会管理数据、政府通过业务外包或采购方式获得的数据、从公开渠道获取的数据。 在不侵犯国家安全、商业机密和个人隐私的情况下,政府机构向公众无差别地免费开放高价值数据,一方面有利于提高行政透明度,提升政府治理能力和效率,减少腐败舞弊的发生; 另一方面也有利于包括个人、企业和其他社会组织在内的各主体便捷地获取信息,并将其转化为价值反哺社会,推动创新和经济发展。

2015年,《国际开放数据宪章》(ODC)诞生,确立了开放数据的六大准则: 第一,默认开放。 这代表了政府运营模式和与公民交互方式的真正转变,在不侵犯公民隐私的前提下,一改以往由公民向政府申请提供信息的规则,从被动开放转变为主动开放。 第二,及时和全面。 政府应尽可能以原始、未经修改的形式提供即时全面的数据。 第三,可获取和可使用。 不仅要免费提供数据,还要确保查找和机读的便捷性,并在文件格式等方面提升用户体验。 第四,可比较和可互操作。 采用统一的数据标准提供高质量数据集,更有利于挖掘数据价值。 第五,改善政府治理和扩大公民参与。 第六,包容性发展和创新。

英美等国家早在2009年就针对政府数据开放展开了一系列准备工作。 随着开放政府合作伙伴组织(OGP)等国际组织的成立和日渐频繁的国际合作的开展,政府数据开放这一议题在各国的地位越发显著,更多国家加入到开放数据的探索热潮之中,贡献了许多卓有成效的案例和值得借鉴的经验。

(一)开放数据类别

数据开放类别的扩充,可以帮助政府拓宽与市民、企业等社会主体的互动边界,激发更广泛的社会参与、创新和更大的经济增长动力美国www.data.gov从上线时仅有47个数据集和27个工具发展到目前约21万余个数据集和上百个工具,开放共享的数据主题包括气候、能源、海洋、消费者、金融、老龄化等21个类别。 其数据规模之大,覆盖领域之广,为美国政府数据开放共享的稳步发展奠定了重要基础。 截至目前,美国“地方政府”类数据集占比最高,共23855个; “教育”和“气候”类数据集数量位居第二、第三,分别有463个和462个。 Data.gov.sg是新加坡政府的数据开放平台,于2011年6月启用,数据范围涵盖经济、教育、环境、金融、健康、基础设施、社会、科技、交通九大领域。

然而,扩大数据开放也会加重政府的负担,若不加区别地开放大量数据,可能会造成对政府工作效率的损耗。 因此,政府在制定数据开放计划时,通常也会依据数据的社会价值进行有选择性和有优先级的开放。 例如, 英国吸纳了Stephan Shakespeare 提出的“数据双轨发布”策略,将传统“自上而下”的政府发布机制与“自下而上”的市场牵引机制结合起来,加强与现有和潜在数据使用者在数据开放规划过程中的联系,将有限的资源优先投放于高需求领域,确保政府工作满足用户需要。 目前,英国政府的数据开放门户网站data.gov.uk上公开的数据类别有: 商业与经济、犯罪、国防、教育、环境、政府、政府支出、健康、地图、社会、城镇、交通共12大类。 这些重点类别不仅包含了国家经济和能源等宏观维度的内容,也凸显了英国政府对民生(环境、教育、健康、老龄化)、安全(灾害、国防)等领域的重视。

(二)元数据标准

《国际开放数据宪章》确立的六原则之一是“基于标准的数据可比较和互操作”数据标准是“数据的命名、定义、结构和取值范围方面的规则和基准”,数据标准建设保障了各方(数据提供者、发布者、中介和使用者等)对数据内容、含义和格式等的共同理解,提升了系统间的互操作性,是政府开放数据保障机制建设的重要内容。 目前,基于标准规范的目录聚合已成为国际发展趋势。 而为实现数 据目录聚合,首先需要开放数据的元数据标准及目录清单的描述规范。

美国白宫的“开放数据项目”在2014 年11 月发布的元数据标准POD v1.1中规定,每个数据平台的目录清单文件以data.json 命名,格式为JSON-LD(JSON for Linked Data),模式遵循POD v1.1 所定义的Catalog 模式,文件的URL 为www.[agency].gov/data.json。 这套规范不仅在美国地方政府得到了广泛应用,也推广到英国、澳大利亚和爱尔兰等国家。 在英国,面向Data.gov.uk的自动聚合功能,使得各地方政府能以统一的格式建立数据目录清单。 “ 目录清单模式”(Inventory Schema)标准规范了“目录清单”“数据集”和“数据资源”等的元数据。 在此标准基础之上,英国建立的数据目录聚合机制具有平台弱相关或无关、适应性强、自动高效、支持数据的细粒度比较和融合的优势。

(三)数据开放体验/数据获取与用户反馈

1. 数据检索

政府数据开放平台所提供的检索功能是否足够高效,与数据获取的便利度息息相关。 一个好的检索体系不仅能在数据规模日益增加的条件下确保数据查找速度,也能体现出一个国家数据公开的专业性。 美国、英国、澳大利亚等国基本都提供快速检索与筛选功能,除按主题词进行快速匹配外,还可按发布部门(及部门类型)、主题、文件格式、数据集类型、内容标签等维度进行筛选,检索结果可按热门程度、发布时间、最近修改时间等标准显示。 此外,美国和英国还支持布尔逻辑检索、字段限制检索及段与短语检索,欧盟还在首页显示最热及最新下载数据,并定期进行更新。

开放数据的格式同样与用户在数据获取和查看的体验紧密关联,《国际开放数据宪章》(ODC)的第三条即可得和可用性——“确保数据可以便捷查找和机读,应免费提供,并从文件格式方面提升用户体验”。 常见的机器可读格式有PDF、WMS、GeoJSON、SHTML、HTML、XLS、CSV、do、XML、WFS、JSON、XML、RDF、XSL、KML/KZM、Open XML、ZIP和Net CDF等,其中CSV、XML、JSON是各国较常用的几个可机读格式。 除此之外,美国也提供ESRI Shapefile等地理空间数据格式,其优点在于结构简单、易实现,因此也得到了较广泛的应用。

合格的开源平台、元数据API使得数据能以更多便捷方式被读取。 包括美国、英国、澳大利亚在内的多个国家的开放数据平台都由CKAN给予支持。 美国开放数据网站提供元数据来源链接,并通过CKAN API来使用。 同样建立在CKAN之上的伦敦开放数据平台共提供了四类元数据API,使得外部应用程序能够全部或部分读取数据集的元数据记录。

2. 反馈机制

政府数据开放的初衷在于增进社会参与和政府透明度,相应地,在建设发展的进程中也就需要注重与用户的双向互动,用户反馈是检验平台数据丰富度、用户体验、数据质量等成效的重要指标。 目前,各国数据开放平台大多提供用户反馈通道,只是在交互方式上略有区别。

美国《开放政府指令》规定,各联邦部门应建立可运行的开放政府网页,并在网页上提供反馈机制。 美国政府数据开放网站采取了多元化形式,为用户提供了在各个页面上提交表格和发送电子邮件等形式的直接反馈渠道,以及通过Google+、Twitter、Github等平台进行交流的间接反馈渠道,反馈机制还要求各联邦部门定期回复用户提出的意见和建议。

英国的开放平台为用户提供了反馈表单,通过含有8个问题的短问卷调查用户寻找该网站的便捷度、访问原因、数据搜索效果、数据使用目的、数据处理工具等信息,以更全面地了解用户为什么访问、如何利用平台和数据、使用效果如何。 用户还可通过平台的“支持”页面反馈问题,申请新数据或发布其他机构的新数据。

(四)鼓励社会参与

为了促进公众参与,各国的数据开放往往伴随着关于数据应用的激励措施。

美国政府数据开放网站在开发人员的页面上设置了一个“挑战”模块。 该模块列出了联邦政府工作中遇到的最有难度的问题,并标明其详细信息,包括项目名称、奖金、截止日期等。 还通过召开各领域头脑风暴创意会议、新闻发布会和成果演示会,调动了全社会的力量共同解决www.data.gov项目中的难题。 政府通过数据的公开吸引社会力量的关注、参与和数据利用,进而提升社会创造力,而公众在探索数据利用与社会现实问题相结合的过程中,也会产生新的关注点和新的需求,从而反向引导政府提升开放数据的质量和精准性,形成正向循环。

英国于2012年成立了开放数据研究所(Open Data Institute),总部设在伦敦。 这是一个独立、非营利、无党派的有限公司,用以促进商业界、学术界、政府和社会在开放数据方面的合作,构建开放、可信任的数据生态。

图1.美国开放数据挑战官方网站界面

 

(五)政策法规保障

对政府数据开放工作的维护,往往需要一整套统一而完备的政策法规体系,为数据的收集、发布、获取、质量等做全方位的方向性支撑,在保障公民获取数据信息的权利的基础上,制定专门的数据开放政策,并建立完善的政府数据管理规范,辅之以隐私保护和信息安全的法律保障。 既要有前瞻性,预见到数据开放发展方向及可能出现的问题,还要有较高的可操作性,从面到点提供切实可行的执行层面指导。 同时在政府数据开放的不同阶段,还要根据特定时段的主要问题采取正确的策略重点,循序渐进地推动开放工作进行。

以美国为例,美国政府数据开放政策从2009年开始至今经历了几个阶段的发展变化,随着美国政府数据开放面临的不同问题和需求而不断改进。 初期,从传统的政府信息、被动公开向更符合时代需求的全民信息、主动公开转变,为透明开放的政府建设打下了基础; 其次,数据开放更加细化的形式和质量要求被相继纳入; 之后,继续推动政府数据开放适应技术和社会需求的演进,以达到高效数据开放和治理的目的。 美国政府开放数据体系以美国前总统奥巴马颁布的《透明和开放政府备忘录》和《信息自由法案备忘录》为总纲,以司法部颁布的《信息自由法案》《信息自由法案指引》为指导,以《开放政府指令》《使开放和可机读成为政府数据默认状态的总统行政指令》《提高对联邦资助的科学研究成果开放的备忘录》《开放数据政策》为具体管理办法,以《开放数据的元数据规范》为技术标准,结合《开放数据项目》作为技术开发人员的工具库,以及《数据政策》和《隐私政策》作为用户使用网站时的规范和说明,并融入相关的考核评估体系及激励机制,是一套从数据发布、采集、管理到应用全流程的管理体系,保证了www.data.gov的良性运行和不断发展。

英国数据开放的开放也伴随着法律法规、政策文件的同步完善及有力支撑,包括《信息自由法》(2000)、《公共信息再利用条例》(2005)、前首相卡梅伦向政府部门发出的有关数据开放的信件以及《地方政府透明准则》(2014) 等。

 

风险与挑战

 

(一)数据安全与个人隐私维护

政府所掌握的数据中,包括一些结构化数据,如学校、医院名单等,也包括非结构化的、含有单个公民信息的数据。 英国开放数据研究所(ODI)在2019年对2007名英国成年公民进行调查发现,87%的受访者认为合理利用个人数据非常重要,而30%的受访者不信任国家政府会合理使用他们的个人数据。 因此,政府必须在保护个人敏感信息(如健康类数据)方面制定合理、完善的监管框架以赢得公民的信任,当涉及数据开放时要保证其公开的合理性以及对隐私的绝对维护。 一些国际组织已在市民个人信息与隐私问题上迈出了步伐,如2019年,欧洲城市联盟组织EUROCITIES发布了一份关于市民数据利用相关责任的行动原则指南,其中一项重要原则即为: 市民的数据必须被同时看作是公共和私人的资产,只能在符合公共利益的情况下被使用。 不同国家在完善数据开放体系的进程中也同步进行相关法律法规的制定,力求提高数据政策在数据采集、利用和公开方面的合理性。

图2.EUROCITIES市民数据行动原则

 

2012年,新加坡政府公布了《个人资料保护法》(PDPA),旨在防范对国内数据以及源于境外的个人资料的滥用行为; 2013 年,美国政府在《开放数据政策——将信息作为资产进行管理》中也对隐私权保护和判定做了进一步规定,政府必须把隐私分析纳入信息生命周期的每个阶段; 2016年,英国政府在10月设立了国家网络安全中心(NCSC),11月发布了国家网络安全战略。 在2017年2月发布的《政府转型战略: 更好地利用数据》政策文件中,英国政府强调2020年之前的优先任务之一,是安全合理地管理和利用数据,保证公共部门工作人员理解数据分享的道德准则,包括什么被允许和什么不被允许。 为了达到相关要求,英国政府设立了新的数据咨询委员会来辅佐政府对数据的使用,同时向市民强调政府在利用数据过程中不单致力于提高服务效率和生活质量,也恪守安全负责的原则。

(二)数据质量控制

随着开放数据规模的不断扩大和来源机构的不断增加,质量控制问题便逐渐浮出水面,成为政府在数据开放之路上必须面对的挑战。 例如英国数据服务中心(UKDS)就曾指出,政府发布的数据中有无数(可避免的)错误的例子,批评政府数据缺乏质量控制机制。 数据在其生命周期中,从产生、收集、存储,到整合、发布、利用(或再利用),需经过若干环节。 因此监管要结合整体视角和局部视角放眼全局,以保证开放数据质量为目标。 利用数据标准提高整合效率,优化用户参与机制从而反向激励政府工作质量的提高,以完善的政策法规体系为政府划定隐私与开放之间的清晰界限,明确政府数据开放的时间规划、流程和责任等组织类事项,都有助于开放数据质量优化。

为使数据质量评价标准化,各国均采取了一些措施来构建本国数据质量评分体系。 英国Data.gov.uk采用并扩展了万维网之父伯纳斯·李关于数据开放度的5星评分标准: 1颗星代表着在网络上公开数据(无论使用任何格式); 2 颗星代表使用了结构化数据(例如xls格式); 3颗星意味着使用了开放格式的结构化数据(如csv或xml格式); 4颗星代表着使用了可关联数据(如使用了url链接); 5颗星代表使用了关联数据(除提供url链接外,还可链接其他数据)。

美国政府数据开放网站开发了一套完整的评估系统——“开放数据项目仪表盘”(ProjectOpen Data Dashboard),包括人工评价、系统自动评估和第三方评估3个层面的评估机制。 人工评价机制从政府部门的数据清单、公众参与度、隐私保护和数据安全性、人力资源合理性、数据的利用和影响等6个方面进行评估评价; 系统自动评估的绩效指标主要包括数据集的访问量和下载量、有效数据集的数量、API的使用量、元数据的合格率、可下载数据集的百分比、可开放数据集的百分比、可访问链接的百分比、与上季度数据集对比的增长率、链接转指的次数、最后修改的时间等。

 

后记

全球政府数据开放的探索还在如火如荼地进行,越来越多的国家或纷纷着手筹备数据开放的初步框架,或响应开放政府合作伙伴组织(OGP)等国际组织的行动计划来调整完善本国的工作规划。 尽管前路仍会有各种新的挑战有待攻克,但毋庸置疑的是,在市民用户化、城市智慧化的历史进程中,更加开放、以人为本、注重合作的政府会成为社会发展的必然趋势,而数据开放只是政府从自我中心到遵循公众导向的一个侧面反映。 政府通过数据开放,可以在一定程度上缩窄现存于世界各国的数据鸿沟,也会在城市的建设中注入更新鲜而蓬勃的血液,城市和市民、城市和政府、市民和政府间的关系在动态中将得到持久的演变。 
 
参考资料:

【1】https://opendatacharter.net/principles

【2】https://catalog.data.gov

【3】https://data.gov.sg

【4】https://data.gov.uk

【5】https://www.smartcitiesworld.net/news/less-than-a-third-of-brits-trust-local-authorities-to-use-personal-data-ethically-4779

【6】https://docs.google.com/spreadsheets/d/1H9CHzJ1nRs7DlMoGqm9MMPE4e7HwDIAe0a6jppeGmOg/edit#gid=637500131

【7】https://www.smartcitiesworld.net/news/european-cities-share-10-principles-for-using-citizen-data-4814

【8】EUROCITIES, EUROCITIES CitizenData Principles in Action,2019.

【9】相丽玲,李彦如,陈梦婕.中外政府数据开放运行机制的实证分析[J]. 现代情报,2020,40(1): 134-143.

【10】王娟. 国内外政府开放数据质量研究述评[J]. 图书馆理论与实践, 2019.

【11】王萍,周霞,宋婧馨,文晴,陈为东. 国内外政府数据开放平台研究述评[J].情报理论与实践,2020,43(8):186-194.

【12】王祎,张辉,陈延风.美国政府数据开放网站管理体系研究及启示[J].中国科技资源导刊,2020, 52(1):14-18,89.

【13】白献阳.美国政府数据开放政策体系研究[J].图书馆学研究,2020,02:40-44.

【14】王晶.美国政府数据开放政策最新进展及启示[J].信息通信技术与政策,2019,09: 35-38.

【15】刘汪洋,翟军,梁艺多,程序,谢真强.英国政府开放数据的目录聚合机制及对我国的启示[J].图书馆,2019(4): 53-59.

前沿杂志
互联网前沿61

2022年,从引爆AI作画领域的DALL-E 2、Stable Diffusion等AI模型,到以ChatGPT为代表的接近人类水平的对话机器人,AIGC不断刷爆网络,其强大的内容生成能力给人们带来了巨大的震撼。

2023-05-12

全站精选