沈艳 | 数字中国建设中的公共数据开放

沈艳 | 数字中国建设中的公共数据开放

导读:文本为北京大学汇丰商学院院长助理、北京大学数字金融研究中心副主任沈艳与北京大学数字金融研究中心博士后冯冬发在《北大金融评论》一遍文章。分享再次,以飨读者。


数据要素是数字经济深化发展的核心引擎。2023 年 2 月,中共中央、国务院印发了《数字中国建设整体布局规划》(以下简称《规划》),明确了数字中国建设将按照“2522”的整体框架进行布局。其中,第一个“2”指夯实数字基础设施和数据资源体系这“两大基础”;夯实数字基础设施是指打通数字基础设施大动脉,数据资源体系建设提出要“畅通数据资源大循环,构建国家数据管理体制机制,健全各级数据统筹管理机构,推动公共数据汇聚利用,建设公共卫生、科技、教育等重要领域国家数据资源库”。可以看到,“推动公共数据汇聚利用”是两大基础的重要组成部分。2023 年 3 月党的二十届二中全会通过的《党和国家机构改革方案》宣布,要组建国家数据局,数据资源整合共享和开发利用将是这一新机构的工作重点。因此,如何推动公共数据汇聚利用已经成为数字经济发展中的关键问题,有必要对我国公共数据汇聚利用的现状作更深入的了解,这也就离不开对公共数据开放的讨论。

为什么要推动公共数据开放?

目前,我国数据交易关键瓶颈之一,是数据产出大、数据交易市场规模小,这极大制约了数字经济的发展。数字中国发展报告(2021)显示,2017-2021 年间我国数据产出居世界第二,全球占比 9.9%,但据国家工业信息安全发展研究中心的测算,2020 年我国数据要素市场(含数据清洗、标注、交易等环节)规模约为 545 亿元,约为美国的 3.1%、欧洲的 10.5%、日本的 17.5%。

北京大学国家发展研究院课题组 2022 年的研究发现,从建立健全数据交易市场体系面临的问题看,数据供给方、数据需求方以及数据交易环节在数据交易体系中均面临困难。

首先,数据有效供给不足,品牌数据缺乏。数据要素型企业和公共数据部门虽然面临的数据需求很多,但是交易或者流通收益少或者不清晰、数据交易合规风险和数据安全风险大,导致数据供给方不想卖、不敢卖,培育品牌数据困难。

其次,数据需求也因为种种原因难以满足。例如,识别需求难,即需求方精准将市场需求转化为数据需求的环节存在难度 ;又如寻找合适数据难,需求方准确明白自身需求,但不清楚哪里有这样的数据 ;再如货比三家难,指需求方不清楚不同数据的质量差异,难以做到货比三家 ;还有内外整合难,指外部数据和内部数据标准可能不同,导致难以整合运用等。最后,还存在数据交易机制不顺畅的问题等。

这些问题中,优质的数据供给,是解决问题的关键。在一体化政务服务的开展过程中,各级政府掌握了海量公共数据,通过加大优质公共数据的供给,推动公共数据开放,可以极大激发我国数据交易的活力。因此,推动公共数据开放势在必行。

我国公共数据开放现状

首先,什么是公共数据和公共数据开放?《上海市公共数据和一网通办管理办法》定义公共数据是“各级行政机关以及履行公共管理和服务职能的事业单位在依法履职过程中,采集和产生的各类数据资源”;《2021 年度北京市公共数据开放白皮书》则将公共数据开放界定为“公共管理和服务机构面向自然人、法人及其他组织提供具备原始性、可机器读取、可社会化再利用数据集的公共服务”。相比之下,美国 StateRecords.org 的定义更宽泛 :公共数据是“由政府机构、部门和机构根据特定法律(如 1950 年修订的联邦记录法或信息自由法)收集、接收和维护的信息和数据,对公众开放。顾问或承包商代表公共机构创建的记录也被视为公共数据。”

《规划》出台前,我国已经为推进公共数据开放作出不少努力。2015 年,国务院印发《促进大数据发展行动纲要》,将“加快政府数据开放共享”列为各有关部门未来 5 至 10年内的主要任务之一。2017 年,中央网信办、国家发改委、工信部联合印发《公共信息资源开放试点工作方案》,确定在北京、上海、浙江、福建、贵州开展公共信息资源开放试点。2020 年,《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》明确提出要“推进政府数据开放共享”。2021 年通过的《中华人民共和国数据安全法》提到“国家大力推进电子政务建设,提高政务数据的科学性、准确性、时效性,提升运用数据服务经济社会发展的能力”,要求“国家机关应当遵循公正、公平、便民的原则,按照规定及时、准确地公开政务数据”。同年,《中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要》将“加强公共数据开放共享”列为国家发展战略之一。2021 年年底,国务院印发的《“十四五”数字经济发展规划》将“建立健全国家公共数据资源体系,统筹公共数据资源开发利用,推动基础公共数据安全有序开放,构建统一的国家公共数据开放平台和开发利用端口,提升公共数据开放水平,释放数据红利”列为国家未来一段时期内的重要工作目标之一。

我们根据政府公开信息和新闻等,收集整理各省公共数据平台开放的情况,并总结我国公共数据开放主要特征。首先,我们发现我国公共数据开放平台的努力取得了不少成绩。截至 2023 年 3 月 4 日,我国已有 25 个省级地方政府上线了政府公共数据开放平台。

第二,公共数据平台的上线情况与地方的经济发达程度密切相关。图 1 刻画了以 2022年 GDP 为基准,不同省份的上线年份和人均GDP 之间的关系,其中横轴标志上线年份,纵轴为人均 GDP。可以看到,上线年份和人均GDP 之间有明显的负相关关系,越是经济发达的地区(如北京、上海、浙江、广东),越早开始推动公共数据开放。

第三,我国公共数据平台还处在初级发展阶段,这主要体现在如下三方面。一是数据数量不足。跟欧洲公共数据平台上超过 150 万数据集相比,表 1 显示我国公共平台中数据集个数过万省份只有 5 个(贵州、广东、四川、山东和北京),而大部分省份数据开放平台数据集较少。二是数据使用不充分。下载率(下载量除以浏览量)超过 20% 的省份有上海(28.97%)、贵州(21.34%)和湖南(20.78%),25 个省份中,有 11 个省份的数据下载率在 10% 以下。三是数据安全和使用便捷性需要加强。接口服务是地方政府运用各类算法工具清洗、归档原始数据后,允许用户通过事先约定好的标准方式在线访问数据的一种渠道。如果用接口率(接口服务数 / 数据集数)之比来衡量数据公共平台对安全性的安排,则只有三个省份为一个数据集至少提供了一个接口(浙江、福建和安徽)。

第四,从数据主题角度来看,各省开放数据丰富程度不足。目前,公共数据平台主要涉及的领域包括经济建设、信用服务、财税金融、卫生健康、教育科技和资源环境等。图 2 报告了各省在上述领域的上线数据情况,可以看到,除了广东省上线较多经济建设相关数据外,其余省份数据目录数量差异较大,而大部分省份上线数据目录数较少。

最后,从各省公共数据开放平台的设计页面来看,各地公共数据开放平台界面建设差异较大,可分为四个梯队。处于第一梯队的省份不仅展示罗列原始数据、提供数据接口服务,更是积极主动地邀请社会公众、科研院校、商业公司参与各类创新大赛,通过发掘定向数据中蕴含的丰富信息来创造社会价值,如北京、上海等。处于第二梯队的省份由商业机构来完成定制的开放平台,版式设计、数据统计、基本功能等方面采用较为成熟的市场化解决方案,如山东、四川、辽宁三省采用同一家公司来设计界面。处于第三梯队的省份较为落后,属于标准的传统型政府网站,缺少接口服务、提交数据需求、咨询纠错等基础功能。而第四梯队是打不开或者还没有公共数据平台。目前,湖北、甘肃、青海、宁夏、新疆等 5 个省级公共数据开放平台目前处于不可访问状态 ;河南公共数据平台需要下载 APP、人脸识别注册后才能登录。

总体来看,公共数据开放中也存在不均衡。其中,发达省份开发平台早、数据集丰富、运作规范,而相对落后省份开发平台晚、设计落后,更难发挥公共数据的作用。数字经济时代,要缓解地区发展不平衡,就需要大力推进公共数据开放、尤其是助力落后地区开发相关平台,避免在公共数据开放领域也产生新的不平衡。

推动公共数据开放的几点思考

推动公共数据开放和共享需要讨论和澄清一些看法。例如,一种看法是,公共数据涉及公众利益与国家安全,为避免产生数据安全问题,要谨慎推行公共数据开放。回应这个问题的关键点是,公共数据不开放,是否就安全了?答案是否定的。

首先,不使用数据就无法了解数据特征,就不知道数据的缺点、弱点在哪里。孙子兵法所说的“知己知彼,百战不殆”,不使用数据,可能连“知己”都做不到,有效防范攻击也就无从谈起,应对数据风险是加强数据安全的宝贵学习机会。通过对数据风险事件的梳理,有关部门可以对数据被出售的方式、数据风险犯罪手法和企业发展策略等方面的问题均有更全面的了解,这些信息都是未来防范新的风险事件的抓手。

其次,即便不使用数据保障了数据安全,但有数据生产要素却不运用的代价是无法通过发展获取数字红利。北京大学国家发展研究院副院长黄益平在《应加强而不是削弱平台经济创新能力》一文中提到,印度新兴独角兽公司数量已经超越中国,成为仅次于美国的第二大国,再次提醒我们,数据生产要素如果没有利用好,将不利于中国数字经济发展大局,并最终导致中国平台企业失去国际竞争力。《规划》“2522”框架中最后一个“2”是指国内和国际环境,就反映了要建设数字中国,放弃国际竞争力并不可行,因此,还是需要将前面各类法规条例指出的“以发展促安全”落实到位。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注