基于区块链的统计数据采集共享系统构建研究

基于区块链的统计数据采集共享系统构建研究

2023年7月27日发(作者:)

基于区块链的统计数据采集共享系统构建研究

*杨美沂 邸建伟

内容摘要:如何实现统计数据有效采集和充分共享是长期困扰统计部门的难题,区块链作为新一代信任体系,为解决这一难题提供新思路。为此,本文以统计数据采集共享为中心,梳理当前我国统计数据采集共享过程中存在的困境,结合区块链关键技术,以及去中心化、去信任等特性,具体分析将区块链应用于数据采集共享的优越性,提出一种基于联盟区块链的统计数据采集共享系统,并阐述其系统框架、分层模型及运行流程。该系统的构建将有助于实现统计数据实时采集、安全共享和协同服务,促进“数字政府”建设,提升政府统计公信力。

关键词:统计数据采集;统计数据共享;区块链

中图分类号:C829.2 文献标识码:A 文章编号:1004-7794(2021)05-0060-08

DOI: 10.13778/.11-3705/c.2021.05.007

区块链是P2P网络、共识机制、分布式存储、智能合约、加密算法等IT技术集成融合的新型应用模式,具有不可篡改、全程留痕及安全可靠的优势,为统计工作变革提供了一个全新技术模型。大数据时代,统计数据的特点是海量、动态、时空关联,加强对统计数据挖掘应用是统计工作的最终目标。而这项工作的前提是保障数据真实有效和充分共享,因此,有必要构建一种基于区块链的统计数据采集与共享系统,从源头上保障数据真实安全,在流通中促进数据整合开放。

一、当前统计数据采集共享困境分析

(一)重复采集问题

我国政府统计管理系统由综合统计和部门统计构成。根据《统计法》,两系统调查项目不应重复布置实施,归属部门管辖的调查项目,要上报统计局,不归属部门管辖的调查项目,要经过统计局审批。依据此规定,政府综合统计和部门统计应是职责清晰、分工明确的。但在实际调查中,由于综合统计与部门统计对数据需求角度不同,造成同一数据的多次采集;另一方面,由于统计部门按专业分行业统计,与部门业务有对应关系,职能出现交叉,也会导致重复统计,这些重复调查不仅极大地增加了被调查者的负担,造成人力物力的极大浪费,而且导致统计数据不一致(即同一数据在不同时间、空间中的矛盾性以及跨系统、跨数据结构、跨平台的业务关联数据之间逻辑关系的不相容性)。

(二)失效采集问题

数据质量是政府统计工作的核心价值体现,采集的数据必须是客观、及时,能反映真实情况的。失效采集问题主要来源于两个方面。一是人为干预。统计调查中,由于调查对象担心自己填报的信息会泄露,或填报的信息会与税务、工商等部门联网,在填报时可能会瞒报、虚报。其次,在政绩考核压力下,——————––—––—––––

*基金项目:国家自然科学基金项目“基于中外比较及博弈分析的政府统计组织与改革研究”(项目编号:71463052)成果;西北师范大学一般项目“政府统计管理模式创新研究——基于信息管理视角”(项目编号:SKQNYB11025)阶段性成果。

·60· 调研世界 2021年第5期 一些地方政府特别是基层政府,在收集数据时可能有瞒报、少报、漏报动机,或选择性收集有利于政绩的数据,存在制造数据、修饰数据的现象。而且,电子数据复制成本低、无时间标识、通过网络传输等特点,都会加剧统计数据失真。二是时滞效应。大数据时代数据更新速度极快,而现有政府统计工作流程长、环节多,尽管基于信息化的联网直报系统能够在一定程度上减少中间环节,但有些过程还是需要人工对数据进行整理操作,导致政府统计很难实时采集最新数据。同时,部分基层统计部门对于实时收集数据的重要性认识不足,这种被动收集的延迟数据时效性低,从很大程度上已经成为“失效”数据,所以统计数据采集会因为时滞而失效。

(三)安全共享问题

保障数据安全是实现数据共享的必要前提,目前,我国统计数据共享还处在起步阶段,面临着较大的安全风险和治理困境,主要体现在数据泄密和网络安全两个方面。

一是敏感数据和隐私数据随着数据挖掘、数据整合交换泄密风险升高。大数据时代,数据开发应用往往容易侵犯公众、企业、组织、甚至国家的安全和隐私。而政府统计数据量大,来源广泛,存储集中,数据窃取、滥用、交易变得更容易。统计数据与不同数据源有机整合,可能导致隐私数据某些特性被逐渐挖掘出来,使得敏感数据存在被泄露和侵害风险,导致很多部门之间不愿意共享,担心由于数据共享可能带来的安全隐患,害怕承担责任。因此,保护数据隐私成为实现数据共享的必要前提和必要保障。

二是中心平台架构的国家统计体系更易遭受网络攻击。当前,各级统计机构、统计部门是统计数据的主要拥有者。通用的大数据存储、传输和处理都是通过高度集中的中心服务器来进行的。很多地方政府已经开始通过购买云计算服务存储数据资源,进一步导致数据向各类云端集中。一旦服务器遭到外部黑客攻击,必然会严重威胁数据安全,甚至造成数据库冻结,数据丢失、伪造或恶意篡改等后果[1]。这其中不仅涉及公众、企业等微观数据,也有关乎国家安全、国计民生问题的宏观数据,遭到攻击后将会威胁国家安全,造成全社会无法估量的损失。

(四)激励共享问题

当前,我国实行综合统计与部门统计双轨运行,统计机构的设置也是各自为政,按照部门的行政职能、管理权限展开,并且行政体制设置上没有明文规定部门之间有共享数据的义务,导致政府统计机构没有主动共享数据意愿。即使部分数据共享,也只停留在官方层面,真正有价值的、可供再开发利用的原始数据仅限部门内流通共享。同样由于安全、隐私、机密等问题,企业、组织、个人等微观主体没有形成常规化的、能够提升整个行业协作效率的数据共享意愿。其背后最根本的原因是缺乏数据共享机制,传统的数据统计方式很难量化每个数据贡献者的实际贡献大小,参与方无论共享的数据是多是少、质量是好是坏,很难获得与之相匹配的收益。激励机制的缺失直接导致每个参与方对自己的数据都会倾向于尽可能少地共享或干脆不共享,从而阻碍了统计数据开发再利用和价值增值。

二、区块链应用于统计数据采集共享的优越性分析

政府统计需要实现统计数据的一致性、有效性、安全性。国家统计信任的建立与维护需要实现数据公开、透明可信、防篡改可追溯、权力制约以及多方协同参与。区块链的分布式存储、点对点传输、可追溯时间戳、不可逆哈希算法、激励共识机制等技术特征为解决统计数据的重复采集、失效采集、安全共享、激励共享等难题提供可能性。因此,区块链技术对于统计数据采集共享具有天然的契合优势。

(一)有利于确保数据一致性

基于区块链的统计数据采集模式,采用智能合约、共识算法来解决重复采集造成的数据不一致问题。智能合约是运行在区块链上的一种计算机协议。这类协议一旦制定和部署就能实现自我执行和自我验证,而且不再需要人为干预。采集数据时依据协议代码自动审查数据是否符合标准,保证调研世界 2021年第5期

·61· 所有节点采集范围不重叠,且运用同一套标准采集数据,即以技术手段明确职能范围避免数据重复采集;一旦采集数据出现不一致,区块链的共识机制能进一步保障不同来源数据的一致性。共识机制是互相没有信任基础的个体之间就交易的合法性达成共识的一种机制。区块链作为一种基于互联网的去中心化账本,网络中每个参与主体都能读取和存储数据,任何统计数据的采集更新必须要得到网络中其他成员的确认,才能上链同步至整个网络。共识机制作为最后一道防线,保障了不同节点上统计数据采集的一致性。

(二)有利于确保数据有效性

传统数据采集模式下,人为干预和时滞效应均会造成数据采集失效。而区块链模式下的数据采集,在统计数据上链前,由共识机制确保只有通过全网其他主体核实与认可后的数据,才能被完整地写入区块链。如果数据不实或不被认可,系统将基于智能合约自动拒绝写入,确保了数据采集的真实性与完整性。在统计数据上链中,区块链的点对点网络技术使新采集的数据实时更新到整个网络之中,能够快速实现区块链分布式账本与统计数据采集系统的实时同步,保证数据传递的时效性。在统计数据上链后,指针式的链表结构提供了一个数据库的完整历史,并为每一个区块数据加盖时间戳,即区块每存储一个数据,就会记录其写入的时间,这一特点实现了统计数据的可追溯性,使得数据造假行为人相关信息存证,造假行为留痕,有效避免人为干预。

(三)有利于实现数据安全共享

统计数据常常包含一些敏感信息、隐私信息,甚至机密信息。在数据共享过程中常常会遇到恶意盗取、干扰、破坏和伪造。区块链的非对称加密技术和哈希算法可以有效防止数据泄密。其中,非对称加密算法通过数据提供方和需求方的公钥与私钥来验证对方身份,消除了交换密码环节,同时满足数据所有权的验证和签名,确保共享双方身份的唯一性和真实性;哈希算法是一种把任意长度数据通过计算生成长度固定字符串的密码学算法,具有单向性,即无法通过逆向运算得到原始输入值,利用这一特性,对敏感数据、隐私数据加密,既能在共享环节完成一定程度的数据脱敏,又能保障数据隐私安全,降低数据提供方对共享数据的安全担忧。

区块链的去中心化是数据安全共享的重要前提。P2P网络能够为区块链提供可靠的去中心化网络架构,这也是区块链较于中心平台架构所具有的明显优势。去中心化使得系统中没有单一的数据库服务器和攻击入口,分散数据被攻击的风险。同时,统计数据存储在分布式的链式结构中,链上各节点都保存相同的数据,确保数据有多重备份,即使某个节点被恶意攻击或出现故障,其他节点仍存有完整的数据副本可供正常使用,统计体系依然可以正常、有效地运转。

(四)有利于实现数据激励共享

传统模式下,数据共享缺乏激励,数据拥有方没有共享数据的动力与动机。区块链模式下,通过引入完善的激励机制,用经济学原理来推动统计数据的共享,使统计从信息主导转向价值主导[2]。区块链能够建立点对点的加密数据传输通道,为数据流转提供来源、去向、内容、次数记录,让数据源方合法合规经营统计数据信息,共享脱敏数据,并根据其共享数据的数量、质量,赢得相匹配的虚拟积分,直接形成对数据贡献者的激励。虚拟积分是共享其他数据源的唯一支付方式,从而鼓励全社会对统计资料进行挖掘共享,构造一种释放数据价值的生态体系。

三、基于区块链的统计数据采集与共享系统构建

(一)系统架构设计

在传统的中心平台架构下,部门统计机构、各级统计局及调查队分别统计核算其管辖范围内企事业单位、公众等各方面的统计数据,以互联网为依托,最后报送统一的国家统计数据平台。在基于区块链的分布模式下,通过建立联盟区块链实现统计数据的采集和共享。联盟链节点由政府部门、省市统计局·62· 调研世界 2021年第5期 及调查队、研究机构和互联网企业构成。其中政府部门负责采集共享行政记录;省市统计局及调查队负责采集共享直报数据和各种调查数据;研究机构负责采集共享各种调研数据和深度开发数据;互联网企业负责采集共享互联网数据和商业记录。所有联盟链节点组成一个统计数据采集共享联盟区块链网络SCSB(Statistical Collection Sharing Blockchain),其结构模型如图1所示。每个区块链节点与其负责的链下采集点可以看作是一个组织,区块链节点代表该组织参与SCSB共识并存储统计账本数据,采集点作为组织中的一个客户端。区块链节点采集数据后打包提交至SCSB中,SCSB节点间达成共识后将数据写入账本,继而在区块链上进行数据共享。

图1 区块链网络结构模型

(二)系统分层模型

本文将统计数据采集共享联盟区块链设计为6层,如图2所示[3]。

1.数据层。数据层封装了区块链中的区块数据、链式结构、区块头上的时间戳、哈希函数、Merkle树及区块尾上的随机数、链上的公钥等所有链上相关数据。区块中的数据主要包括统计局的各类调查数据、政府部门的行政记录、研究机构的调研数据和互联网企业的互联网数据等。Merkle树借鉴以太坊区块链原理,设计三棵Merkle树,分别为交易统计Merkle树(共享交易记录、数据评价记录利用哈希过程所得到的块数据结构)、总体统计Merkle树(微观主体在不同层面的汇总数据利用哈希过程所得到的块数据结构)、个体统计Merkle树(诸多个体(同类)数据集利用哈希过程所得到的块数据结构)。通过建立不同的统计Merkle树,在数据记录中实现宏观综合信息和微观个体信息的恰当分离[4]。既满足统计数据不同层次上的使用,增强数据使用权限的灵活性,又确保统计数据安全有序可控。

2.网络层。网络层封装了区块链系统的组网方式、消息传播协议和数据验证机制等要素。通过P2P网络连接政府部门服务器、统计局服务器、研究机构服务器和互联网企业服务器,结合实际统计需求,调研世界 2021年第5期

·63· 设计特定的传播协议和数据验证机制,使得统计区块链系统中每一个节点都能参与区块数据的校验和记账过程。既解决了集中式架构带来的单点失效问题,又缓解了传统中心架构的安全问题。

图2 系统架构分层

3.安全层。安全层为整个联盟区块链体系提供安全保证。通过哈希算法、非对称加密技术以及数字签名技术,在整个网络体系中实现基于签名验签机制的数据采集、基于多级权限管理结合多重签名机制的数据共享。对采集点、区块链节点、访问者进行身份验证与身份管理,确保采集点与其链上节点的合法对接,确保有权限的访问者进入相应的访问空间,保证了数据的安全性和不可抵赖性。

4.共识激励层。共识激励层封装了基于统计能力和统计工作量证明的共识算法和激励机制,让分散的统计节点在去中心化的区块链网络中就区块数据的有效性达成共识,构建了一种数据提供者、统计加工者、数据使用者各方参与的共识激励机制。以联盟积分作为内部激励执行的统一标准,通过统一运营方式,结合数据质量评分,给数据提供者、统计加工者发放积分,积分可以换取服务,构造一种释放数据价值的生态系统,激发统计数据参与各方活跃度,鼓励数据流通,深化数据服务内容和经营模式。

5.合约层。合约层将区块链由一个封装的系统变成一个可以编程进行二次开发甚至是智能运行的合约机制,其基础是封装了各类脚本、算法和智能合约。在本架构中,要求智能合约能够实现以下功能。(1)账户体系:将区块链非对称加密生成的公私钥与统计数据采集共享场景中各主体相结合,提供可靠安全、使用便捷、交互友好的账户管理功能;(2)数据管理:实现数据采集、数据检索、数据权限交互、数据共享等基本数据管理功能;(3)数据服务:实现基于订阅模式的数据共享服务加工定制、数据自动化整合与授权过程,提供面向DaaS的可扩展定制功能;(4)数据质量评价:实现数据质量评价量化功能,通过数据使用方评价反馈、数据引用量、数据下载量的统计及数据引用指标h指数,实现统计数据质量评价的记录与计算功能。

6.应用业务层。该层位于整个模型架构的最顶端,是以代码来实现的应用程序。App和Web系统通过接口调用智能合约,负责以可视化的方式向用户提供面向移动端与PC端的统计数据服务,具体包括数据采集、数据查询、数据溯源、数据分析、数据共享等。通过智能合约结合共识算法,将数据审核、数据校对、数据查重等重复性、规律性工作交给机器执行,同时将各种数据分析的算法模型嵌入智能合约,提高数据分析效率与水平。

(三)系统运行流程

统计数据采集共享联盟链节点存有数据记录池和数据控制器。记录池主要存储联盟链区块数据,控制器负责整合本组织采集点上传的统计数据,并根据智能合约审查采集数据的质量及控制数据的共享访问。系统运行由数据采集—数据审查—数据上链(共识机制、产生数据区块)—数据共享四部分组成,如图3所示。

·64· 调研世界 2021年第5期

图3 联盟区块链系统运行图

1.数据采集。在SCSB模式下,统计数据采集整个流程要经历以下三个阶段:采集点接入阶段、数据采集阶段、数据存储阶段。

(1)采集点接入阶段。每一个联盟链节点组织内,利用智能合约实现采集点的基本单位名录库自动更新维护、审核及导入。组织管理员通过实时更新的名录库,将本组织内采集点的基本信息与公钥上链存储,保证了公钥和采集点之间的匹配关系及公钥内容不可篡改,为后续数据输入提供安全可靠保障,接入过程如图4所示。数据采集共享过程中,需要用到各采集点公钥时都从SCSB中获取。若获取失败,表明该点未被该组织管理员接入,直接拒绝后续操作,为SCSB模式最外层的安全防护。

图4 采集点接入

(2)数据采集阶段。联盟链节点可以通过两种方式收集该组织内采集点的统计数据:一是联盟链节点不定时向组织内采集点征集当前的统计数据;二是采集点定时向所在组织的联盟节点主动上报统计数据。为了保证采集的数据在上报过程中不被篡改以及采集点和联盟链节点不受非法设备的攻击,SCSB中利用采集点接入阶段生成的私钥与公钥,采取双向签名验签机制作为链下采集点和链上联盟节点间的身份识别及数据确认[5],流程如图5所示。

在采集点验证联盟节点身份阶段,联盟节点使用其私钥签名数据采集请求发送给采集点。采集点通过联盟节点基本信息向SCSB获取联盟节点公钥,然后用该公钥验证联盟节点的签名数据。验签成功则联盟节点身份验证通过。在联盟节点验证采集点身份阶段,采集点使用其私钥对统计数据进行签名并发送给联盟节点。联盟节点从SCSB中获取采集点的公钥,然后对其发送过来的签名数据作验签。验证通过则认为采集点身份认证通过且发来的统计数据在传输中未被修改过。在数据采集过程中,签名和验签与采集点接入阶段一样,签名用私钥,验签用公钥。

(3)数据存储阶段。这一阶段的主要任务是联盟链节点将采集阶段收到的统计数据上链保存。由于不同来源数据的类型和标准规则不一致,联盟节点会根据智能合约上的写入代码自动执行审查,对照相关数据的类型、标准、范围、数量等内容和电子签名进行核对和验证。当有节点数据不合规或超时未上报时,会触发相应代码自动发出全网实时预警,并将预警内容和故障原因记录在区块链上,便于责任调研世界 2021年第5期

·65· 追溯。如果通过验证,确认数据安全完整有效,即可存储到本地数据记录池。每隔一段时间后,联盟节点会把本段时间内所采集的有效数据打包整合成数据集,对数据集进行加密和数字签名,确保数据集本身及来源的合法可验证。所有联盟节点基于统计能力和统计工作量,争取记录本次数据区块,最终以最高统计能力最快计算出有效结果的联盟节点将成为当前共识过程的主节点,其余链上节点将成为从节点,采用拜占庭容错PBFT共识机制进行区块共识。最后按照时间顺序将当前数据区块以顺序相连的方式存储在联盟链中,主节点因记录数据获得联盟积分奖励。

图5 统计数据采集过程

2.数据共享。根据区块中三棵Merkle树不同特点,联盟链上统计数据共享可以分为三个不同层次。

(1)交易统计Merkle树。共享记录和数据评价记录的访问不需设置任何权限。链上联盟节点使用智能合约实施数据共享的场景主要包括以下流程:当节点a向节点b发送数据共享请求后,节点b首先查验节点a身份,查验通过后,根据请求中所包含的数据访问目的、时间和次数等信息执行智能合约,同时使用节点a的公钥和节点b的私钥对共享数据进行非对称加密,输出结果,节点a收到数据后,通过节点b的公钥和自身私钥解密数据,并进行数据读取访问。链下采集点只需通过所在组织的链上联盟节点验证其身份,即可实现数据共享。

(2)总体统计Merkle树。微观主体在不同层面的汇总数据即宏观综合数据的访问共享,由各链上节点根据事先协议好的智能合约,部署多级访问、多重签名的访问机制实现。按照访问者的社会属性,可以从安全层级、管辖范围、职能划分这三个方面对其进行分类,同时对宏观综合数据根据密级和所属范围进行分级管理。其中密级分为绝密、机密、秘密以及公开。所属范围对应访问者属性中的管辖范围,根据共享主体与客体的相关属性,在具体策略下,通过秘钥产生、数据加密、多重签名、数据解密的过程进行统计数据的多级访问控制。

(3)个体统计Merkle树。微观个体数据共享由数据真正持有者——链下采集点授权控制,使用其·66· 调研世界 2021年第5期 私钥对个体数据进行加密,通过设定数据共享的范围、时限等约束条件,选择部分数据共享,同时使用计算机程序规范数据访问者行为。主要包括以下流程:当节点c向节点d请求共享个体数据时,节点d首先查验节点c身份,与c达成共识后,节点d会设置约束条件来限制共享数据的范围、时间、频次等,并将私钥提供给智能合约自动执行数据解密,再根据约束条件自动匹配相关数据,最后使用c的公钥对数据进行加密。c通过自身私钥进行解密实现数据共享。

四、结束语

本文利用联盟区块链技术来设计统计数据采集共享系统,联盟链节点由政府部门、省市统计局及调查队、研究机构和互联网企业构成,所有联盟链节点组成一个统计数据采集共享联盟区块链网络SCSB。每个区块链节点与其负责的链下采集点为同一组织,区块链节点负责整合该组织数据并参与SCSB共识,即区块链的共识算法由这些链上节点执行,而非全网所有节点,从而能大大节约数据采集成本;SCSB网络记录每一次数据流转共享全过程,根据数据源方提供数据的数量、质量,给予相匹配的虚拟积分,直接形成对数据贡献者的激励,有利于构建统计数据共享长效机制,完成数据价值释放;SCSB网络通过构建交易统计Merkle树、总体统计Merkle树、个体统计Merkle树,满足统计数据不同层次的数据共享需求,实现数据的多级安全共享。总之,本文构建的基于联盟区块链的统计数据采集共享系统,能对统计数据采集及共享过程进行完整、可靠的记录,由全网共识机制保证数据可追溯、不可篡改,实现统计数据实时采集、安全共享和协同服务。

本文只是基于区块链类型的一种形式联盟链进行探讨,而对于区块链的私有链和公有链在政府统计中的应用没有阐述。在未来统计工作与区块链融合过程中,单一的某种链可能无法满足统计新需求,需要不同类型区块链的结合。比如,在政府综合统计系统内,国家统计局、省(市)统计局、业务调查队之间采用私有链形式链接,有利于实现内部数据安全共享,提高统计系统工作效率。在政府部门统计系统内,各行政部门之间更适合采用联盟链链接,有利于实现行政数据高效共享,解决数出多门问题。对于社会公众与政府统计之间,适合采用公有链形式,将统计部门对公众开放的统计数据上链,用户不需要注册和授权就能够匿名访问网络和区块,任何人都可以自由加入和退出网络,并参与统计记账和数据共享。因此,在未来统计工作中,须进一步对多种区块链的结合进行全面深入的研究。

参考文献

[1] 戚学祥. 区块链技术在政府数据治理中的应用: 优势、挑战与对策[J]. 北京理工大学学报(社会科学版), 2018(5):

105-111.

[2] 汪涛, 赵彦云. 统计区块链的理论与架构设计[J]. 统计与决策, 2019, 18: 5-9.

[3] 朱建明, 郝奕博等. 基于区块链的财务共享模式及其效益分析[J]. 经济问题, 2019(10): 113-119.

[4] 邹均, 张海宁等. 区块链技术指南[M]. 北京: 机械工业出版社, 2017.

[5] 文莉莉, 邬满. 基于区块链的海洋数据采集与共享系统[J]. 信息技术与网络安全, 2020(7): 9-13.

作者简介:

杨美沂,女,1979年生,安徽来安人,2005年毕业于上海大学国际工商与管理学院管理科学与工程专业,获管理学硕士学位,现为西北师范大学经济学院副教授、甘肃省统计学会理事,研究方向为统计管理、统计信息化。

邸建伟,男,1978年生,山西原平人,2009年毕业于兰州大学管理学院,获工商管理硕士学位,现为甘肃银行股份有限公司网络金融部副总经理。

(责任编辑: 王思瑶)调研世界 2021年第5期

·67·

发布者:admin,转转请注明出处:http://www.yc00.com/web/1690465555a353321.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信