数据治理如何打破孤岛效应?了解一下可验证凭证
摘要
针对我国监管科技数据治理中存在的数据孤岛、数据质量、数据融合困难、数据滥用等问题,提出了将可验证凭证数据模型用于数据治理的解决思路。 本报告介绍了可验证凭证的概念、数据模型、关键技术与主要技术特征,并探讨可验证凭证用于数据治理的几个方向,同时介绍了可验证凭证技术的规范和应用成熟度。 可验证凭证具有安全性、隐私性、真实性、一致性、时效性、互操作性等技术特征,契合了大多数当前数据治理中存在的痛点,有助于提高数据质量、提供隐私保护合规方案、促进数据互通。
2018年,银监会发布《银行业金融机构数据治理指引(征求意见稿)》,提出了加强数据治理、提高数据质量、充分发挥数据价值、提升经营管理水平、全面向高质量发展转变的目标。
数据是数字经济时代的基础战略性资源,金融业是数据密集的行业,做好数据治理、充分发挥数据的价值,有利于推进金融业数字化转型,推动金融业务高质量发展。
一、 我国监管科技中面对的数据治理问题
在2019年12月1日举行的“第四届中国新金融高峰论坛2019”中,中国人民银行科技司司长李伟发表主旨演讲,谈到 当前数据治理主要有四方面的问题 。
(一)数据孤岛问题
随着数字经济和大数据产业的发展,政府和企业都产生了大量的数据。“数据孤岛”是指金融机构面临的数据共享困境,由于缺乏数据共享激励机制、数据共享交换协同机制、数据共享隐私保护机制,导致海量数据散落在众多机构和信息系统中,形成一个个的“数据孤岛”。
一是缺乏数据共享动力。 大多数机构认为数据是战略性资源,意味着客户资源和市场竞争力,出于自身的利益考量,机构往往将用户数据视为自己的财产,不愿与其它机构共享。
二是缺乏数据共享交换协同机制。 目前我国数据协同的基础设施还不完善,各机构自行建设,按照各自的模式进行数据的收集、统计、整合、分享,数据标准和数据接口不一,难以进行互联互通,阻碍了数据的开放共享。
三是缺乏针对隐私数据的隐私保护机制。 金融数据涉及用户个人隐私或机构商业秘密,在我国的《个人信息保护法》草案、欧盟的GDPR法规中,均提出对隐私数据的保护,传统的数据共享基于业务系统之间进行数据互传,因未经数据所有者许可而存在法律风险,在没有相应隐私保护方案的情况下机构不敢贸然进行数据共享。
(二)数据质量问题
金融科技背景下,高质量数据成为金融服务与创新的重要基础,也是大数据提升金融精准施策能力的关键前提。金融业整体数据质量不高仍然是一个突出的问题。
数据质量问题主要表现在 数据的完整性、准确性和一致性 上面。
由于缺乏统一的数据治理体系,有些金融机构在数据采集、存储、处理等环节可能存在不科学、不规范等问题,导致错误数据、异常数据、缺失数据等“脏数据”产生,无法确保数据的完整性和准确性。
由于不同部门、分支机构体系不同,业务种类多样,各部门各自进行数据的收集、统计、整合,没有统一的标准过程;而且数据本身的概念、类别体系没有行业标准,统计模式与统计口径也没有成熟的类标准模式,同一数据源在不同部门的表述可能完全不同,最后得到的数据也标准不一,影响全局数据的建模、分析和运用,影响数据挖掘的效果。
(三)数据融合困难
金融数据的来源广泛、关系复杂、远近亲疏各不同,需要以数据融合的方式实现集成。数据融合依赖于高效的信息技术支撑和可靠的基础设施保障,建立数据间、信息间多维度、多粒度的关联关系,实现更多层面的信息交互,是最大程度发挥数据价值的一种手段。
部分金融机构,特别是中小机构的科技投入相对不足、短期内人才匮乏,利用数据建模分析解决实际问题的能力有待提高。数据挖掘不深入、应用领域狭窄,导致数据的潜力未得到充分利用。
(四)数据滥用问题
我国数据治理的法律法规尚不健全 ,《个人信息保护法》《数据安全法》于2020年正式进入立法进程,当前仍缺少个人信息数据使用的系统性立法,金融机构使用个人信息数据的规范细则还有待完善健全。长期以来, 企业采集和使用个人数据的违法违规成本低 ,为谋求商业利益,过度采集数据、违规使用数据、非法交易数据的情况经常发生,电信欺诈、骚扰电话、暴力催收等行为屡禁不止,既影响个人信息安全,也影响个人资金安全,严重侵害用户权益。
二、 可验证凭证的基本原理与技术发展情况
可验证凭证(Verifiable Credential),是现实世界中物理凭证的一种数字化表现形式 。W3C的可验证凭证数据模型(Verifiable Credentials Data Model 1.0)规范中定义了可验证凭证的数据格式。它是一种标准化的数字凭证的表达方法,从使用场景、核心模型设计均参照了现实世界中的物理凭证,目的是将物理凭证的优势引入到数字世界中。可验证凭证的典型特征是密码学安全、隐私保护和机器可读。
物理凭证包括证件、执照、证明、回执等各种可用于身份或资质验证的有效物件,如护照、医师执照、银行开具的收入流水证明、出租车小票等等。 凭证上一般载有一系列关键信息、以及凭证来源方的印章等防伪手段,这些信息通过其物理载体由数据所有者保管,并在使用时提交、复制或出示给凭证的接收方。 物理凭证具备可验证的特点,如医师执照可用于判断其主体是否具有从事医生职业的能力、银行流水证明可用于判断其主体是否具有贷款偿还能力,等等。
(一)可验证凭证模型
可验证凭证模型中包含四类角色:
-
凭证所有者 :拥有可验证凭证,并向凭证验证方出示凭证的角色。比如个人或企业。
-
凭证发行方 :创建可验证凭证,并传送给凭证所有者的角色。
-
凭证验证方 :接收并处理可验证凭证的角色。
-
可验证数据注册表 :系统角色,用于维护需要被上述多个角色使用和验证的数据,主要为标识符、标识符关联密钥、可验证凭证模板、凭证撤销注册表、发行凭证的公钥等等。它的实现方式可以是中心化或去中心化的,如可信数据库、分布式数据库、政府数据库或分布式账本,它们具有不同的安全性、扩展性和成本。
图1 可验证凭证模型
(二)可验证凭证数据
可验证凭证中的数据包括声明、可验证凭证和可验证凭证组合。
1、 声明
声明(claim)是与主体关联的属性信息,一个声明 使用“实体-属性-值”的数据模型进行表示,如“Alice-毕业学校-Faber大学”。 多个声明 可进行组合用于表达复杂的数据关系,比如和其它主体或其它主体的数据之间的关系。 声明所使用的这种数据模型具有很强的灵活性和丰富的表现能力,可对任何数据进行编码
图2 声明数据模型
图3 声明示例
2、 可验证凭证
可验证凭证中一般包含一个或多个声明,这些声明由同一个声明发行人发出。 可以由一个实体(如个人或组织)自己发出,也可以由另一个凭证发行方发出。
可验证凭证中除了关于凭证主体的声明信息, 还包含凭证的描述信息和密码学证明。 凭证的描述信息通常包括:凭证发行方、凭证过期时间、凭证验证公钥、凭证撤销机制,等等。凭证由发行方签名,可通过密码学证明是否由凭证中声称的实体签发且未被篡改,因此被称为可验证凭证。
3、 可验证凭证组合
可验证凭证组合是凭证持有方向凭证验证方出示凭证的数据格式, 一般包含一个或多个不同凭证发行方签发的可验证凭证,由凭证持有方进行选择和组合,代表与该凭证验证方相关的特定场景中的用户画像。
与可验证凭证相似,可验证凭证组合中也包含凭证组合的描述信息和密码学证明。密码学证明一般为数字签名,可证明是否由凭证组合中记录的实体生成且内容未被篡改。
以上声明、可验证凭证、可验证凭证组合中的数据关系均可用图形化描述,下图是一个可验证凭证组合的示例。
图4 可验证凭证组合数据模型
(三)可验证凭证实现的相关技术
上述可验证凭证数据模型实现过程中使用的技术主要是
数据编码、密码学技术和分布式账本
这三个方面。
1、 数据编码
可验证凭证数据模型的实现需要采用标准的数据编码方式,便于计算机识别和处理。 规范只定义了数据模型的结构,对数据编码方式没有要求。规范中推荐了JSON和JSON-LD两种编码方式,但任何数据表示语法都可以用于表示可验证凭证数据模型,比如XML、YAML等等。
2、 密码学技术
可验证凭证的技术特性主要来源于将密码学技术应用于数据计算、存储过程,以提供对数据的可信证明和隐私保护。 以下列举几种可验证凭证的实现中常见的密码学技术。
(1)数字摘要
数字摘要是采用单向Hash函数将需要加密的明文“摘要”成一串固定长度(128位)的密文,这一串密文又称为数字指纹,它有固定的长度,而且不同的明文摘要成密文,其结果总是不同的,而同样的明文其摘要必定一致。数字摘要可用于确保数据的完整性和防止篡改。
(2)数字签名
数字签名使用了“非对称密钥加解密”和“数字摘要”两项技术来实现一种类似纸质物理签名的效果。信息的发送者对信息生成摘要,并用私钥对摘要信息加密产生一段字符串,即数字签名;信息的接收方用信息发送方的公钥对数字签名进行解密,获得摘要数据,再根据信息原文验证摘要数据是否正确。非对称密钥技术保证了只有相同的信息原文和签名私钥才能产生相同的数字签名,别人无法伪造,因此数字签名是对信息的发送者和信息真实性两方面的有效证明。数字签名具有不可抵赖性,可用于验证数据的真实性和完整性。
可验证凭证和可验证画像中的密码学证明一般采用数字签名技术,由数据的签发者对数据内容计算数字签名后将数字签名附在数据内容后,以保证数据的接收者确认数据来源的不可抵赖、数据内容未被篡改。
(3)基于零知识证明的匿名凭证技术
零知识证明的理念是通过将约束关系关联到计算困难性理论,在证明者不透露被证明数据明文的前提下,向验证者证明约束关系的正确性,被证明数据有极大概率满足验证者指定的约束关系,例如证明转账金额不是一个非法的负数。
匿名凭证技术具有很强的隐私保护特性,在可验证凭证中用于计算声明中的属性值。除了对属性的选择性披露外,匿名凭证技术还允许凭证验证方在不获取属性值的明文或密文的情况下,仅获得对属性值的密码学验证结果,实现对数据的最小化披露。
3、 分布式账本
分布式账本主要用于实现可验证数据注册表。 尽管规范没有限制可验证数据注册表的实现技术,从注册表的功能考虑到注册表需要被多方信任,当在开放环境中使用、或参与角色较多的时候,使用分布式账本是较好的选择。
分布式账本的主要作用是用于维护被多个角色使用和验证的数据。 首先,在签发凭证之前,凭证发行方根据自身业务需求来定义一个凭证中包含哪些声明,将该定义作为可验证凭证模板公开发布到分布式账本中。同时,凭证发行方还需要将签发凭证的公钥、凭证撤销注册表公开发布到分布式账本中,用于验证凭证的有效性。其次,当凭证发行方撤销凭证时,通常需要更新凭证撤销注册表,以便及时更改凭证的有效性。
分布式账本也可以为可验证凭证的应用系统带来更高的系统安全性。 如可验证凭证可以通过链上和链下两种方式进行存储管理。链上凭证通常仅需要在链上存储凭证的哈希值,凭证则存储在凭证所有者可以访问的任何数据存储中,包括指定的保管人或分散式存储系统(如IPFS)。凭证接收方可以通过计算凭证哈希值并与在区块链上找到的哈希值进行比较来检查数据的完整性。凭证也可以完全脱链存储,直接在凭证所有者的设备上和/或由指定的保管人存储。但是,仍然存在链上机制来处理撤销和其他凭证状态更新。
(四)可验证凭证的技术特征
作为一种全新的数据模型,可验证凭证具有以下六点技术特征:
1、 安全性
国际标准化组织/国际电子技术委员会对“信息安全”的定义为:
保持信息的保密性(confidentiality)、完整性(integrity)和可用性(availability)。
注:此外,也可包括如真实性(authenticity)、可核查性(accountablity)、不可否认性(non-repudiation)和可靠性(reliability)等其他属性。
可验证凭证规范要求可验证凭证和可验证组合中包含至少一种密码学证明机制和证明数据,来保持它们的可验证性。这种证明机制和证明数据均由数据源头计算给出,除了数据源本身,其它用户不知道数据源的私钥,无法伪造相同的证明数据。数字签名技术保证了数据内容和证明数据的一致性,只有数据完整且未经篡改的情况下才能验证正确。所以可验证凭证模型可保证数据的完整性、可核查(验证)性和不可否认性。
2、 隐私性
信息安全是隐私保护的基础,但隐私保护不完全等同于信息安全。 隐私保护的目标在于防止隐私数据被非授权的主体使用或者以一种未授权的方式使用。隐私数据的范畴包括了所有的非公开数据。 对于个人来讲,隐私数据是关于自己和周边环境包括社交网络的个人数据。对于企业来讲,隐私数据是关于自己和合作伙伴的业务和其他非公开数据。
传统的数据共享方法通常是业务系统之间进行数据传输,用户既不知情也无法控制共享了哪些数据、以及是否有隐私数据。 可验证凭证模型中,数据共享必须经过凭证所有者,凭证发行方和凭证验证方之间不需要直接通信,这避免了用户授权环节的缺失。同时,可验证凭证模型提供了基于属性的灵活的数据共享策略,且通过密码学技术可支持不同程度的数据最小化披露。 凭证验证方向凭证所有者请求数据,可指定需要哪些属性、是否仅需要密码学验证结果。例如,在银行验证企业贷款资质时,可要求企业证明年收入是否大于500万,而不用给出详细的经营数据。
3、 真实性
真实性指数据是否真实准确的反映客体的实体存在或真实的业务。 可验证凭证模型中要求凭证发行方将其凭证模板和凭证发行服务在全网公开以提供验证,且每个可验证凭证中必须包含凭证发行方信息,这使得凭证发行方的行为可被追溯,对数据真实性的要求也相应更高。
4、 一致 性
一致性指相同的数据有多个副本的情况下数据不一致、数据内容冲突的问题。可验证凭证中由于数据持有方管理数据,对于数据不一致的情况,数据持有方作为数据属主、且从数据使用的角度出发,会识别正确数据,并舍弃错误数据。
5、 时效性
时效性指可验证凭证是否能及时体现当前的有效性。 可验证凭证数据模型规范中要求可验证凭证中必须包含“签发时间”属性,签发时间包含了日期和时间,表示该凭证开始生效的时间。 凭证失效有两种方式 :一种是在签发可验证凭证时写入“失效时间”属性,预先定义凭证的失效时间;另一种是在凭证发出后由凭证发行方执行撤销操作,将失效凭证加入公开的凭证撤销注册表,在对该凭证进行验证时能够得到已被撤销的结果。
6、 互操作性
可验证凭证规范为数据的跨域跨系统交互定义了一种标准格式,可用机器可读的语义网技术进行编码。 符合规范的数据可被不同系统识别和使用,再加上业界在对可验证凭证数据交换制定协议、推进开源工程,使得不同主体之间具有互操作性。
三、 可验证凭证用于数据治理的探索
(一)可验证凭证的应用方向探索
可验证凭证作为一种新型数据模型,相对于应用系统来说是一种底层技术,并不直接影响业务功能。它的多个技术特性为改善数据治理现状提供了一种新的思路。
1、 提高数据质量
数据质量管理是集方法论、技术、业务和管理为一体的解决方案,影响数据质量的因素主要有 技术、业务、管理 三个方面。
技术方面,质量问题通常存在以下过程中:
数据模型设计 ,例如:数据库表结构、数据库约束条件、数据校验规则的设计开发不合理,造成数据录入无法校验或校验不当,引起数据重复、不完整、不准确。
数据源采集 ,例如:有些数据是从生产系统采集过来的,在生产系统中这些数据就存在重复、不完整、不准确等问题。
数据采集过程 , 例如:采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,导致的数据采集失败、数据丢失、数据映射和转换失败。
数据传输过程 ,例如:数据接口本身存在问题、数据接口参数配置错误、网络不可靠等都会造成数据传输过程中的发生数据质量问题。
数据存储过程 ,例如:数据存储设计不合理,数据的存储能力有限,人为后台调整数据,引起的数据丢失、数据无效、数据失真、记录重复。
业务和管理方面的问题大多数需要从相应的角度出发考虑,可验证凭证能够解决大多数技术原因引起的数据质量问题。
(1)数据模型设计简单
可验证凭证数据模型规范经过数年多次的修订,具有通用性、扩展性,可用于表达不同的数据对象。相比于存储于数据库的数据模型,可验证凭证提供了一个成熟模板,设计难度更低。数据产生方只需要根据业务需求考虑一个凭证中包含哪些声明信息,不用考虑技术上如何优化设计,可减少因技术能力引起的数据模型设计质量问题。
(2)数据源对数据质量背书
可验证凭证具有真实性特征。凭证发行方将其凭证模板和凭证发行服务在全网公开以提供验证,且每个可验证凭证中必须包含凭证发行方信息,这使得凭证发行方的行为可被追溯。凭证发行方对数据质量背书,可减少因数据源产生的质量问题。
(3)由数据模型保障的数据特性
如前文所述,可验证凭证具有安全性、完整性、可核查性、不可否认性、真实性、一致性、时效性等多种技术特性,可减少数据在采集、传输、交换、存储等过程中产生的技术性错误,也能杜绝操作人员故意修改数据作假的行为。
(4)减少业务人员数据输入错误
在传统方案中,数据输入依赖于业务人员填写表格,既花费时间,也容易出错。在可验证凭证模型中,凭证所有者可将已有凭证直接提交用于填表,避免了数据输入错误引起的质量问题,减少了对数据录入人员的依赖性。
2、 简约的搭配方案
影响隐私保护的因素通常有 隐私设计和技术能力 两个方面。
隐私设计理论(Privacy By Design)近年来获得国际组织、各国政府、企业及专家学者的高度认同。 机构可以在系统设计阶段考虑用户个人信息保护问题,将个人信息保护的需求通过设计嵌入系统之中,制定产品服务和商业实践的前提规则。增强数据使用透明度、提升用户控制力、遵循数据最小化收集均是隐私设计理论的重要实践。
技术方面的挑战 一是 隐私保护需求因人而异,对预先定义固定规则的信息化系统极不友好,隐私保护解决方案应提供灵活的系统适配性和扩展性; 二是 与现有技术架构的兼容性问题,如云厂商的隐私保护方案与自身云服务接口深度结合,难以分离使用;小程序等轻客户端应用预置的密码学类库比较有限,前沿的密码学算法库无法直接加载。隐私保护方案设计应充分解耦,尽力避免依赖任何特定平台的非通用特性。
可验证凭证模型满足以上几点要求。
(1) 如前文所述,可验证凭证具有隐私性。 一是数据使用需数据所有者授权;二是提供了基于属性的数据共享策略,支持多种算法实现不同程度的数据最小化披露。同时基于属性的数据共享策略还可以灵活的适配系统需求,不需要在系统设计时预先定义好所有权限。
(2) 可验证凭证实现方案具有分层解耦的架构。 W3C规范定义了底层的数据模型,数据模型上可加载不同的密码学算法,这些都是与具体平台无关的。在应用中,由解决方案实现商根据系统环境相应的实现与上层应用通信的接口,构建一个模块化的数据交换生态系统。
3、 结合区块链技术,打破“数据孤岛”,实现数据互通
当前“数据孤岛”产生的主要原因是由于商业原因不愿共享、或者由于技术障碍而不能共享。商业原因通常包括认为用户数据是企业的战略资源、将数据共享给其它机构或使用其它机构的数据所需要的信任成本高昂,等等;技术原因一般指基础设施不完善,如缺乏互操作性、安全性,等等。
可验证凭证与区块链技术相结合有望打破“数据孤岛”的问题。 两者从特性、架构上互相支持。区块链技术被业界认为是“信任机器”,可支持机构在互不信任的情况下进行协作,为可验证凭证的流转提供底层的信任机制;可验证凭证支持隐私数据的可信交换,为区块链技术的应用增添了一种隐私数据的链下交互机制。 两者的结合已被广泛用于分布式数字身份解决方案中,用于解决互联网身份的“数据孤岛”问题。 在金融监管和数据治理方面,相信两者的结合会有更精彩的应用,这需要我们积极探索。
(二)可验证凭证的发展情况
可验证凭证数据模型契合了数据治理中的大多数痛点,可以积极尝试。同时 可验证凭证技术本身无论是规范标准化研究成果还是实际应用都取得了丰富的进展,其成熟程度能够用于实践。
1、 规范逐渐成熟,支持方众多
2019年11月19日,W3C可验证声明工作组发布可验证凭证数据模型(Verifiable Credentials Data Model 1.0)正式推荐标准(W3C Recommendation)。该规范的作者来自Digital Bazzar 、Consensys、Evernym等多个分布式数字身份的早期参与公司,并得到了如Christopher Allen等近百人的审阅支持。
2、 应用广泛,不乏商业应用
可验证凭证作为一种参照物理凭证的核心模型和使用场景设计的数据模型,其中一种应用场景是基于可验证凭证中属性信息对用户进行身份认证、提供应用系统的授权访问,与物理凭证在现实世界中的应用相似。
在这一类应用场景中,可验证凭证通常与分布式标识符相结合,构成分布式数字身份方案。根据W3C发布的DID规范中描述,分布式数字身份标识符(DID)是由字符串组成的标识符,用来代表一个数字身份。它注册在分布式账本上,是一种去中心化可验证的标识符,实体可自主完成DID的注册、解析、更新或者撤销操作,不需要中央注册机构就可以实现全球唯一性。
目前,使用可验证凭证技术的分布式数字身份解决方案在全球发展迅速。 W3C起草的分散标识符和可验证凭证规范发布了1.0版本;W3C的DID注册表中已注册了50多个项目;去中心化身份基金会(DIF)在推进标准的开源技术、协议和参考实现;非盈利基金会Sovrin发起的开源项目Hyperledger Indy已在多个产品中应用。
同时,可验证凭证只是一种信息系统底层的数据对象,适用于各种跨域数据交换的场景。微众银行的WeIdentity可信数据交换解决方案中就使用了可验证凭证作为数据交换的载体。将可验证凭证用于可信数据交换中,会为这一技术带来更多可能性和想象空间。
四、 结语
可验证凭证技术作为一种新型数据模型,具有安全性、隐私性、真实性、一致性、时效性、互操作性等技术特征,其规范定义和实际应用经过了时间的考验而逐渐成熟。这种数据模型契合了大多数当前监管科技数据治理中存在的痛点,有助于提高数据质量、提供隐私保护合规方案、促进数据互通。
参考文献
[1]中国银行业监督管理委员会.《银行业金融机构数据治理指引(征求意见稿)》.http://www.cbrc.gov.cn/chinese/home/docView/B03260D8FEF04ECB8BD95DE873C1D189.html.
[2]《李伟:做好数据治理 更快更好地推进数字化转型》.新华网,http://www.xinhuanet.com/fortune/2019-12/02/c_1125298138.htm.
[3]W3C. Verifiable Credentials Data Model 1.0: Expressing verifiable information on the web[S]. https://w3c.github.io/vc- >https://mp.weixin.qq.com/s/ovSa7Uhv5IyKzyb-l3PHaA.
[6]微众银行区块链团队. 《WeDPR方案白皮书:即时可用场景式隐私保护高效解决方案》. 2020/1.
[7]中国信通院.《“互联网+行业”个人信息保护研究报告(2020年)》.2020/3.
作者|张一锋 潘镥镥 平庆瑞
来源|《监管科技蓝皮书:中国监管科技发展报告(2020)》