公信宝区块链产品白皮书
公信宝 - 基于区块链的去中心化数据交易所
1.摘要
一个理想的数据交易所应当允许参与交易的双方在最小化风险和成本的前提下,对数据进行存储、转让和交换,在去中心化思想和区块链技术的基础上,我们重新定义了一个新的名为公信宝的产品,用来实现一个理想中的数据交易所。公信宝首先将打破传统的数据交易存在的“数据沉淀”问题,通过去中心化的点对点数据交换以及对交易的数据进行非对称加密,除了数据交易的购买方,不会有任何第三方可以获得数据,保障数据源的利益最大化,同时为了保护交易双方的经营隐私,公信宝会对交易双方进行匿名,除此之外要需要实现数据体量悬殊企业的平等交换、数字资产的所有权认证以及如何有效遏制数据交换中的造假问题。
公信宝数据交易所是一个通用的数据交易平台,底层是基于区块链打造的一条联盟链,适用于各行各业的数据交易,面向的典型客户为泛金融企业(银行、网络贷款、汽车金融、消费金融、小贷公司),以及数据交易交换需求的政府、保险等,为了更好的说明它的用途和更快速的切入市场,我们首先选择个人信用基础源数据作为交易的主要数字资产,将泛金融领域的客户作为首期目标客户。
2.名词解释
公信币:公信宝数据交易所在数据交易达成后结算时所需要使用的代币,价格永久恒定,和人民币汇率为1:1,公信宝运营公司作为公信币的承兑商提供公信币和人民币的互兑
节点:就是公信宝数据交易所的客户端,每一个客户端都是一个独立节点,通过P2P网络链接在一起。
数字资产:指的是公信宝数据交易所中所交易的数据,包括但不限于贷款记录、逾期记录、放款记录、高风险欺诈记录、生活信用、法院执行记录、工商信用、五险一金、消费记录、运营商记录等数据。
交易双方:指的是数据交易所中买卖数据的双方。
数据源:指的是在数据交易所上架的数据资产的来源。
商户:指的是数据交易所中有权限参与买卖交易的成员,主要由银行、网络贷款、消费金融、汽车金融、小额贷款、保险公司、运营商、政府机构、数据公司等组成。
数据源商户:数据源的供应商也是公信宝的商户,是一个可以销售数据的商户。
联盟:联盟指的是一群相互交易交换各自数据的商户形成一个联盟,联盟内的数据只有联盟内的成员才可以交易。
联盟成员:联盟成员是联盟的每一个商户,联盟中的成员各自都拥有同样数据类型,他们既是卖方商户也是买方商户。
白名单:每个联盟都通过一种白名单机制来控制可交易成员,白名单里的成员都是可以交易的联盟成员,添加进白名单的商户则自动成为联盟成员。
黑名单:列入黑名单的商户无法参与任何交易。
智能合约(Smart Contract):一个智能合约是一套以数字形式定义的承诺(promises) ,包括合约参与方可以在上面执行这些承诺的协议。在公信宝数据交易所的智能合约由数据购买请求者发起,智能合约里约定了购买数据的类型、身份、价格、最大条目、最大价格等条件,智能合约发出去之后会被广播到拥有该数据类型的数据源节点,如果数据源拥有该数据则可以对此智能合约进行回应,如果最终合约被匹配,则数据交易达成。
广播:指的是消息经过区块链网络送达给网络上的节点,广播的内容可以是智能合约、文本消息。
点对点传输:点对点技术(peer-to-peer, 简称P2P)又称对等互联网络技术,是一种网络新技术,公信宝利用点对点技术来进行传输数据,不经过任何中心化服务器。
非对称加密:对称加密算法在加密和解密时使用的是同一个秘钥;而非对称加密算法需要两个密钥来进行加密和解密,这两个秘钥是公开密钥(public key,简称公钥)和私有密钥(private key,简称私钥)。
净网委员会:净网委员会是一个公信宝里管理数据造假的公益组织,名下有一个公信币账户,用于接收处罚的公信币和奖励每季度表现排名靠前的成员以及对净网产生重大贡献的成员,会定期公布。
3.目前数据交易领域存在的问题及业务痛点
3.1 数据沉淀问题
目前市面上常见的数据交易平台(或称数据交易所)都有 “数据沉淀”的行为,数据沉淀指的是原本数据交易平台自身是没有数据的,通过代理销售数据源的数据,以API接口的方式对外提供服务,销售一条缓存一条,慢慢就形成一个较大规模的缓存数据库,今后至少销售同一条数据不再请求数据源,而是数据交易平台自己从缓存数据库读取并销售。
这样的方式意味着数据源在一个平台同一条数据只能销售一次,不仅侵蚀了数据源的利益,而且数据确权和追踪溯源都无法保障,更严重的是很多数据交易平台的安全意识较薄弱,缓存数据库往往会被黑客盯上后被窃取,造成数据泄露。
以互联网金融领域为例,金融履约数据的数据交易交换需求非常强烈,但如果有数据交易平台沉淀他们的交换数据,那是绝对不可能接入的,因为这个数据交易平台沉淀了那么多数据,未来如果有一天他们自己做贷款自己做金融,就是大家培养了一个最大的竞争对手,由于金融履约数据往往涉及个人敏感数据,如果让数据交易平台沉淀数据后随意买卖或者造成数据泄露,后果则非常严重。
3.2 不注重个人隐私保护的问题
我国征信立法中至今仍有许多重大的问题尚未形成统一的认识,尤其是个人征信体系立法问题还存在很大的争议,比如个人隐私的范围鉴定、征信公司的资质审核等,因此对个人隐私保护除了要有法律法规配套还需要持续性的监管。而在这一切都还没出台之前,目前的数据交易市场,涉及到个人隐私的数据根本没有得到本人的同意就已经被随意买卖,加上近几年互联网金融的火爆,直接带动了个人数据的火爆交易,这背后是巨大的市场规模。
3.3 数据新鲜度不足和造假问题
以互联网金融履约数据为例,目前已有的数据交易平台或大数据公司因为都存在“数据沉淀”问题,所以一般金融服务公司都不会直连这类数据交易平台提供数据源,更何况很多的数据交易都不注重用户授权,所以数据源都不太敢提供实时数据给数据交易商,可能拿到的是几个月或者一年前的数据,所以也就造成了数据新鲜度不足的问题,甚至很多数据更是直接来自于黑市倒卖,在这样来源不明的背景下销售的数据难免不让人觉得数据有造假嫌疑。
参考一本财经公众号发布的文章《征信之乱:一家公司黑市盗卖上亿数据,如今估值几十亿》。
4.互联网金融行业的数据交易机会
当前金融履约数据的交易市场还是处于一片混乱的状态,并没有非常好的解决方案,首先国家公权力部门(中国人民银行征信中心)并没有去统一采集、评估这些数据,所以网络贷款和消费金融行业都依靠征信服务机构(征信服务公司、大数据公司、信用评分公司)的“小规模”数据在做信用评估,不仅数据新鲜度差,而且数据真实程度也有待确认,网上早有爆料大部分征信公司都是从黑市的“中间人”购买个人征信数据,而黑市的数据掺水严重,造假比例甚至高达90%。除了从黑市购买数据外,征信服务公司还会代理销售其它数据源的数据,每代理销售一条数据就缓存一条(数据沉淀),这是一种典型的中心化数据交易思路,数据源每一条数据只能卖一次,今后的收益不再归数据源企业所有,极大的伤害了数据生产者的权益,征信行业迫切需要一种既能解决数据质量问题同时又要保护数据生产者权益的完美解决方案。
不仅如此,金融行业的 “信用数据孤岛”问题还没有得到解决,平均每天全国3万多家网络贷款、消费金融、小额贷款公司会产生千万条贷款记录、还款记录、逾期记录、黑名单等金融履约数据,这些海量数据还没有发挥它应有的价值,如果能够联合全行业的企业形成一个良性健康的数据交换平台,将会为联合授信、控制贷款杠杆,降低坏账提供巨大的帮助,造福全行业全社会。
5.公信宝数据交易所(产品篇)
公信宝数据交易所是一个基于区块链的去中心化数据交易所,将做到以下三点:
1、不缓存沉淀数据源的数据;
2、注重个人隐私保护;
3、最大程度保障数据新鲜度和准确度。
5.1 业务流程说明
上图表达的是公信宝数据交易所大致的一个流程,由于画图画的太详细显得很臃肿,所以隐藏了部分细节,下面用文字描述:
公信宝数据交易所的所有数据交易都是在真实场景发生的,以下举一个场景说明:
用户A向一个商户B(金融服务公司)申请消费分期(上图的购买数据商户),该商户受理这个申请后,由于缺少用户A的个人信息,于是向公信宝数据交易所发起购买数据的请求(请求即智能合约,商户B的系统通过调用安装在自己公司服务器上的公信宝客户端的提供API接口发起),交易所客户端会判断该请求购买的是否涉及个人敏感数据,如果判定是敏感数据则触发个人隐私保护机制,向用户A发送一条短信或者推送一个消息给用户A的公信宝APP(如果已经安装),向用户申请授权查询,如果用户A拒绝了这次授权,则流程结束,商户B无法购买此数据。假如用户A同意这次授权(正常情况下都会同意的),交易所则广播此智能合约到所有拥有这类数据类型的数据源商户客户端节点,每一个节点根据智能合约的条件查询,如果数据源没有用户A的数据,则该节点可以忽略即可,如果有则使用通过非对称加密数据点对点传输给商户B节点,商户B则根据智能合约的规定自动支付代币给数据源,商户B最终拿到自己所在节点解密后的源数据进行加工利用。
备注:业务流程过程中的密码学过程参考6.4说明。
5.2 自由市场(Free Market)和联盟市场(Alliance Market)
公信宝数据交易所的交易所市场分为以下两种市场:
5.2.1 自由市场(Free Market)
是一种相对自由的市场,数据源商户在合理定价后在公信宝的协助下上架数据,任何一名不在黑名单的商户都可以调用接口购买数据。
5.2.2 联盟市场(Alliance Market)
相对于自由市场来说,这是一个有权限控制的市场,公信宝为不同的数据类型或者不同垂直领域的商户建立一个个联盟,甚至也可以为同一个领域拥有相同数据类型的商户建立不同的联盟,这都是为了不同权限的需要,例如金融履约数据联盟,杭州金融履约数据联盟、BAT金融履约数据联盟、五证合一数据联盟、大健康数据联盟。
每一个联盟市场的成员前提自身具备生产该类型数据的能力,同时又有购买该类型数据的需求,可以和联盟内的其他成员进行有效的交易交换,并最终形成一种健康的数据共享。联盟内的不同数据单价由公信宝和联盟成员协商进行标准定价。
5.3 产品特点
5.3.1 没有中间商的点对点(P2P)数据交易:不缓存沉淀交易数据
公信宝采用的是基于区块链的去中心化交易技术,在交易过程中不存在任何第三方,而是为所有交易者建立一种点对点交换的场景,例如:当A商户(请求者)发起一笔数据交易请求时(即智能合约),该智能合约会广播给全网的商户节点(B\C\D…),如果B\C\D等任何一个节点有数据的话,直接点对点传输给A节点,A节点自动支付代币给卖方商户。整个传输过程采用非对称加密通道,除了A之外任何第三方截取该数据包都无法解密,保障数据安全。除此之外,公信宝数据交易所提供的是一个交易通道,区块链上仅存储数据交易摘要、凭证、数字版权以及其它交易所需要依赖的一些基础信息,并不保存交易的源数据和加密后的源数据,所以并不会出现有人同步所有账本后进行强行破解而得到数据的可能性。
5.3.2 双向匿名设计:交易匿名记账
由于区块链的账本是公开的,任何交易都可以追溯,但是在数据交易领域是有一定的匿名需求的,这个就需要对区块链做一定的交易匿名设计,以互联网金融的企业为例,他们有非常强烈的数据交易匿名需求,买方不喜欢其它商户知道自己买了具体什么样数据,目的是不喜欢其他人逆推出自己的征信模型,卖方则不希望其他人知道自己销售了什么数据,用于保护自己企业的经营隐私(例如贷款余额多少、坏账率多少、实际利息收多少等),公信宝可以对每个参与数据交易的联盟成员在区块链上实行双向完全匿名记账(可以配置是否需要匿名记账),也就是说不仅不知道数据交易给哪个商户,对方也不知道数据从谁手里购买的,从而彻底保护交易双方的隐私。
5.3.3 信用贡献证明机制(POCS):体量悬殊的联盟成员可平等交换数据
在没有非常好的共享信用解决方案之前,体量悬殊的企业几乎不可能进行交换,原因在于对数据体量大的企业来说不公平,同时大公司也不是很在乎单个小公司的数据量,所以让他们之间建立交换是在太困难了,虽然大公司会忽视单个小公司的数据,但如果有100家甚至1000家小公司组成的数据规模就不可小视了,所以为数据体量悬殊的它们建立一个公正公平的共享信用交换体系实在是非常重要。
公信宝独创的信用贡献证明共识机制 ( PoCS - Proof of Credit Share )将彻底解决这个问题,我们将每一项数字资产以及字段进行标准定价(后续资产价格的涨跌由理事会投票和市场表现综合决定),每一条数据被查询并交易成功,则计算一次贡献(Share,类似挖矿的算力贡献),数据量越大的联盟成员被交易的可能性越高,也将产生更多的贡献,贡献越多将得到的公信币奖励,也就意味着贡献越多可以换回更多的数据,而数据量小的联盟成员相对可能产生较小的贡献,如果希望换回非常多的数据,那需要购买足够的公信币才能达到这个需求,所以在这样一种按照贡献值来计算的共识机制下,联盟成员就可以在一个公正公平的共享信用交换市场中愉快的做自己想做的事情。.
5.3.4 数据版权认证:数字资产所有权认证
前面我们讲到很多数据交易平台和征信公司在销售数据的同时自己会缓存沉淀一份,今后这条数据就可以自己卖了,这样一来原本数据源一条数据只能销售一次,自己的权益无法得到保障,更是无法确权和追踪溯源,通过公信宝的数据交易所交易后,不仅不会沉淀数据,今后买走这条数据的人再次将数据放到交易所交易,收益依然归原生产者所有,这得益于公信宝交易所的数字资产所有权认证(DPO- Digital Proof of Ownership)。
DPO是公信宝区块链对数据这个特殊的资产进行版权认证的技术控制手段,当一个数据交易智能合约生效后,这条数据就会被打上一个永久数字证书,用来证明数据的生产者,今后这条数据产生的价值收益权永久归生产者所有,这一点更是实现了数据的确权和溯源。
5.3.5 注重个人隐私保护
交易所里交易的个人数据都需要得到本人的授权确认,联盟成员在交易所购买个人数据的初衷是为了获得个人的更多信息,以便于掌握该用户的贷款杠杆和风险,但这项交易依然事关个人隐私,只要是个人隐私数据都需要获得本人的同意,公信宝的做法是当购买方发送智能合约请求购买数据,公信宝数据交易所会做一次拦截,判断该智能合约要购买的数字资产是否涉及个人隐私,如果涉及个人隐私,个人用户会收到一条手机短信,如果安装了公信宝APP则会收到一条确认授权推送(授权记录将写入区块链),授权同意后此智能合约才会广播全网进行查询和交易。
公信宝除了要解决金融领域获取个人数据难的行业痛点问题,还将致力于保护个人隐私,我们坚持认为个人的信用应该由个人来管理,任何人或机构使用都需要得到本人同意
备注:个人用户可以安装公信宝APP管理自己的信用(非强制安装),注册时需要提供身份证、姓名、手机号、银行卡等身份验证,验证本人身份后,会向公信宝区块链注册身份,会生成一对专属的秘钥,今后所有查询该用户数据时,都会推送消息给公信宝APP或者手机短信来进行授权确认。
5.4 不会挑战国家征信管理条例
业内对征信数据处理最深层的担忧,在于其挑战违反个人征信管理条例的属性,会得到监管机构的大力排斥和法律问题,公信宝数据交易所不沉淀数据,不加工数据,不提供数据评估报告,涉及个人敏感数据都需要得到本人的授权确认并记录到区块链,不会触犯个人征信管理条例。通过区块链点对点的数据交易,一举打破线下黑市交易混乱的现状,将联盟成员合理合规的数据共享建立一个一个公平公正的交易交换平台。
5.5 数据造假问题控制
当前个人征信数据的线下交易繁荣,工商、身份信息、车辆、房产、电商交易、银行、运营商尤为抢手,但黑市市场渗水严重,为了获得超高利润,数据造假比例已经达到90%,这说明不仅数据新鲜度不够,而且数据的真实性也是大打折扣。
公信宝交易所从以下几个方面遏制数据交换中的造假问题:
1、准入门槛:而金融履约数据以及很多维度的数据是爬虫采集不到的,就需要联盟成员之间来进行相互交易,公信宝对联盟成员做好严格准入,仅限拥有该数据生产能力的商户加入联盟。
2、投诉机制:商户通过交易所购买到数据,在实际使用过程中发现偏差很大或者完全就是假的,可以通过交易所投诉,投诉后会被广播并同步到全网,这些投诉将会永久存储,如果收到的投诉过多,不仅会影响商户的正常交易和信誉,还将受到严厉的处罚。
3、个人检查:前面我们说到要购买涉及个人隐私的数据需要得到本人的授权同意,个人同意后智能合约才会广播,此智能合约最终收到购买到的数据,个人用户的公信宝APP或者短信都可以看得到,允许个人检查数据的真实性,如果对此存疑,可以提交质疑。
4、处罚机制:收到一定量的投诉和质疑以及交叉验证判断出来的造假机率,这些信息将会换算成负贡献值(-Share),负贡献值将会抵消贡献值(Share),也就是此联盟成员今后需要产生更多的贡献才能消除此负贡献值,才未消除负贡献值之前,所有的收益将会进入净网委员会账户,而被-Share非常严重的联盟成员,将会直接封停状态,冻结所有公信币资金。
备注:净网委员会账户收益将用于奖励每季度表现排名靠前的成员以及对净网产生重大贡献的成员,会定期公布。
5.6 产品生态架构图
6.公信宝数据交易所(技术篇)
6.1 公信链(gxChain)
公信宝去中心化数据交易所的底层区块链是团队自己迭代开发的独立区块链,命名为公信链(gxChain), 它是一条在公网(开放式互联网)上运行的联盟链(有一定的准入门槛),原始代码是fork了Graphene(Bitshares2.0的核心),在此基础上又吸收了Emercoin区块链的功能协议,以及Monero的匿名设计。团队根据业务需要对Graphene进行了大刀阔斧的改造,并形成了专属应用于公信宝的代码。
以下是团队主要的开发内容:
1、开发了一个新的共识机制(PoCS - Proof of Credit Share),根据信用贡献证明机制,用来解决数据体量悬殊企业之间的联盟共享不平等问题(查看5.5.3说明);
2、开发了数字资产所有权认证功能(DPO- Digital Proof of Ownership),用来对数据源交易的每一条数据进行确权,销售出去的每一条数据都拥有独立的数字版权证书并记录到区块链上(参考5.3.4说明);
3、开发了数据交易传输过程中的非对称加密功能(参考6.4说明),让数据交易安全,整个过程不泄露不被沉淀
4、在graphene基础上增加了匿名性的设计,以满足数据交易双方匿名的需求;
5、在light-wallet原有基础上增加了JSON-RPC接口,所有的商户只需要安装light-wallet就可以完成所有的交互,如果有数据同步需求则可以自己安装witness进行链接,更加的便捷;
6、在light-wallet上增加了智能合约私钥签名和数据传输到达解密的非对称配对功能,确保数据安全;另外还增加了数据对接适配器和回调机制,对输入输出的数据格式进行格式化和统一适配,减少数据源response的改造工作;同时当商户购买的数据返回到达该节点时,自动进行私钥解密并回调推送给商户。
7、除此之外因为业务需要还在区块链上增加了如数据市场、数据类型发布、准入审核、联盟管理、处罚机制、敏感数据管理、个人隐私保护机制等众多功能;
8、还有一些更细小的功能就不在这里一一表述了。
参考代码:
graphene: https://github.com/cryptonomex/graphene
graphene-ui: https://github.com/cryptonomex/graphene-ui
emercoin:https://github.com/Emercoin/emercoin
emcdpo:https://github.com/Emercoin/emcdpo
emcssl: https://github.com/Emercoin/emcssl
emclnx: https://github.com/Emercoin/emclnx
monero: https://github.com/monero-project/monero
6.2 性能优化
Graphene吸收了LMAX交易所的处理经验,每秒可以支持10万笔交易,这得益于graphene核心的以下几个关键点:
1、将一切东西放在内存里面;
2、将核心的业务逻辑放到一个单线程里面;
3、将加密算法操作(哈希和签名)放在核心业务逻辑以外;
4、将校验的操作分成状态独立和状态依赖检查;
5、使用一种面向对象的数据模型;
作为公信宝底层区块链的公信链因高频数据交易需求,对以上5点做了进一步优化,支持每秒百万次交易频次。
6.3 如何解决区块链数据膨胀问题
公信宝采用以下两种方式解决数据膨胀问题:
其一,公信链采取和graphene一样的witness和light-wallet分离的机制,需要同步全部账本的节点可以运行witness(full node),而大部分用户则只需要运行几十M的light-wallet即可,light-wallet可以链接到任何一个witness,而公信链在light-wallet上做了更近一步的开发(参考6.1说明),开发了大量JSON-RPC,商户购买数据和数据源接入以及联盟市场都只需要对light-wallet做接口开发即可,不再强制依赖witness。当然如果有些商户希望同步full node,则可以在商户自己的服务器上安装witness,让right-wallet链接上这个节点即可。
其二,公信链上仅存储数据交易摘要、凭证、数字版权以及其它交易所需要依赖的一些基础信息,并不保存交易的源数据和加密后的源数据,不仅缩写了区块的大小,也杜绝了爆破加密算法后得到账本数据的风险。
6.4 如何通过密码学的方式来证明公信宝不缓存沉淀数据
我们以一个数据购买者节点和数据源节点的数据传输为例来解释这个问题:
购买数据的商户A,对智能合约进行私钥签名(私钥上商户在自己的客户端按照自己的方式生成的,它人无法得到),发送时携带自己的公钥,通过交易所客户端广播给全网节点,上图中的数据源商户节点收到了广播,调用数据源的数据接口查询,如果数据源查询到数据,则使用商户A的公钥对源数据进行加密后点对点传输给商户A的客户端节点,商户A的客户端节点推送数据给商户的接收数据接口,商户A使用私钥解密得到源数据。
整个过程采用非对称加密(SM2椭圆曲线算法),加密数据使用的是商户A的公钥,而只有商户A的私钥才可以解密,即使过程中数据包被它人截获,都无法解开数据(即使公信宝截获因为没有私钥同样解不开),彻底保障数据交易过程中的传输安全。
위믹스3.0 최초의 DAO ‘원더다오’, 노드 카운슬 파트너 합류
위믹스3.0 최초의 DAO ‘원더다오’, 노드 카운슬 파트너 합류 l 탈중앙화 자율조직 형태로 결성…구성원 모두가 위믹스3.0 운영에 참여 가능l 스마트 컨트랙트 기반 모듈화 ...
[주간톡톡] 양의 탈을 쓴 늑대는 양일까? 늑대일까?
주간톡톡은 한주간의 블록체인 소식을 재구성해 독자들과 재미있게 이야기해보는 코너입니다. 이번주는 페이스북의 스테이블 코인 프로젝트 '디엠(Diem)'에 대해 알아보겠습니다. 그럼 ...
IBM, 블록체인 와인 추적 서비스 '빈어슈어(Assure)' 공개
IBM이 재배지부터 매장까지 와인 공급망을 추적할 수 있는 블록체인 기반 플랫폼을 공개했다.10일(현지시간) 발표에 따르면 IBM은 와인 모니터링 업체 e프로브넌스(eProven...