EpiK Protocol 集数据标注、分布式存储以及数据应用等功能于一身,尝试解决市场缺乏有效数据的问题。

撰文:Zeo Zhang

腾讯创始人马化腾曾在 2017 年「迈进智能新时代」中国(深圳) IT 领袖峰会上坦言:

目前很多大数据是垃圾数据,因为没有标签,用再好的算法也算不出来,数据清洗、标签化难度非常高,我们甚至要耗费很多人工先清洗数据,再让 AI 学习。

一席话道出人工智能发展难点。在互联网计算机迭代数十年后,算法和算力的积累已将人工智能推向一个新的阶段,但缺乏高质量的有效数据,成为掣肘人工智能发展的重要原因之一。在解决这一问题上,测试网已经平稳运行一年的 AI 数据的分布式存储协议 EpiK Protocol 提出了结合区块链的解决方案。

2021 年 8 月 15 日,测试网已经平稳运行一年的 AI 数据的分布式存储协议 EpiK Protocol 将正式上线主网。作为一个首次集数据标注、分布式存储以及数据应用等功能于一身的项目,EpiK Protocol 尝试解决市场缺乏有效数据问题,构建共建共享共益的 AI 数据的分布式存储协议?

image (1).png

为什么缺乏有效数据?

一方面,平台默许甚至鼓励虚假的刷数据行为,造成无用数据横行。

对于传统互联网行业来说,刷数据现象司空见惯:新开的网店九成以上会选择刷单吸引客流量;即使是订阅量超百万的微信大号也经常通过刷阅读量满足广告客户的数据需求;更甚者,某旅游平台曾被爆出通过机器+人工的形式,冒充用户发表了数千万的用户评价,以假乱真,影响用户对产品的真实测评。

对于一向标榜公开、透明、链上可追溯的区块链行业来说,刷数据现象仍不鲜见,分布式存储领域明星项目 Filecoin 也曾陷入「无效数据」质疑:在 Filecoin 网络刚上线时,较高的挖矿收益吸引大量矿工参与,甚至有部分矿工利用外部程序进行灌装虚拟数据或自己封装一些毫无价值的垃圾数据。Filecoin 存储算力快速暴增,从而导致存储的数据量短时间爆增。再加上 Filecoin 网络一开始无法对存储的数据进行分辨,真实有效数据极少,大量物理存储被浪费,对整个 Filecoin 生态发展带来不良影响。

另一方面,数据处理成本居高不下,多数人工智能不堪重负。

众所周知,人工智能需要不断深度学习,这需要庞大的数据量支撑。

庞大的用户群体每天活跃在互联网中,产生庞杂的数据。然而这些数据并不能被直接使用。人工智能的深度学习需要数据集的获得、数据的标注等,其中数据的标注会造成巨大的人力成本。广泛应用深度学习网络需要大量已标注的数据进行训练才有可能达到预期的效果,但大数据时代下,虽然有海量的数据取之不尽,绝大部分却是未进行标注的数据,这些训练数据的标注需要人为进行。

对于数据品质要求越高,数据的标注需求就越精细,对标注人员的素质和专业知识的要求也就越高,相对应成本也越高。

长久以来,这些数据都由专门的数据标签分类公司(比如 Amazon Mechanical)进行加工处理,以供人工智能等数据需求领域发展使用。然而,用户-数据处理公司-数据需求者的三方协作,使得有价值的数据获取成本极高。

image (2).png

标注、存储、销售:EpiK Protocol 的一站式数据服务

EpiK Protocol 生态引入领域专家、赏金猎人、数据企业三类角色,致力于构建去中心化的大规模共建共享共益的 AI 数据存储协议,通过去中心化存储技术 IPFS、去中心化自治组织 DAO 及通证经济模型,组织并激励全球社区成员将人类各领域知识梳理成可用的 AI 数据,并持续更新这一人类永恒知识库。

在数据标注方面,EpiK Protocol 连接 C 端用户推出 AI 数据标注系统。

「领域专家」设计不同领域的 AI 数据格式,并发布数据标注任务;人人都能注册成为「赏金猎人」,参与数据标注成为 AI 老师,获得 EPK 代币奖励。

完成数据标注后,「赏金猎人」返还处理过的数据,「领域专家」验收所负责领域 AI 数据获得 EPK 代币奖励。此外,「领域专家」还会根据数据结果优化 AI 数据格式,良性循环下,数据质量得到不断提升。

image (3).png

在数据存储方面,EpiK Protocol 推出 AI 数据存储系统。

完成标注并通过验收的数据将由「领域专家」上传至 AI 数据存储系统进行分布式存储,参与数据存储的设备也都可以获得 EPK 代币奖励。

在数据销售方面,数据企业可通过质押 EPK 来访问数据,并从 AI 数据存储系统中付费下载有效数据。

由于 EpiK Protocol 的 AI 数据标注系统直接面向 C 端用户,消除了中间户数据标注公司的存在,简化了数据处理流转的各个环节,因此成本更低。以一条可用的 AI 语音方言数据为例:传统市场一条可用数据成本约在 12 元左右,而在 EpiK Protocol 系统成本约为 2 元,是传统市场的 1/6。

更重要的是,由于 EpiK Protocol 系统中有来自各行各业的「领域专家」把关数据治理,因此 EpiK Protocol 系统产生的有效数据更能够精准符合不同 AI 领域的数据需求。

image (4).png

协同 B 端、C 端和行业专家的开放经济模式

不同于目前分布式存储主要围绕 B 端归档数据存储服务的商业模式,EpiK Protocol 是一个协同 B 端企业、C 端用户和领域专家的去中心化协同 AI 数据存储协议,在成本控制、收益提升和服务体验方面,都具有媲美中心化互联网巨头的能力。

C 端用户:更低的数据标注门槛

EpiK Protocol 针对 C 端用户打造了 AI 数据采集应用「知识大陆」,降低了数据标注门槛,同时提升了趣味性。卡通的界面和简明的布局让数据标注这种枯燥而繁杂的工作变为有趣的游戏,通过游戏化形式组织其全球社区成员共建大规模开放 AI 数据库。

image (5).png

各行各业都可以在「知识大陆」中创建 AI 数据类型,包括金融、医药、法律、社交、电商等,未来随着知识大陆的发展和运用,有数据需求的公司都可以选择在此进行共同协作收集整理并处理数据。

其次,EpiK Protocol 的标注效率更高。AI 数据标注系统运营三周以来,EpiK Protocol 标注了 17272 条有效数据,且数据指标完整,每条数据被人工验证次数高达 10 次。相比较于传统标注方式,EpiK Protocol 的标注效率高了近乎 10 倍。

image (6).png

最重要的是,参与 EpiK Protocol 数据标注的用户能够获得更高收益。传统数据标注模式中,数据处理者仅作为一种人工劳动力,并不享有数据分红权。而在 EpiK Protocol 中,对数据做出贡献所获得的 EPK 实际是获得了数据的股权,分享数据在后续使用过程中的盈利分红。后期数据需求越大,EPK 需求就越高,EPK 便会升值,EPK 持有者便可以获益。

B 端用户:激励有效数据

EpiK Protocol AI 数据存储系统采取经典的 1 + 3 配置,即 1 Deamon + 3 Miners (8 核 16G,250G SSD,3T HDD,15M 带宽)配置。与 Filecoin 相比,EpiK Protocol AI 数据存储系统参与出块最小算力为 0、存储免费,无需指定节点且默认无限份数、无限时间,更能够充分调度起每台闲置存储设备。

最重要的是,Filecoin 存储无用数据也可获得算力,但 EpiK Protocol 存储系统中只有通过「领域专家」验证过的数据才可获得算力,这不仅保障了数据的高质量,而且进一步遏制了无效数据浪费存储空间的不良影响。

项目团队

EpiK Protocol 拥有行业顶级顾问以及实力派投资机构。著名 AI 科学家、SigularityNET 创始人、全球首个机器人公民 Sophia 之父的首席科学家 Ben Goertzel 出任 EPIK 铭识协议顾问,协助 EPIK 推动欧美数据市场,助力构建高质量的 AI 数据生态。

主网上线在即,AI 数据的分布式存储协议 EpiK 如何变垃圾数据为有效数据?

融资方面,EpiK Protocol 获得了包括 FBG Capital、JACKDAW、1475、ChainUp Capital、7 O'clock Capital 等机构的青睐,助力 AI 数据的分布式存储以新的势头进入大众视野。

主网即将上线

根据团队最新消息,EpiK「主网 1.0 罗塞塔」将于 2021 年 8 月 15 日中午 12 点正式上线。该时间也是 EpiK 测试网上线 1 周年的时刻。目前测试网 5.0 在测节点已超过 6 万个,稳定出块。

随着主网的日益临近,挖头矿也成为 EpiK Protocol 用户的关注焦点之一。作为 EpiK Protocol 生态激励代币,EPK 总发行量为 10 亿,其具体分配规则如下:

  • 创世团队:5%,每 90 天释放 1/16;
  • 基金会:5%,每 90 天释放 1/4;
  • 投资人:20%,每 90 天释放 1/7;
  • 社区:70%,出块速递每 90 天衰减一次,4 年减半,分 50 年释放完毕。

image (7).png

EpiK Protocol 拥有 AI 数据标注和 AI 数据存储两大系统,也对应了两种主要参与方式:

第一类,参与标注 AI 数据,成为 EPK 赏金猎人。利用闲暇时间参与标注不同 AI 领域数据,完成任务越多,EPK 收益越高。认真答题还有机会赢取知识徽章 NFT,后续可凭借 NFT 参与 EPK 空投活动。

第二类,参与存储 AI 数据,成为 EPK 存储节点。利用闲置的存储设备即可参与存储 AI 有效数据,每个存储节点需要完成 1000 EPK 的基础质押才能拥有出块权。存储节点是随机获得出块机会的,但是其随机被选中的概率和其成功存储的数据大小挂钩:存的数据越多,被选中概率越高,同一个文件的 Top100 存储者享有双倍算力。

只有通过领域专家验证过的数据才被计为有效存储,存储节点才能获得算力,因此,为了获取更多的有效存储,就需要完成额外的流量抵押。1 EPK 可以用于访问 10 Mib 数据,也可用于封装 10 Mib 数据。目前,基础抵押提现的解锁期为 0 天,流量抵押提现的解锁期为 3 天。

结 语

EpiK Protocol 还开启了在分布式治理领域的探索,于 7 月 20 日发布了 EpiK DAO。作为分布式存储赛道首个 DAO 治理模型,社区用户可以借助 EpiK DAO 参与 EpiK 生态资源的动态调节,有效保障 EpiK 社区的可持续发展,修复未来可能发生的资源错配问题。

随着 Web 3.0 时代的日益来临,数据的重要性日益凸显。EpiK Protocol 从数据标注到数据分布式存储再到对接企业实现数据应用,打造了一个低门槛、高效率的数据收益共享闭环,未来 EpiK Protocol 如何实现丰富的落地应用场景值得期待。