数据流通和隐私安全矛盾何解?看趣链、ARPA的神仙回答!

区块链 算力智库 2019/09/04 19:00




算力说



我们是否必须在效率和隐私之间做出取舍? 


 
在《今日简史》中尤瓦尔.赫拉利曾断言: 未来,政治将是关于数据流控制权的斗争,需要“警惕数据独裁统治的兴起”。
 
从今日来看,尤瓦尔.赫拉利当初的判断并非危言耸听。 据Gartner前瞻产业研究院整理,从2017年开始,伴随着大型化、集约化的发展,全球数据中心数量开始缩减,截至2017年底,全球数据中心有44.4万个,预计2020年将减少至42.2万个。 据Synergy调查显示,全球数据中心收购交易量在2017年创下历史新高,达48宗,并购交易规模达200亿美元。 全球数据市场正呈现数量在减少,体量在持续膨胀的显著特征,数据独裁和数据垄断已成为不可逆的社会现实。
 
“数据垄断的出现,是因为大平台通过自身营造的网络生态系统吸引千万流量、汇聚海量信息,进而形成网络效应。 大平台对数据的控制提高了市场进入壁垒及转换成本,从而带来了赢者通吃的局面,这种局面会带来双面结果,一面就是行业效率的整体提高,另一面就是催生了一座座数据孤岛,数据安全和数据隐私全系几家巨头身上,这是非常可怕的”。 一位业内资深数据安全专家告诉算力智库。
 
事实上,这位专家的担忧并非没有道理,去年2018年被称为数据灰色之年,原因是因为几大互联网巨头接连出现数据泄露事件,Facebook 8700万用户的数据被一夕窃取,亚马逊深陷内部数据泄露丑闻,谷歌5200万用户数据也遭泄露…,泥沙俱下,巨头之罪殃及我们每个人。
 
行至今日,足以显见的是虚拟无形的数据早已不再是数据本身,和活跃千百年的权力、欲望一样,数据成为了时代戏剧的导火索之一,变得愈加复杂和严峻。 数据拥有者和数据贫乏者之间的鸿沟如何填平? 效率和隐私安全的矛盾困境何解? 个人数据自由该何去何从? 算力智库据此采访了国内隐私计算的代表企业——趣链和ARPA,围绕以下焦点展开云Battle,真知和灼见,方向和思考,悉在其中。


1

焦点一:
流通效率和隐私安全的矛盾困境,如何寻求最优解?

 




大数据时代的爆发式发展,让数据流通效率和隐私安全的矛盾日益“显性化”和“尖锐化”,百度CEO李彦宏的”中国人愿意用隐私换取便利“的论调,更是“成功”地将这一议题带到了公共舆论场,数据流通效率和隐私安全到底能不能共存?二者如何寻求平衡和最优解? 成了业内普遍的迷思。
 
ARPA联合创始人兼CEO Felix Xu从数据市场的本质发展逻辑来阐述,他认为数据共享流通和隐私保护并非二元对立,不可调和,其实就是一个先后顺序的问题,最开始肯定是要流通的,然后以前是以灰产,黑产或者数据中介的方式去流通,到后面才会涉及到隐私保护,随着后续数据价值的不断提高,隐私问题也必然会被重视起来,这是事物发展的自然规律,数据领域也不外如是,流通效率和隐私安全就像天秤的两端,在高低失衡间,最终会随着市场的成熟,技术的不断优化,数据意识的强化普及而走向平衡,ARPA作为一个基于智能合约和多个区块链网络交换信息的安全多方计算网络,便是为隐私安全而生。
 
趣链科技BitXMesh平台负责人汪小益则从实操角度贡献了观点,他表示数据流通和隐私保护首先应该从法律和监管切入,通过明确的数据隐私保护法规、条例对数据安全和隐私进行制度上的保障; 其次应该是企业在用户许可的情况下,通过先进技术手段,利用密码学协议如同态加密,多方安全计算,秘密共享等配合机器学习算法如联邦学习促进数据知识的发掘和流动,而不是原始用户数据对企业直接暴露。

2

焦点二:
纯密码学隐私计算与TEE硬件可信计算的较量





 
在当前的区块链基础架构中,隐私保护功能往往存在着隐私性、可拓展性、链上计算三个维度的“不可能三角”,这意味着任意两个维度都与第三者冲突。 区块链的隐私协议也经历了CryptoNote、Zk-SNARKs、TEE、MimbleWinble、以及Zether(Quorum)、MPC等的演进,应用范围不断扩大,从单纯的保护加密货币交易隐私升级到数据共享的流通隐私。
 
当前国内大部分公司的隐私路径遵循了TEE硬件+密码学、MPC等纯密码学两种技术流派。 纯密码学方向的主流做法就是以MPC(安全多方计算)、零知识证明,同态加密等密码学算法为核心,主要代表项目有ARPA、PlatON等。  
 
关于这两种技术路线有何不同? 哪种路径才是隐私保护的理想方案? APRA CEO Felix Xu认为MPC和区块链是有异曲同工之妙的,比如都是去中心化的,区块链是去中心化的账本,而MPC是去中心化的在加密数据上做运算,二者是天然结合,同时也不会遇到TEE比较中心化和工程上漏洞的问题,且MPC主要集中在小场景,对特定算法和高安全要求的敏感数据会做出即时和高效的处理。 由于MPC是完全去中心化的,在每个节点上的数据secret share都是密文,整个运算过程不解密,所以加密计算(Compute on Encrypted Data) 也被称为密码学的圣杯。 当然MPC目前来说并非完美,存在的问题也有很多,譬如计算速度慢,通讯负担高,理论较完善但技术工程还在初期等,针对于此,ARPA做了多次优化和重构。
 
Felix Xu介绍到: “比如在不同场景中,我们会在MPC电路编译时对函数进行优化,比如某些步骤需要密文计算,某些步骤明文计算即可,这样就可以大幅提供计算速度,另外我们用了一年时间重构了MPC密码协议,使其效率更高,支持算法更多。 最后从我个人来说,密码数学虽然会比较美,但TEE和MPC的终点是一样的,而且使用场景很不同,都是非常好的技术路径,其实你说Facebook的Libra是不是一个妥协的解决方案呢,更重要的是能先让这些技术用起来将这个市场打开,所以这点我是很认可TEE的”。
 
相较于MPC的纯密码学路线,需要长期的学术投入和技术商业化研究,TEE硬件+密码学的方式则更容易实现商业化落地应用,趣链汪小益表示,TEE和纯密码学这两个技术本身不属于一个层面,没有实质冲突,只是说两类技术对具体问题是否适用,纯密码学解决方案从理论上保障了数据安全隐私不被泄露,而TEE相当于从工程手段保障数据安全但不具备理论安全性。 就目前的技术发展现状而言,纯密码学方案对多方的数据共享性能上没有优势,需要进一步突破性能瓶颈,而基于TEE的可信计算在计算性能上更强,但是硬件投入成本以及TEE本身设备的安全性保障也需要继续优化。 那么就当前所需的场景,通过多个TEE之间共同组成可信计算网络达成相应联邦计算任务,对于趣链来说,是更合理的一种技术路线。
 
汪小益坦言: 技术较量实际上并没有唯一标准,最终都会落在场景上,隐私技术协议的演化路径是市场需求导向,对于企业而言,自身商业模式的选择才是决定采用哪种隐私技术路径的关键因素。

3

焦点三:
互联网巨头与原生区块链技术公司的赛道之争



 


闻风而动,商业嗅觉敏锐的巨头和区块链技术公司们自去年开始便纷纷入局数据共享这一赛道。 2018年下半年,以数据共享和流通为核心的数据变革浪潮席卷互联网圈,一边是巨头们开始摇旗呐喊,上演“你方唱罢我登场”。
 
2018年9月,腾讯宣布新成立云与智慧产业事业群(CSIG)和技术委员会,后者将负责打造技术中台。
 
2018年11月,阿里云事业群升级为阿里云与智能事业群,并开始对外输出中台能力。 百度于今年3月份上线了基于区块链的数据流通平台XuperData,蚂蚁金服在区块链技术的隐私保护领域重点发力,投资QEDIT研究零知识证明,并提出TEE+预言机技术方案。
 
另一边,原生区块链技术公司也并不示弱,公信宝2017年6月下旬上线了去中心化数据交易平台,趣链科技于2018年末开始搭建数据共享平台BitXMesh,以联邦计算为核心,打造联邦学习平台,支持用户自定义相关学习模型,在保护用户数据隐私的前提下发挥分散数据的价值,构建完善的AI模型。 ARPA也于今年2月份上线MPC测试网,作为首个能支持多方安全计算的隐私计算网络,MPC测试网可支持多种算法,比如矩阵乘法、卷积神经网络的基本操作、定点数、浮点数的运算、三角函数、逻辑回归、线性回归等等。
 
据算力智库了解,早在2017年,数据共享平台就已经超过了100家,如今巨头和区块链技术公司集体涌入,这条赛道注定会越来越挤,不掉队和站排头是商业竞争的核心要义,互联网大厂和原生区块链公司的隔空对垒,暗暗较劲,最终会形成怎样的格局?
 
ARPA Felix Xu表示: “大厂和区块链技术公司在选择跑道时的切入点会有所不同,大厂会注重宏观生态,每个跑道都不想遗漏,而像区块链技术公司相对会更专注和聚焦一点,就比如ARPA。 我们只做MPC,不做链也不做TEE。 另外单从MPC这个角度来说,MPC是一个非常尖端的技术,但不成熟,所以说拿一个off-the-shelf就是现在完全可用的一套协议,那是行不通的,这个你搁到任何项目上效率都达不到要求,扩展性不够,我们是希望能踏实的将这个成果转化,然后把Paper转成密码协议,去重构一线的一些开源协议,这些都是需要时间的,大厂呢,主要还是用一些已经实现的东西去套项目,那我觉得这个是不可持续的。 之前也和蚂蚁金服的产品同事聊了,他们每年必须要落地好几个项目,百度那边儿也是。 我们相对来说节奏会放缓一点,先将技术和产品打磨好,再推向市场,所以说短期来看竞争冲突倒没那么激烈,但长期来讲竞争是肯定存在的”。  
 
趣链汪小益则认为区块链一个很重要的理念就是去中心化治理、合作共赢。 所以无论是原生区块链公司也好、传统大厂也好,大家都是在为数据隐私保护和数据流通出力,而且这也必然不是单一一个组织能够解决和完成的事业,需要多方在技术上、业务上进行多点突破。 所以更值得关注的是将来如何利用区块链技术提供一个协同发展的平台,为整个社会的隐私保护和数据流通添砖加瓦。

4

焦点四:
数据共享与隐私保护的未来几何?


 

信息时代每个人都是透明人,随意拿起身边的手机,进入权限设置就可以看到这个人的网页浏览记录; 随意一款APP都在尽可能获取更多你的信息; 随意丢弃的快递单,每个上面都留存着你的联系方式和住址; 在暗藏的黑市下,个人信息甚至被公开贩卖: 姓名,年龄,上周在哪里买过包,去年春节去哪里旅过游…,最便宜的信息只要1分钱一条。 问题由此而生,到底是我们选择了数据? 还是数据裹挟了我们?
 
ARPA Felix Xu表示,这个问题其实是整个数据领域的终极问题,数据的权利到底是谁的? 是公司还是个人的? 如何进行数据的安全交换? 如何保证数据的真实性防止garbage in,garbage out? 这里面不单涉及到技术,更是社会伦理层面的考量。 现阶段来说,可能只能期望依靠技术手段来实现最理想的状态了,在不伤及用户隐私的情况下,来达到数据高效流通,TEE和MPC都是不错的解决方案。
 
“我预计隐私计算在企业的大规模落地应该是2-5年,而在个人数据的落地应该是5年或更久。 虽然目前看到很多场景都有需求,但可能不是P0级任务,更像是中期探索方向,原因是企业对数据价值的认知也才开始几年。 而且从个人角度出发,如果我能在确保安全的前提下,通过出租我的数据,获得更精准的广告推送、享受更好的金融产品,还能获得实实在在的物质回报,那么大家都会愿意把自己的数据贡献出来,造成数据的网络效应,从而真正解放数据的所有潜能,真正解决数据权利归属的问题。 ARPA的长期设想就是将个人数据可以安全托管在某些节点上,企业调用需要付费,从而实现个人数据资产的确权和安全管理,这估计得是一代人的努力”。 Felix Xu介绍到。
 
汪小益则认为,随着国家以及个人对隐私保护的需求越来越强烈,未来硬件和密码学技术会逐步融合发展,未来个人使用的各种智能化物联网设备很可能都会嵌入安全加密芯片对关键数据进行保护。 最主要的障碍目前来说还是技术本身的突破,如何降低成本提高效率是关键。 数据共享的极大发展会将企业从单维向多维发展,相关企业之间通过数据共享可以突破原有业务发展的瓶颈促进相应的数字经济的发展。 比如说传统的一个家电企业如电冰箱生产企业,随着物联网技术和数据共享的发展它可以采集分析用户的日常饮食相关的数据进而同零售行业产生相应的交集,为食品相关零售企业提供数据服务。 对个人而言,数据共享会让生活更加便利和智能化,医疗、政务、金融等等传统需要证明的一切场景均可以通过数据共享一键解决。
 
最后正如吴军在《浪潮之巅》中对苹果公司的评论: “乔布斯改变时间的发明绝非一时的灵感所致,而是数十年的深思熟虑和经验积累......大部分产品经理之所以做不出改变世界的产品,是因为他们只看见了成功者最后的临门一脚,而忽视了人的长期思考。 当然数据共享和隐私保护也从来都不是临门一脚,只有经过技术的不断迭代,市场的持续优化,数据的未来才会最终走向理想和成熟。