数据泄露解“钥”:国内首份MPC隐私计算报告发布

大数据 陈阿夸 2019/01/04 14:54


   算力


数字经济时代,数据已成为企业和国家具有战略价值的核心资产,数据共享和流通成为刚性业务需求,但隐私保护和数据高效流动之间的矛盾日益凸显。隐私安全这一概念正是为解决该矛盾而诞生,而隐私计算则是解决隐私安全问题的具体方法论。隐私计算在金融、医疗和交通行业具有重要应用价值,分析发现其发展虽然仍处于早期阶段,但已存在两种技术路径的技术供应商可以实现应用需求。未来,隐私计算还将在数据质量、数据定价以及隐私立法等方面解决相关问题。


在过去的2018年,外媒统计已经确认的数据泄露事件高达2,216起。数据泄露发生在各行各业,从社交媒体,到酒店集团,甚至到街边不起眼的三明治小店都不安全。

 

去年3月发生的facebook事件,超过8700万条数据被泄露和滥用。4月,国外广受欢迎的三明治连锁店Panera Bread因网站漏洞泄露顾客信息。8月,华住旗下多个连锁酒店开房信息数据在暗网出售,总量近5亿。11月,万豪酒店发布公告称旗下喜达屋5亿房客信息泄露,被索赔125亿美元。12月底,国民购票软件12306的470万条用户数据因第三方平台而遭到泄露。

 

2018年,是数据泄露的灰色之年,却启发了各界共同关注隐私保护。

 

1月4日,由万向区块链董事长兼CEO肖风博士、矩阵元创始人兼CEO孙立林、算力智库创始人燕丽共同编撰的国内首部基于MPC的隐私计算报告——《基于MPC的隐私计算:开启数字经济时代数据共享新商业模式》(“报告”)重磅发布。这是算力智库继打造国内首个专注隐私计算领域专业联盟平台——振金社之后,在“隐私计算”领域的又一阶段性成果。

  

 

“振金社由矩阵元、算力智库、万向区块链实验室、Crypto Innovation School (CIS) 和上海市股份公司联合会共同发起,希望用‘振金’这种科幻中的黑科技金属为隐私计算保驾护航。而此次发布的隐私计算报告是对学术界和产业界最新研究成果的总结,以推动‘隐私计算’相关理论和应用快速发展,开启数字经济时代数据利用新商业模式”,算力智库创始人兼总裁燕丽表示。

 

矩阵元创始人兼CEO孙立林认为,现在所谓的大数据本质上是小数据,因其存在于不同机构主体的数据库中,彼此就像数据孤岛,而以MPC为代表的隐私计算是数据孤岛的隐形桥梁,只有隐私计算的落地才有可能让小数据成为广域的大数据。

 

该报告严格界定了隐私安全和隐私计算概念,梳理了以安全多方计算为代表的隐私计算理论和方法,介绍了隐私安全技术。同时,报告详细分析了隐私计算在金融、医疗健康、交通三个细分行业的应用,介绍了隐私计算领域的典型企业及案例,并对隐私计算的未来发展趋势做出展望。

 

根据中国信息通信研究院调研数据显示,2017年我国大数据产业规模为4700亿元人民币,同比增长30.56%。未来三年,大数据产值预计将从2018年的6200亿增长到2020年的超过1万亿,年复合增长率(CAGR)为17.66%,处于快速增长阶段。

 

 中国大数据市场规模(单位:亿元)

 

数据来源:《大数据白皮书(2018)》,中国信息通信研究院。

  

数字经济时代,数据已成为企业和国家具有战略价值的核心资产,数据共享和流通将成为刚性业务需求,但隐私保护和数据高效流动之间的矛盾日益凸显。隐私安全正是为解决这一矛盾而诞生,而隐私计算则是隐私安全的具体方法论。

 

报告提出,隐私计算是指通过技术手段实现在保护数据隐私的前提下,完成对数据的安全处理。从密码学角度来看,隐私计算是指采用以安全多方计算和同态加密等为代表的现代密码学技术,在保证原始数据安全隐私性的同时,实现对数据的分析计算。

  

隐私计算具有重要产业应用价值

 

报告指出,以大数据、人工智能等为代表的数字经济时代的新兴技术已经渗透到社会的方方面面,从社保、政府等部门,到金融、医疗、交通等实体行业,再到电商、社交等行业领域均获得广泛应用,但各行各业普遍面临着数据隐私安全导致的数据孤岛现象。数据的流动和协同分析在金融、医疗健康、交通领域有极其重要的应用价值。

 

在金融行业,大数据、人工智能技术应用主要集中在精准营销、风险控制两大领域。

 

在现实中,银行拥有的客户信息以交易数据,客户自主提供数据等为主,很不全面。基于银行自身拥有的数据很难得出理想的分析结果,甚至可能得出错误的结论。所以银行必须借助大量的外部数据,以弥补内部数据的不足。

 

但出于数据泄露及自身利益考虑,金融机构往往不愿开放自己的内部数据,尤其是核心数据。借助MPC等隐私计算进行多方数据协同计算,将彻底改变传统的互联网用户标签和画像处理方式,改善大数据收集、清洗、分析模式下的营销和风控模型,提高整体金融业的个性化服务水平。

  

 

医疗大数据应用主要体现在两大方向:第一个方向是对传统医疗的优化。比如,提升患者到医院就诊的流程,提升临床诊疗效果等。第二个方向是对传统医疗的补充,覆盖传统医疗服务未满足的市场需求,比如诊数据跟踪及反馈等个人健康管理服务。

 

令人遗憾的是,由于缺乏统筹规划和顶层设计,在现实情况中,各地医院信息化改造绝大多数都是独立的信息系统,无法进行数据共享和交易,造成研究某种疾病无法获得全量数据,使诊断的精确性大打折扣。

 

在医院体系之外,医疗健康数据的共享和交易同样并不乐观。一方面,药企、保险公司等对数据的需求相对较高,主要用于缩短研发周期、提升营销精准率等等。另一方面,医院拥有80%药品的流通数据、医疗活动的诊断数据以及医保报销的数据。

 

通过设置有效授权和MPC等隐私计算算法进行数据方之间的协同计算,确保各方数据都未离开本地,完全杜绝数据泄露可能的同时,实现健康记录、疾病数据等行业数据共享。

 


智能交通系统有利于减少城市交通的拥堵问题,促进城市经济的可持续发展,成为目前交通管理和建设的重要手段。交通系统一体化是智能交通系统非常重要一个环节,在这个环节中,交通信息资源的共享成为关键所在。

 

长期以来,我国的交通行业的管理在体制上分属不同的主管部门。部门之间的系统建设呈现系统的独立性,多个系统形成了信息孤岛。造成跨部门的系统数据共享难以打通的绝不仅仅是技术问题,更主要的是管理机制的问题。

 

通过设置有效授权和MPC等隐私计算算法进行数据方之间的协同计算,确保各方数据都未离开本地,完全杜绝了数据泄露可能,有效解决了智能交通行业的痛点。

 


从报告中明确看到,受制于数据获取、数据质量、技术成本、法律法规等多方面因素制约,隐私计算在垂直产业应用仍处于早期阶段,但已存在两种技术路径的技术供应商可以实现行业应用需求。一种是以矩阵元、ARPA、Enigma为代表的MPC技术路径,另一种是以Oasis Labs、TRIAS为代表的TEE(Trusted Execution Environment,可信执行环境)技术路径。  

  

矩阵元MPC技术架构

  1

隐私计算的未来发展趋势

 

算力智库研究部负责人赵建民表示,纵观隐私计算所有业务环节,隐私信息共享和流通问题处于中后期环节。事实上,仍有诸多比如数据质量问题、数据定价问题以及隐私立法问题等前期环节同样亟待解决。

 

提高原始数据质量,完善数据治理机制是当务之急

 

基于隐私安全技术进行数据协同计算的一个基本前提条件各参与方拥有海量数据。但是在现实中,每个参与方所拥有的数据来源不同、格式不同,往往存在数据冗余、数据缺值诸多等问题,数据质量参差不齐。提高原始数据质量,完善数据治理机制是数据共享和流通的基本前提。

 

针对同一数据产品进行差异化定价需要持续探索

 

在数据定价方面,同样的数据,对于不同用户,其数据价值是不一样的,所以理应针对不同行业、不同用户采取歧视定价。但是如何针对同样数据产品具体确定既合理又不同的价格,需要社会各界共同持续探索。

 

亟待建立专注于隐私信息共享和流通的法律法规体系

 

在立法方面,直到今年5月25日,随着欧盟《一般数据保护条例》(GDPR)的正式实施,全球第一部真正意义上的隐私保护立法真正落地。但其立足点都是一种“静态”的隐私数据保护策略,并不涉及隐私数据在处理、流转过程中的“动态”保护策略。真正专注于隐私信息共享和流通的法律法规亟待建立起来。


报告全文下载链接:https://img.sli.top/uploads/imgs/20190104/d986f6c3a854cbaf94933ab75fac3a5b.pdf