隐私计算

隐私计算工程化之殇,为什么“久攻不破”?

行业前沿 算力智库 2022/04/11 09:00

Talk is cheap,show me the code!

这是编程界广为流传的一句话,空谈无益,只以代码见真章,要的是“实打实能用”。

而这句话似乎也映射了隐私计算领域的水温之变。从2020年,数据被正式纳入生产要素之日起,隐私计算便如张弦之箭,迎来了属于它的东风,火爆效应之下,吸引了众多赛跑者和入局者,Gartner更是连续两年将隐私计算列入年度战略科技趋势之一,一时之间,隐私计算被加上了诸多光环。

一面是寄予厚望,另一面却是热闹背后潜藏的隐忧,隐私计算的发展似乎并没有达到我们对它的预期。

某国有大型金融机构的业务负责人高声谈(化名)向算力智库直言:我们确实有对隐私计算产品的需求,也有意准备采购,目前在做标前测试,需要从一些量化的标准去考察,但测试结果却并不如人意:很多隐私计算产品都不具备个性化建模等实际落地的工程化能力。

这也并不是算力智库观察到的一家之言,中国信通院云计算与大数据研究所大数据部副主任闫树表示:目前隐私计算技术和解决方案还不够成熟,在安全、性能和数据的互联互通等方面仍存在挑战,场景落地能力和工程化问题是为“大难关”。在日前算力智库举办的隐私计算一体机沙龙上,联通大数据金融行业中心产品总监周永明亦认为:这两年隐私计算看到的全是单点的、尝试性的,实验性的进展,什么时候能真正达到商用级别,把规模做起来,这才是我更想看到的,也是行业更需要去努力的方向。

显然,2年下来,市场态度开始变得审慎与克制, 需求侧对于隐私计算技术的诉求不再容易被风口裹挟,关注更多的是“是否可用”以及“是否好用”,而这也意味着隐私计算技术正面临着一个临界点,即能否从一项创新型的实验技术走向大规模生产和商用。

飘在隐私计算上方的乌云

在这个临界点的跨越上,有道久攻不破的关卡便是工业级别的工程化落地,如同“木桶短板,掣肘全局”。一位业内资深人士坦言道。

在前述算力智库的采访中,工程化落地能力正成为业内众人口中的“高频”词汇,今年CB Insights中国发布的《2022年中国隐私计算技术与市场发展研究报告》亦指出:未来,隐私计算企业的工程化能力将成为行业焦点。

何谓工程化能力?这个词或许并不陌生,但业界却尚未看到对它清晰的界定。

“工程化能力”这个概念是为“表”,它的“里”包括很多面向和维度。 我认为隐私计算工程化能力是指将隐私计算产品从理论、原型到真正落地到客户侧产生业务价值的能力。前几年可能整个行业在理论、产品原型、开源标准化的制定上,很多公司都有不错的积累,但要说真正落地到客户侧产生实际业务价值,我觉得是从去年才开始的,这个能力在今年的节点上将变得尤为重要,能否做好对客户的产品化支撑,包括系统的交付能力、运维能力和升级能力,都是对隐私计算公司的重要考验,蚂蚁集团可信原生技术总监秦承刚在接受采访时表示。

高声谈同样认为,工程化能力的通俗解释是: 隐私计算产品具不具备直接上银行生产环境的能力,最起码应该包括几方面,首先是兼容性,如果要设计硬件的话,硬件解决方案能不能和金融机构现有的软硬件设备做兼容。其次是产品实用性和稳定性,设计软件是否稳定可靠,能否支持大规模的数据吞吐量,目前尚未经历大规模商用化验证。再就是已接通合规数据源是否能够满足金融机构的业务需求,目前受个人信息保护法冲击,三方数据市场面临重构,合规数据源通过隐私计算实现数据价值输出的情况少之又少。

但遗憾的是,现阶段行业的隐私计算工程化能力仍普遍处于早期阶段,一如隐私计算从1979年由Shamir 和Blakley 提出秘密分享的缘起开始,“工程化落地能力”便如飘在隐私计算大厦上空的乌云,由来已久,却久未消散。

工程化能力的“失落”

工程化能力缘何“失落”?

在高声谈看来,首先是产品化层面,就目前观察来看,整个隐私计算行业的产品化能力良莠不齐,仍处初期。以金融业务场景为例,主要表现在:一是产品易用性不行,拿数据清理这个环节而言,绝大部分产品是不支持个性化清理的或者说没有类似这样的功能,它就是一键式傻瓜生成模型,放进去三千个变量标签,通过规则的入模变量只剩下不到十个,导致模型基本不可用。二就是产品稳定性问题,即在面对数亿样本甚至更大的数据量级时,隐私计算平台的生产可用性是否仍有保障。目前,在隐私计算技术侧,不管MPC也好,FL(联邦学习)也好,都能预见到算力和网络传输的瓶颈,现阶段隐私计算主要是在一些机构内部或者是两方、三方之间应用,处理的数据量较小,这个问题还不明显。可是未来,多方数据交换需求的到来、5G和物联网的发展所带来的数据量急剧增大,随着数据量爆发式的增长, 不解决算力和通信问题,隐私计算的大规模应用无从谈起。

在这点上,很多隐私计算厂商也已经深刻认识,蚂蚁集团可信原生技术总监秦承刚亦坦言:进入到隐私计算领域以后,我们发现对于密码学而言,今天不管是什么样的密码学都面临着相同的问题,就是当这些密码学在通用处理器上进行运算的时候,速度都很慢,不管是零知识证明或者混淆电路,还是同态加密。此前拿同态加密做调研的时候,就有了一个基本认识,同态加密在最差的情况下,和明文运算相比,大概要慢10万倍,10万倍是什么概念?就相当于把当前最新的英特尔Ice Lake处理器,直接打回到了几十年前的8086处理器时代。

“不完美”的软件固然是客观bug,隐私计算厂商本身的局限性也是其因。

平心而论, 当前很多隐私计算厂商普遍缺乏全局视角,高声谈直言不讳道,就好比“客户要的是一盘菜,光只提供盘子不行,而需要将整盘菜炒好了,端上桌才行”。To B生意在于应该提供一个“能力乐高”,即一整套数据解决方案,而不是一个单点产品,比如能否对接可用的数据源,金融绝大部分场景,需要引入外部数据源,尤其是在数据建模过程中,数据需求量更甚,仅提供隐私产品往往是不够的。再比如是否考虑到了数据方案的合规设计,数据授权链完整与否,客户告知是否充分,数据存储是否需要按照《个人信息保护法》的要求做全生命周期的目标管理等,这涉及到产品前端界面的调整以及与数据源方交互过程中需落实的法律合规条款。

其次,缺乏对场景的理解力,也是很多隐私计算企业“先天基因”的欠缺,现阶段入局隐私计算赛道的主要选手大多数为初创型企业,多为技术出身,包括一些从AI公司或区块链公司转型过来的,基本很少扎根在业务场景一线,对场景的理解力不够导致产品实用性不足,这是环环相扣的关系。还有一个不得不提的痛点就是技术路径之间的融合和互联互通,虽然从技术角度来看,隐私计算的每一条技术路线都有其自证的逻辑,但对于最终客户来说,对这项技术信任的建立不能仅仅依靠技术论证本身。做好技术标准化,实现技术栈自主可控国产化,建立权威和监管机构认可的标准体系,也是隐私计算厂商需要推动和解决的问题。当然这也不能苛求于隐私计算厂商一己之力,需要行业多方共治共推。

此外,数据源的配合积极性不够也一定程度上制约了产业落地,由于缺少激励,数据源不愿配合需求方费时费力提供测试数据,加之因为《个保法》的出台,合规的要求导致数据源共享的意愿更加淡薄。这些问题交织一起,才造成了今日工程化之困境,在这些问题都没有解决之前,整个行业是不具备真正的生产和工程化实现的前提的。

那么“工程化之困”有何解?

在算力智库的调研中发现,一条被广泛共识的解题方向正在浮现出来。

软硬结合或破开“工程化之困”

工程化的问题其实就是怎么能够让客户最大化程度去优化性能和成本,华控清交总裁王胜利在日前的算力智库隐私沙龙中一语总结到:成本太高,就通过工程化,将性能大幅提升,在性价比和计算成本之间取得平衡。

怎么平衡呢?业界开始将目光转向软硬结合。

其实可以发现, 在几年前,业界对于密码学等软件类解决方案的呼声似乎更高,密码学一度被视为隐私计算的“原教旨主义”,甚至能隐约看到一条潜在的鄙视链,做软件要优于做硬件,而现在风向变了, 经过几年的实践检验,软件在“计算性能”一途上并非最优解。

“我们认为隐私计算未来在可信安全、可信执行环境TEE以及算力加速上面,对硬件都一定是有依赖的。软硬件结合一定会是可信隐私计算一个重要的技术领域,也一定会是数据密态时代行业的一个主流形态,而且我们也很早就开始作相关的布局,其实到今天的话,也证明我们当时的判断差不多是对的”,秦承刚表示。在2021年9月便率先发布软硬一体机的蚂蚁集团,并且日前牵头推进了全球首个隐私计算一体机国际标准立项,也确实印证了此点。

意识到硬件必要性的,不止蚂蚁一家,目前业内已经有一批创业公司陆续扎入隐私计算软硬结合的赛道,各家都在尝试单点突破。比如星云Clustar主攻高性能算力提升,推出了隐私计算加速卡和软硬一体机,融数联智则瞄准芯片研发,数牍科技则推出了软硬协同的隐私计算方案,据数牍科技介绍,经过结合硬件的可插拔的特性,能够非常灵活的对一台通用的服务器进行能力改造,将之变为隐私计算专用服务器,从而也提高了服务器资源和算力的利用效率,进一步降低计算资源开销。

在软硬结合的不断探索中,隐私计算行业找到了一个共性切入口,即一体机, 一体机并非是新鲜概念,互联网早已有之,华控清交公司总裁王胜利表示,一体机在理解层面,可以分为两种,一种就是软硬件的工程化设备,即所谓的Engineered System,以软件为主,结合硬件加速,通过工程化的工作,最大化发挥软件的优势,但是它对硬件,没有什么太多不可替代的依赖,这也符合IT基本特点,以开放和兼容为基础。另一种,就是我们所说的Fusion(融合),就是将各种硬件物理的组合在一起,或者通过某种资源管理软件把硬件做集成。前者以软件基因为主,并不依赖一种专有的硬件设备,开放性好,使用维护便捷,容易得到广泛的使用。后者相对而言会依赖某种专有的硬件设备,使用门槛高,形成一定的技术壁垒。隐私增强计算PEC(Privacy Enhancement Computation)选择工程一体化系统的交付形态对于系统性能和整体拥有成本达到一个商用平衡,以及客户后期维护管理带来很多便利。性能成本不做优化,没有兼容开放的IT技术在面对商业场景使用上会显得困难重重。

高声谈也判断:加入硬件化的解决方案,对于行业的长远发展来说是有利无害的,纯软件的竞争会容易导致红海,导致行业没有底线,去年就已出现过10万元卖源码的恶性案件,若是这样,这个行业还怎么玩?所以加入硬件之后,有利于固化一些利润空间,对于隐私行业来说,是具有长期发展意义的。另外从甲方的需求来看,我们也非常希望可以看到硬件化的落地方案,一如我前面所说,在招投标过程中,甲方是会面临决策风险和迁移成本问题,如果有硬件底座的话,最起码有个交付物,不像纯软件解决方案,厂商若是倒闭,我们也无法继续维护,也不懂底层密码计算。如果是通用的硬件底座解决方案,我们再把其他厂商引入进来,迁移成本就会比较小,从这几方面来看,行业的方向是一体机,这也是目前许多厂商一致认可的一个方案。

冲量在线CEO刘尧在日前结束的算力智库隐私一体机沙龙中,亦认为“现在这个时间点软硬件结合的一体机是解决隐私计算行业大规模商业化落地的核心密钥。首先面向业务系统适配的瓶颈,隐私计算相关的产品、软件算法或者硬件不可以作为新的孤岛矗立在客户的原有系统里,以及客户原有的建模平台、数据中台的迁移和对接也非常重要。其次隐私计算厂商当下最需要解决的是底层硬件设备不同环境的差异化问题。而想要解决适配性与兼容性这两大难题,通过软硬件的结合方案,向上,无缝适配各种各样的业务系统和数据治理流程。向下,打通各种各样不同芯片、加速卡,形成软硬件结合的一体化的能力。”刘尧表示,对于不同硬件生态的打通也同样需要做大量的前置准备工作,而提到硬件,隐私计算厂商更需要关注的是适配信创环境。只有从软件、硬件两方面双管齐下,持续攻关,才能保证一体机产品对各类客户均能实现一键式部署,提高一体机应用的广度、深度。

但软硬结合,目前来看也不是坦途。

需要说明的是,软硬结合与一体机,并不是画等号的,一体机是软硬结合的一种载体,尽管当下能够有效缓解隐私计算工程化落地与工程化交付中的一些困难,可随着未来数据规模和业务复杂度的逐年递增,一体机还需再进一步的提升扩展性和拓展更丰富的产品形态,秦承刚强调到。

做软硬结合,不管从周期,还是从为此付出的成本来看,都是既耗时又耗资源,比如我们做自主可控的TEE,前期投入了很多人力,大概花了2年才有最后的产品成型。而且交付软件和交付硬件是不一样的,交付硬件的话,会涉及到一个很长的供应链,需要同时做好供应链管理,这也直接导致了整个硬件领域“壁垒”的存在,一些中小型企业可能就会被阻挡在外。其实,我觉得不是所有的隐私计算公司都需要去做硬件,比如有的公司适合做软件和密码学算法,有的公司适合做硬件,大家可以找准自己的定位,形成一个良好的分工协作,对于整个行业来说,发展会更快也会更高效。秦承刚继续表示到。

纵观互联网的历史发展脉络,任何技术往深了走,都会进入硬件领域,但置身于越来越纷繁复杂的国际形势,全球微妙的竞争和对抗格局下,“去IOE化”(IBM的小型机、Oracle的数据库,EMC的存储设备)成为战略级语境,2020年国家开始全面推广信创产业,其中涉及芯片、服务器的国产替代,于隐私计算软硬结合而言,也必须未雨绸缪,寻求芯片“国产自主可控”的后路,这是算力提升当中最艰难的部分,也将是隐私计算后半程突围的机会。