郑小林——“浙大系”隐私计算产学研创新先锋

大数据 算力智库 2022/01/13 16:42

作为算力智库2021隐私计算年度十大人物,郑小林是产学研创新的先锋。

他的首要身份是学者,是浙江大学计算机学院教授、博导,浙江大学人工智能研究所副所长。他同时也是创业者,由他创立的金智塔科技定位于隐私计算服务商,是由浙江大学人工智能研究所和浙江大学金融科技研究院联合孵化的国家高新技术企业。


“浙大系”就这样成了郑小林和金智塔科技的鲜明标签和实力背书,一方面浙大是全国顶尖、全球百强的名校,另一方面浙江又是中国互联网与数字经济的高地。能在高手林立的浙江立足,必然有两把刷子。

在郑小林的带领下,金智塔科技两年前就参与了国家重点研发计划项目“大数据征信及智能评估技术”。该项目由包括高校和企业在内的20多个单位参与,金智塔的算子、算法和平台都是自主原创,折射出的技术实力被许多投资人津津乐道。

2021年底,金智塔科技获批2022年浙江省“领雁”研发攻关计划项目,还拿到了多项专利。2022年初郑小林教授入选浙江省“万人计划”科技创新领军人才,并担任浙江省数据要素流通专家组召集人,金智塔也成为浙江省数据要素流通专家组召集单位之一。

但郑小林并不认为学界背景是一种优势,而是实干态度的注脚。他对算力智库表示,学者型创业者的多元身份会带来三个显著特征,一是更愿意沉淀和打磨技术,二是更踏实地对待客户需求和服务好客户,三是可以更加客观地看待行业发展,看待同业。

他坦言,与其他创业者相比,高校相关的教师与科研角色可能在市场拓展方面相对慢一些,但同时这也意味着更踏实地对待客户需求,用十分力气打磨场景,把每个案例都做成标杆案例。

新年伊始,郑小林与我们分享了对数据、隐私计算行业和技术的全面思考。


算力智库

据您观察目前国际上隐私计算有哪些最新趋势?金智塔隐私计算平台整体技术被专家誉为达到了国际先进和国际领先水平,请问具体在哪些方面体现了先进和领先?

郑小林

我们看到目前国际上隐私计算有几大发展趋势。第一是技术的深化,就是不断提升性能和安全性。第二是技术的融合,许多研发机构和企业都致力于多方安全计算、联邦学习、区块链等隐私计算技术的融合,同时还要把技术与应用和业务融合。第三是软硬件融合,主要指可信执行环境TEE与算法的融合,我们也看到市面上出现了隐私计算一体机这样的硬件设备,这些都是算力和算法融合。近期我们也参与了由中国信通院组织的“隐私计算一体机技术规范”标准研讨工作。

我们的技术水平得到了权威专家的高度评价,过去两年经过中国人工智能学会李德毅、潘云鹤院士等专家的鉴定,金智塔隐私计算平台整体技术达到了国际先进水平,部分达到国际领先水平。


在论文和专利方面,我们发明了全链路安全的数据分析和机器学习线性模型、树模型。其中,半诚实安全模型下,两方大规模数据场景中,线性模型算法比VISA公司的SecureML算法有了巨大提升。

在应用与评测方面,我们针对高可用多方联合建模应用进行业务平台研发。包括了建模之前的数据分析、数据求交、特征处理、多重线性分析、建模过程中的模型训练及自动调参,以及建模之后的模型打分,使其在实际业务领域的应用丰富度远超国内外其他同类系统。相关算法应用在金融场景,模型性能提升超过65%,显著提升了信贷系统的风险区分能力。


算力智库

数据世界里有不少天然的数据拥有者,如政务、公用设施、互联网平台,他们把数据价值分享出来的动机各不相同,或许是为了现金收益,或许只是为了完成任务,或许根本没有动力分享,您觉得一个合理有效的数据价值分享激励机制应该具有怎样的底层逻辑,以便让更多机构乐于分享?

郑小林

我们认为数据分享激励机制的核心应该是利益共享,这里的利益包含了责任、权力和利益。在实践中,我们总结了三类主要的数据拥有者。

第一类是商业机构,往往是积累了丰富用户数据的平台类企业。这类机构天然就有数据共享意愿,也就是基于数据的对外商业合作。但是,在《数据安全法》和《个人信息保护法》出台后,他们必须满足合规要求,调整原来的数据服务方式和商业模式。

第二类是数据中介,他们通过技术或者商业手段整合了某个领域的公开数据再对外销售。现在他们和商业机构碰到了相似的问题,在许多场景中数据不能直接对外,也不能被用作用户画像,因此需要对数据重新分级分类。

第三类是政府。政府拥有大量数据,当然政府共享数据的目标不是商业化,而主要是服务政府数智化转型以及对外赋能,如赋能小微企业融资、产业转型升级等,主要是权力与政绩的诉求。

可以看到,不同类型的数据拥有者有着不同的利益诉求,因此数据价值分享的激励机制也应不同,需要兼顾各方的责任、权利和利益,满足他们的诉求。


算力智库

终端用户尝试新技术往往从小项目做起,您也曾提到过金智塔致力于提高产品的标准化程度从而实现快速部署,在现实中客户有哪些典型的共性需求场景?相比更“重”的私有化部署,模块化部署是否可能是隐私计算平台实现轻量化、低成本、快速普及的方式(类似近几年比较火热的“低代码”平台)?

郑小林

隐私计算这个词虽然很热,但仍然是个新兴技术市场。目前还处于市场教育和应用示范期,所以市场上大部分项目都会有很多个性化需求的定制工作要做。但是针对不同类型的客户,我们可以提炼共同的行业和类比需求,进而提供标准化的产品和服务。

产品标准化的前提是可视化和模块化。可视化的方式让客户可以通过“傻瓜式”的“拖拉拽”去部署产品,而不必理解代码;而“模块化”是把金智塔隐私计算平台的不同功能单独做成模块,用于不同场景。

为了让标准化的产品更好地适配不同类型的客户,我们还把客户按数据和技术能力做了分类。

第一类是数据和技术能力都相对缺乏的客户,我门提供的是基于隐私计算的数据与业务场景建模一体化的解决方案,这类场景往往源于传统企业的数字化转型。

这里可以借用一个智能营销应用例子。某上市零售商运用金智塔隐私计算平台,接入移动运营商、高德、政府统计部门等数据进行联合建模,通过机器学习训练选址模型,合法合规实现全国范围内的钻戒销售城市潜力、商圈划分、销量预测和商圈推荐,监测城市从几十个扩展为全国所有城市,预测周期从几周缩短到几分钟,预测准确率从75%提高到90%以上。


第二类是数据基础和技术能力都很好的企业,我们就可以提供隐私计算标准组件,这类客户较多集中在金融机构,比如我们在智慧金融场景中为商业银行提升小微企业授信准确率。


第三类是政府部门,也包括各省市的数据交易中心,我们提供基于隐私计算的数据安全流通PaaS平台,而把SaaS平台部分留给他们自己去做,比如我们在智慧政府场景中助力“最多报一次”应用,大幅提升政府部门对企业的审核效率和准确率。


算力智库

今年北京国际大数据交易所、上海数据交易所等先后成立,有观点认为以隐私计算位代表的技术革新把数据交易所带入2.0阶段,您如何看待新一波数据交易所的兴起以及与创业类隐私计算平台的关系?国家立法并没有把数据交易限定在数据交易所,那么“场外交易”是否会成为隐私计算平台的主要目标市场?

郑小林

这也是我们团队近期讨论较多的问题。我们发现各地交易所的定位和运作机制略有不同,这就会造成隐私计算平台的服务模式有所不同,我们应该根据交易所的性质去找到自己的定位。

目前来看,交易所发展到2.0阶段,肯定都需要隐私计算技术的支撑,我们就可以提供多种服务与合作方式,就比如可以提供组件,也可以提供PaaS平台。

同时,数据交易所并不是隐私计算的唯一场景,如果从数据要素流通的角度来看,在商业世界中有许多隐私计算的需求,都是我们的服务场景,比如大型企业的内部数据流通与共享、跨国企业的跨境数据隐私保护等。当然,“场外交易”也确实是一个很大的目标市场,只要符合法律监管,就可以是隐私计算创业公司的好场景。


算力智库

从大厂到创业企业,隐私计算平台林立,有不少业内人士都呼吁各平台互联互通,也有专家提出应该以国家层面建立中心化的数据交易平台和数据要素市场(尽管并不等同于隐私计算平台),您认为在国家与社会利益的高度上,怎样的模式更能促进数据的大融合、大流动?是国家顶层单一中心还是市场层面的多中心?在这其中隐私计算平台是否也应遵循相同原则?

郑小林

互联互通是隐私计算发展的一个方向,我们目前也参与了由中国信通院组织的“互联互通标准制定”,共同推动隐私计算行业跨平台互联互通。

国家层面建立中心化的数据交易平台或者是数据要素市场是一个很好的主流想法,但这样做无法覆盖所有的场景。我建议首先应该对数据进行分层分类管理,针对不同的行业,不同的数据类别,不同的安全等级,提供不同的数据流通服务机制。

我认为对于国家或者政府管控的数据可以建设顶层的单一中心的数据共享平台,但对于更加市场化的数据就没有必要这么做。国家单一中心与市场层面的多中心并不矛盾,国家层面、省市层面可以建设;集团企业内部可以建设;大型政府部门内部可以建设,核心就在数据的分级分类管理。


算力智库

金融是强监管行业,对待隐私计算的落地也是如此——即使数据交易双方都认可隐私计算技术,也还是需要监管批准。您认为隐私计算应该如何自证清白,未来隐私计算平台自身是否应纳入第三方审计和国家监管?

郑小林

我觉得这确实是目前市场推进的一个难点,为了让隐私计算企业与甲方建立互信,首先可以由第三方权威机构来进行技术和法律鉴定,但目前还没有这样的机构。在此背景下,隐私计算企业就需要加强与使用方的沟通探讨,比如算法理论、代码、中间结果和最终结果的验证等。

此外,双方还可以建立责任共担利益共享机制,特别是对于隐私计算企业,一方面需要承担甲方的数据安全责任,另一方面也应获得相关收益。

还有一点,就是隐私计算平台一定要遵循法律和各种行业规范。


算力智库

隐私计算是风口无疑,但数据本身的复杂性以及隐私计算相关技术的复杂性也给隐私计算的落地带来一些挑战。回顾2021,您觉得隐私计算在真正落地普及之路上,有哪些利好和问题已经显现?展望2022,又有哪些机遇和困难需要直面?

郑小林

2021年的最大利好来自于《数据安全法》和《个人信息保护法》的落地。我们可以明显感觉到两部法律的出台对隐私计算企业的业务产生了很大推动。其他利好还包括有不少行业规范出台、数据要素流通与交易的教育越来越普及、部分示范性项目上线、投资机构的支持等。

2021年我们看到的最大问题是隐私算行业的规模化还不够,隐私计算企业业务扩张的速度还比较慢。其次是相关法律的落地还缺乏抓手,与隐私计算的应用还没很好的挂钩。

2022年对于许多隐私计算企业来说还面临兑现承诺的问题,也就是在过去几年曾经描绘过的前景应该要在2022年开始落地,如果不能很好落地,还会反过来影响整个行业的发展。

总的来说我认为2022年的机遇要远多于问题和困难,尤其是2021年的几大利好会在2022年持续显现。大部分业内人士都认同,隐私计算需要2-3年才能开始真正大规模推广,我们既要对前景充满信心,也要对问题有足够准备。


算力智库

您对于想投身隐私计算赛道的人才有哪些建议,比如需要具备哪些技能或资源?您对想要尝试隐私计算的企业有哪些建议?比如如何选择合适的隐私计算技术服务商?

郑小林

隐私计算需要的是复合型人才,要懂大数据、安全、人工智能,还要有隐私计算的行业知识。显然要成为这样的人才很难,也是所有隐私计算企业会争抢的。对于我们来说,一方面我们会在浙大计算机学院、软件学院、工程学院发掘和培养,另一方面也会从公司团队内部培养。

对于想入场隐私计算的企业,我认为要做到“脚踏实地、仰望星空”,也就低头认真打磨产品和服务,抬头看到国家和行业的需求。需要强调的是,数据行业的特殊性在于数据安全和隐私保护的重要性已经上升到国家层面,因此数据和数据相关技术必须做到自主可控。

对于想要尝试使用隐私计算的企业,我认为在选择服务商时可以从三个方面考量。第一是技术实力,也就是持续研发能力强、原创能力强、有自主知识产权的企业和团队(国产自主可控)。第二是深耕行业,有较多落地案例的企业。第三是能够理解客户所需,愿与客户责任共担、利益共享的企业和团队,因为甲方客户需要的一定不只是软件和平台,而是负责任的隐私保护和数据安全服务。