KDD2021 Chinese Workshop落幕!AI、密码学、计算机学术大佬和产业精英畅谈可信数据和计算智能

人工智能 算力智库 2021/08/27 11:02



8月25日,全球KDD2021 Trust Day Chinese Workshop暨信任重构·价值共生——2021首届可信数据与计算智能学术年会】在线召开,集结来自北清复交、浙大、港科大等顶级AI、密码学、计算机学、网络安全等不同学科领域的教授、产业实践者和专家,回归到基础学科的视角来诠释和解读可信数据与计算智能,为信任提供一套全新的理论范式和研究方法。

ACM SIGKDD2020(知识发现和数据挖掘会议)是一年一度全球最顶级、最高水平、最具影响力的数据科学盛会。中国作为数据要素市场建设和数字技术崛起发展的先锋阵地,本次Trust Day(信任日)作为KDD2021新增和大力推出的主题日之一,面向中国的产学研界,开设了中国专场Workshop,并由KDD2021组委会及算力智库共同举办,CCF VC区块链工作组、华中区块链科技融合创新中心、上海市人工智能学会、长三角大数据产业合作联席会议、安徽省大数据产业联盟、中关村大数据产业联盟等机构倾力支持。

对于目前信任的内涵和外延尚缺乏严谨定义和学界共识的情况下,本次Workshop上各界专家学者给出了各自对信任的理解,并阐述了数据流通融合过程中的信任传递关系。会上,从基础学科理论视角探讨信任基础,分享前沿的计算赋能信任的最新实践案例,可谓干货连连。

1
可信数据和计算智能一体两面
双轮驱动信任

算力智库创始人燕丽开场表示:随着2020年,数据要素开始作为重要的生产资料参与市场配置,经过近两年的发展,在金融、医疗、政务等数据开放相应的赛道上,大家都做了非常多积极可喜的探索,并且在应用端和场景端涌现出了非常多好的应用,在今天诸位嘉宾的分享中也可以窥见一二。

而作为本次KDD2021大会的联席主席,同时也是身为新加坡管理大学长聘教授的朱飞达,则指出:可以明显观察到目前数据智能领域的一个明显趋势,计算的复杂性、多样性和协同性越来越显著,复杂性主要体现在计算模型上,包括目前最流行的像深度学习,加强学习、迁移学习这类主流的机器学习方法,所涉及到的参数动辄上千万上亿,要如何保证其可解释性和可信度便成了核心风险问题,这也是发起Trust Day的初衷,借此汇集业内专家大脑一起探讨,群策群智。

数据和智能一体两面,数据是驱动计算智能的重要因素,随着模型的日趋复杂,需要运用的数据也更加丰富,从传统的数值数据到文本数据、再到多媒体数据,包括图片数据、视频数据,以及如今的网络数据,对于大规模融合数据、协同智能的情况下,如何设计更好的算法,来评估各个数据在模型中的贡献性,一些新的学术方向也因此提出,比如数据审计(Data Auditing),数据审计不同于一般的财务审计, 当模型中存在庞大多源异构的数据时,作为市场参与方,更需要以严谨量化的方式来衡量数据在模型中的贡献,从而能够为参与的各方来分配责任和利益,这也是数据智能信任的重要部分。

基于此问题,加拿大工程院院士、香港科技大学讲席教授、微众银行首席人工智能官杨强从联邦学习(Federated learning)的技术路径给出了他的思考,以经典的“羊吃草”模型加以阐释,其用意是牵着羊到各地去吃草,让草不出本地,让数据保留在本地,数据不动模型动,这样模型移动暴露隐私的可能性就减小很多,保护模型便等于保护数据了,模型的可信度也得到了保障。



同时,浙江大学计算机科学与技术学院副教授、人工智能系主任杨洋则从相对垂直精深的专业角度分享了他的研究方向和成果。杨洋表示可以结合图算法、图模型、图数据等更好的对时间序列数据进行建模,来提升时间序列模型的可解释性,并且适用于计算社会学的工作中,比如研究一个外来群体公民,他到达一个大都市后,要如何与本地人融入相处,哪些人可能融入得较快较好,哪些人可能融入并没有那么好。

从基础科学理论层面,放眼至智能制造领域,同济大学教授、教育部企业数字化技术工程中心主任、上海人工智能学会理事长张浩也持类似观点,主张数据和模型双驱动才是提质增效的有效路径,张浩以数字孪生工厂为例,表示:过去我们在制造业当中用了很多数据,但是缺乏模型的指导,光有数据,无模型,效率便大打折扣。比如在数字孪生体中,当机理建模以后,模型当中的参数均需要通过数据驱动,在不断的迭代变化以后,使得其模型的参数更加贴近真实物理体,从而更准确地反应它的机理。另外,在做一些生产过程的智能分析决策、辅助和成本优化中,数据和模型的结合可以帮助实现精准执行与智能服务。



2
技术、法律、激励和商业
构建信任闭环

在谈及对信任的理解时,上海同济大学特聘教授、华西医院特聘教授王爽表示:区别于以往的人际信任,需要时间的日积月累,而现在 依托于区块链、大数据、供应链金融、隐私计算等技术手段建立的数字信任,让信任传递的更安全更高效。同盾科技合伙人兼人工智能研究院院长、中科院医学所智慧医疗首席科学家李晓林则认为, 信任本质上是解决信息不对称问题,技术是一个很好的工具和手段,我们一直在倡导联防联控,获取更多的数据和信息来弥补信息不对称或者信息缺失。

关于如何构建适配数字经济时代下的新型信任体系,与会专家学者达成的普遍共识是需要技术、法律、激励和商业多向发力才能构建信任的Close loop。

清华大学交叉信息研究院副教授、华控清交创始人徐葳则直言: 阻碍数据流通的根本障碍是信任基础的缺失,首先买卖双方之间存在不信任,恶意推测,其次是缺乏社会监管,数据适用具有“负外部性”,只要没抓住现行,就没人可以举证。另外, 需要厘清的是数据融合的核心在于信任基础是什么?从过去的“信任人”到如今的“信任技术”,都是基于一个安全假设,假定信任的对象是可信的,但无论是“人”还是“技术”本身都存在风险和瑕疵,在信任的逻辑关系上,应该先明确在你的数据情况下,你应该信什么,才能找到性价比最好的技术。当然,这个过程必须要加上法制、管理和监督举证,只有多方的节点力量,才能达成最终的信任共识。



电子科技大学教授、嵌入式软件工程中心主任、工信部区块链与数据安全重点实验室专家罗蕾表示:信任的建设需要一个体系互动起来,不管是行业自律,还是监管机构,还是数据安全法,到各行各业的具体应用落地,结合相应的技术,比如隐私计算,能够提供完整的解决方案,区块链可以解决确权和记账问题,都需要一同来解决。

北京大数据研究院区块链与隐私计算研究中心主任莫晓康坦言:真正建立可信数据和可信经济是一个巨大的社会工程,至少需要法律,行政,技术,还有商业这四方面的配合协同。比如在行政流程方面,需要开具各种证明,未来可以采用数字可信数据,纸质形式变成电子化,如何证明“我是我”便不言自明了。从技术角度看,区块链叠加隐私计算,将成为核心的信任技术,可以构建一种全新的信任模式, 未来的方向是要把现在全球的互联网升级成一个全球互信网,这至少需要20—30年的基础设施铺垫。

中国科学技术大学网络空间安全学院教授林璟锵则基于多年的网络安全经验,冷静表示:不管是法律,还是技术标准,或者说是商业上的宣传, 最好能够在数据合规和可用之间达到一种平衡,防止一味追求太安全,太可信,而导致可用性降低,就像数据采集,不能也无法要求100%的没有偏差。

广州大学、黄埔研究生院常务副院长李进则表示:未来数据不管是终端采集的,还是个人其他途径收集,在这些数据共享和使用过程中,必然会存在矛盾关系,关键是如何找到一个平衡点,能够去满足各方的利益诉求,这需要政府层面或者国家层面的推动,才有可能去打破壁垒或者法律的一些障碍,可以持续关注一下。