中科院博导刘世平:大数据预测疫情或在3月14日后缓解,严控国际回流风险|算力大学视频公开课全文

区块链 算力大学 2020/03/02 11:00

刘世平表示,通过Logistic增长模型和Vintage分析,全国确诊人数的峰值可能在8万左右,预计在3月14日以后每日新增确诊小于10人,疫情进入缓解阶段。

新一代进行信息技术包括很多方面,像4G、5G各方面的信息流通、大数据、云计算、区块链、人工智能等都非常热应用面也非常广。

这些技术往往有很多复杂的交叉和应用,比如大数据跟云计算是一个紧密的结合,如何把大数据跟区块链技术进行有效的结合,也很重要。

人工智能也非常依赖大数据的数据和数据整理。

那么大数据是怎么一回事?

一是大数据是一个更加广泛和深入的数字化。

二是全社会的互联互通。

数字化是不是一个简单的电子化的问题,它是用数字来指导我们业务的一个习惯、策略和决策的概念。

麦肯锡在2011年对大数据提过一个定义,“big data:The next frontier for innovation,competition and productivity。”这里提出了三个关键词,创新、竞争、生产效率。

这些年我们做了几十年的工作以后,总结了5个关键点。

1.建立大数据标准体系;

2.不断强化基于大数据的数据质量管控;

3. 持续完善基于大数据的基础设施;

4.初步实现基于大数据的数据集中与共享;

5.逐步开展基于大数据的数据挖掘和应用。

那么用大数据主要能干什么?

一个是总结过去,另一个是掌握现在,还有预测未来。

在这次疫情过程中,我们要不断发现每天和过去发生的事情,积极归纳总结。我们是希望知道我们当下的状态,并对未来做一些预估,我们可能关心很多的题,比如大家都关心什么时候会出现拐点?

这就是数据挖掘的概念。数据挖掘是从大量的数据中挖掘有应用价值的信息,关键问题是怎么样把这些信息运用到我们的决策过程中,这里有一系列算法要做。在这次疫情的分析过程中,我们也用到了各种不同的算法去对疫情和未来的反弹的问题进行预估。

要用数据挖掘的方法去建模,首先对业务的理解非常重要,第2是要对数据进行探索,知道我需要什么样的数据。

在这个基础上对数据进行准备,包括数据的收集和整理,甚至有时候还要去购买一些数据,对数据的质量要进行检查,另外要对中间的变量转化等等做一系列工作。建模完成后还有个很重要的工作,对模型进行有效评估,评估模型是否准确,然后部署到系统中,让他真正发挥作用。

中央指导组的副组长,中央政法委秘书长陈一新强调说,疫情防控指挥系统的决策力、执行力,是武汉保卫战能否打赢的前提条件和关键的环节。决策力、执行力就要用到数据,所以他也提到了一句,要加大数据的分析,时刻要心中有数。

在我们的决策过程中,这是一种思维方式,建立健全有力有序有效的指挥机制,实现疫情防控的科学化、精准化、高效化,尤其是科学化和精准化以及高效化,这些东西,都离不开大数据的有力支持。

在这个基础上,总书记也提出了他的指示,鼓励运用大数据、人工智能、云计算等数字技术,在疫情监测分析、病毒溯源、防控救治、资源调配等方面发挥更好的支撑作用。所以在从各个方面对大数据的重要性的强调都很多。

举个例子,如果一个人平均传播2.6个人的话,传播到第5代,可以快速扩展到368个人。所以这次武汉爆发我们究竟关心什么东西呢?

从整个事件的本身去理解,有病患发展的一个周期。我们把它分成潜伏期、待确诊、治疗以及出院,包括密切接触留院的观察者、疑似患者、确诊患者、重症患者等等。

这里很重要是治愈和死亡,现在提到的很多死亡率和治愈率的数据讲法是不准确的。

因为很多专家都说了,疫情传播隐藏期大概14天左右,比如湖北是我国第1个大型爆发的。第2个是在温州,然后还有北京、深圳等等城市,那么这些城市发现第1例的时候,究竟在什么时间点会出现大的一个爆发,也会出现一个波峰?

我们分析了这些很多城市之后,一般大概是在7~9天左右的时间,那么湖北省的第1个波峰是在9天,在其他的省一般在9天左右,也就是说当发现第1例患者,可以通过患者者来简单预测未来在什么时间点,可能预估到会出现的一个小高峰。

另外很重要的一点,从现有的疫情来确认人数,看疫情发展的一个趋势。

在早期的时候,我们都在找拐点,但究竟什么是拐点?

我们一开始做分析的时候,我们找第1个拐点就是说让增速能不能先降下来。第2个拐点是让绝对值能下来。

数学上我们就在讲的第1个是增速,其后我们希望找的是绝对值的减少。

另外还有一个很重要的点,要预估这次疫情的发展,潜在可能有多少人被感染、大概在什么时间点会达到高峰期?我们用了逻辑回归的理念。逻辑回归这条曲线有开始期,有加速期、有减速期以及饱和期。

我们做了这么一个预估,应该是在79,000多将近8万的这样的一个数字。然后具体的时间大概应该是在3月14号左右,全国这个增量大概会在10人以下。

在收集了大量的数据之后,还有一个很重要的一点是利用模型预测病毒繁衍。

我要讲的第三部分是大数据在抗疫中的作用。

一、大数据支撑人员返程

我们每天对全国的疫情,都有一个很明确的分析,利用大数据追踪行程追溯,这个人病源是从什么地方来,看从他流动的趋势,利用交通信息数据精密追踪这个人的动向。

二、大数据防控预警平台

三、大数据可以追溯传染病源头

四、大数据分析人员流动轨迹

五、大数据助力物资调运

大数据可以帮助我们进行物资的调运,什么地方缺什么东西,缺的量是多少,什么地方可以快速的把这些物资可以快速的运用到这个地方去。这些技术早在20年前,沃尔玛用来解决了他仓储的问题,区块链在打假这方面也很重要,尤其在利用区块链的物资调配来辨别医疗物资的真假方面。

首先是要进行分类的审批,对于医疗防护用品的企业鼓励迅速复工,这很重要,广东的佛山市开发了一个叫疫情数据报送平台,动态的掌握了企业生产的和员工的数据。

还有一个很重要的问题,如果当地的疫情比较严重,务工的人员不愿意去也是很重要的问题。对政府来说,在不同的地方复工,首先批准的是基本上没有疫情的地方,务工人员也会愿意到这个地方来。

每个人得病,这都是其实是一个很隐私的事情。那么在抗议过程,在隐私保护方面,哪些可以对隐私的保护能够起到比较好的作用?

目前,为做好新冠肺炎疫情联防联控中的个人信息保护,积极利用包括个人信息在

内的大数据支撑联防联控工作。中央网信办日前公开发布《关于做好个人信息保护利用大数据支撑联防联控工作的通知》,明确为疫情防控、疾病防治收集的个人信息,不得用于其他用途。任何单位和个人未经被收集者同意,不得公开姓名。

在大数据使用里边非常重要的一个理念,也是隐私的保护的问题。在这个时间点我们首先要解决的是疫情防控问题,但是同时我们一定要注意隐私的一个保护。

区块链的优势在于,它的一个加密哈希算法里包括了数据的收集、数据的存储、数据的共享、数据的使用,以及数据在什么时间内销毁的问题。这里包括安全的采集、存储的安全,以及一系列加密手段和加密算法。

所以我们希望随着疫情逐渐趋于平坦,可以把更多时间用在隐私保护工作上,其实对这些人的隐私的保护,一样的是很重要。

比如利用数字签名保障数据收集的真实可靠。

随着疫情逐渐向平稳过渡,希望政府在今后的过程中,能够把已经收集到的一些数据的使用能够提出一些更加完整、更加系统的些方法,每一个人私密和隐私进行一定的保护。

对此我们也提出了一个概念,叫密管中心。利用大数据平台,通过一个严格的流程程,使得数据和使用者严格遵守隐私保护的体系和理念,对我们每一个人来讲,都希望有这样的隐私权的。

另外区块链在这个过程中,然后可以使社区的防疫更加精准。其不可篡改性,和精确追踪的去穿透式能力,可以更加准确的掌握每一个人的行动和轨迹。

另一点是助力解决中小微企业的融资的问题,区块链在企业的信用方面能够发挥很多的作用,让信用更加真实可靠。

大家也知道前一段时间,关于捐赠物品使用的是不是合理,是不是规范的问题,其实区块链技术可以在这方面发挥一定的作用,利用他的防篡改、可追溯性,接受公众的监督。

总体来说,这些新一代技术,像区块链、大数据、互联网、人工智能,在很多方面都是相互有关联作用的。每一种技术都会有自己的缺陷,不同技术之间也会有一定的相互补充。所以好多技术在很多时候都可以综合应用。

我觉得大数据跟人工智能更加密切一点,大数据跟区块链也有一定的兼容性,所以我们在利用大数据各种各样的优势的同时,也可以考虑利用区块链去保护隐私,让其他的东西更的透明。比如中小企业的信用,更加真实可靠,让捐赠更加透明,这些东西都是区块链的优势。