云计算 频道

如何利用SAP分析云掌握全国疫情发展情况?

  等您阅读完这篇文章,相信一定可以感受到SAP分析云的强大魅力。SAP分析云可以帮助您做到深入分析,迅速验证您的想法。操作简单,结果丰富。

  这篇文章中的分析内容,就是我们SAP分析云整合服务能力的体现。这篇文章中所有的分析结果由我们团队的一位实习生完成,分析的全部流程完全在SAP分析云中进行,从数据整理到分析结果报告只需要花费3天内的有效工作时间(SAP是8小时工作制)。

  相信这段时间,大家宅在家里,通过各种社交媒体来掌握国内疫情的发展情况。

  您接触到的信息中,有官方统计数字,比如今天又确诊了多少,附近有没有人确诊等等;有关于病毒特性的描述,比如传播途径,如何预防等等;有个人案例,比如,这是本市第XXX号病例,于某日确诊,期间去了哪里,途径了哪些地方,接触过谁,等等;还有很多各种谣言,比如今日看到这种药能预防,明天可能就会被辟谣了。关于哪些消息可信,哪些存疑,哪些虚假,您可能并不能得出一个肯定的答案吧。

  在海量的信息中,您是否感到疲惫?虽然您了解了很多关于疫情的碎片数据,您是否真的对现在全国疫情严重程度有个整体上的把握呢?抛开全国疫情不说,您对您生活的城市的疫情发展是否了解呢?

  我们基于公开的数据,利用SAP分析云,带您一步步分析全国疫情发展情况。希望这样分析的思想可以帮助您建立分析的思路,快乐地利用SAP分析云进行您所需要的业务分析。

  零、写在前面

  首先,我们稍微学术化一些,严格地区分一些概念。

  问题一:这个可怕的病毒叫什么?

  脑海中浮现:好像叫新冠状病毒,可能和SARS差不多?

  正确答案:病毒的学名叫做SARS-CoV-2。确实,和SARS有关系,CoV (Coronavirus)代表冠状病毒。

  问题二:这个病毒引发了什么疾病?

  脑海中浮现:现在疫情很严重,有很多人因此失去生命。但是,我好像说不出来。。。

  正确答案:疾病的学名叫做COVID-19 (Coronavirus Disease 2019)

  总结:其实吧,说实话,现在的很多媒体,无论国内还是国外,完全分不清病毒和疾病的区别。从学术上来讲,这是媒体报道混乱的根源。

  (是不是觉得小编很严谨、很专业?那就相信小编的分析能力,继续往下读吧~)

  下面主要以探索性分析为主,重要的是掌握使用SAP分析云进行全国疫情分析的思路。(本文中使用到的公开数据源全部列在最后)

  一、疫情概览

  首先,我们对于2019-nCoV疫情进行整体情况分析。我们使用SAP分析云在商务智能方面的功能,对数据从不同角度、从各个维度进行可视化分析。

  我们现在得到的高层级数据主要包含地理位置分布和时间序列相关的数据,因此我们使用地理信息图 (Geo Map)来展示疫情地理分布,使用时间序列趋势图对疫情的发展情况进行展示。

  由于数量级的差异,我们分开处理确诊人数和其他情况(治愈和死亡人数)。在趋势图中,我们还使用了预测分析方面的功能,生成对未来两天的预测情况,可以对未来的趋势有个大致的了解。虚线表示预测的曲线,阴影部分表示置信区间,显示误差范围。这里您可以看到,我们SAP分析云中最基础的自动预测功能拟合情况良好,对于未来的预测也较为准确。根据预测的场景以及数据量不同,我们SAP分析云的预测分析功能还能够提供更准确的预测能力。

  可以看出,现在确诊人数的增长趋势还是比较吓人的。但是想想最近处于春节这样一个特殊的时期,人口流动性较大,然后再加上国内这种庞大的人口基数,还是可以理解的。

  注:这里说明需要两点。

  1,我们集合了不同来源的数据。虽然显示的是Feb 9, 2020,由于各个机构收集数据的时间点以及时区不同,很难统一,所以这个时间点实际表示的是北京时间Feb 9和Feb 10之间的某个时间点收集的数据。略有误差,但是不影响分析结论。

  2,由于手机阅读,我们将SAP分析云中一个完整的页面,以独立图表的形式做成了不同的截图,使您可以直接看到更多细节信息。但是在SAP分析云中,这些图表之间可能有着极其紧密的联动,使您可以方便进行交互式操作。这一点在微信中无法体现,而且由于图片大小不一致导致的不美观情况请您见谅。(没错!这锅咱不背!)

  二、全国疫情分布情况

  对疫情有整体上的把握之后,我们想要深入分析中国各省的疫情情况。这是一个很自然的分析思路,我们希望知道哪个省对于确诊人数的增长率影响最大。

  我们可以看到在确诊人数最多的前10个省中,湖北省占比超过80%。可以预想到,选取所有省之后,湖北省的确诊人数在全国确诊人数中的占比是只会略小于80%。这里,我们加入了智能洞察 (Smart Insight)功能,为您自动地捕捉统计图中特定数据或数据点之间的差异。这里的洞察信息提示您,湖北省的确诊人数超出了平均值704%,是最主要的贡献因子。

  同样地,我们对死亡人数和治愈人数也做了相同的处理。可以看出,湖北省基本上产生较大的占比。特别是死亡人数,我们可以看到因疫情不幸逝世的人基本上都来自于湖北省。

  这就意味着,这是一个长尾分布,在这个分布下您看到的所有整体性的指标都会偏向湖北省的真实情况,对湖北之外的省份完全不适用。这句话如何理解呢?举个例子,小明身长1米2,小方身长2米,小明和小芳平均身高1米8。这个数字接近小方的身高,可是远远偏离了小明的身高。

  因此,在后续的分析中,我们需要分别分析湖北省的情况和非湖北省的情况,展示各省疫情“真实”的情况。

  我们可以看到,湖北省的确诊人数增长曲线比较接近全国确诊人数增长曲线,而其他省市的确诊总人数相比于湖北省,似乎增长不大(虽然是其他各省市确诊人数总和)。这就是我们说的,在长尾分布中,不能看到全国确诊人数有着较高增长率,就误以为您所在的城市的增长率也如此吓人。很多人往往由于这种“假象”而恐慌。

  对于死亡人数和治愈人数,我们也进行相同的分析,可以看到不幸逝世的患者确实基本上都来自于疫情中心的湖北省。

  当您了解了这样的基数时,我们还可以进一步计算湖北省的死亡率和治愈率。从我们比较关心的死亡率中,您可以看到,湖北省的死亡率是远高于全国平均的,而其他省市的总死亡率一直保持在一个较低的水平,只有湖北省水平的10%左右而已。其实,在我们做数据可视化的过程中深有体会,我们发现很多省市的死亡人数非常低,在确诊人数的数量级下很难在一个图表中进行可视化展示。

  当然,这与很多因素有关,比如各省市的防控力度、医疗水平等等。您可以自行收集数据,使用SAP分析云提供的智能发现 (Smart Discovery)功能来确定您关心因素的重要程度。

  小结——

  如上对全国疫情各省分布表明,湖北省的疫情发展最严重,并且湖北省和其他省市的严重性差异显著。这导致全国综合性的指标(比如确诊增长率、死亡率等)不适用于除湖北省以外的省市。

  三、湖北省疫情分布情况

  在我们确定了湖北省的疫情最严重之后,进一步地想要知道,湖北省的哪个城市比较严重。我们知道,最初武汉市是全国疫情的中心,最早的确诊病例就来自于武汉。如今,是武汉市的严重程度远超超过省内其他城市呢,还是省内很多城市都收到波及,一样严重呢?我们可以通过数据知道答案。

  这里我们可以看到,武汉市确实最为严重,超过其他城市的总和。但是其实从确诊人数的分布来看(这是2月9日累计确诊人数),孝感和黄冈也开始占据一块较大的区域。这提醒我们,得加强对湖北省与武汉比较密切城市的疫情控制,否则湖北其他城市疫情的严重性可能会越来越接近武汉。

  同样的,这也是一个长尾分布,表明所有关于湖北省的综合指标,并不能显著地反映着除武汉之外湖北其他各城市的“真实”情况,需要分开考虑武汉市和湖北其他城市的指标才可以。

  当然,尽管如此,武汉的各项指标增长率相比于省内其他城市,差异还是十分显著的。这里我们使用相同数量级的坐标,您可以看到,武汉和其他城市的累积指标和增长速率还是具有显著差距的。

  小结——

  如上对湖北省内各城市疫情分布表明,武汉市的疫情发展最严重,并且和湖北省其他城市也有着较为显著的差异。这也导致我们需要分开考虑武汉市和湖北其他各城市的实际情况。

  综上对于数据的逐层深入分析,我们发现,当您考虑疫情的严重情况时,您不能只看一些综合性的指标,需要具体城市具体分析。相信您也看到,在我们的分析中,武汉的疫情,湖北省的疫情,以及全国的疫情,都需要通过更加具体的分析,才能产生令人信服的结论。

  四、其他省疫情分布情况——选择您关心的城市分析

  以我们SAP Labs China所在的城市上海为例,我们来看看上海的疫情发展情况。当然,如果您使用SAP分析云分析,您完全可以自适应地分析您所在或者您关心的城市。

  为了方便展示,这里的死亡率和治愈率都是以百分比 (%)的形式展示。注意0.00%意味着该省暂时没有报告死亡案例,截止到数据记录时刻。

  我们展示了全国(除湖北省外)其他省市的疫情确诊人数和治愈人数,这里按照确诊人数降序排列。上方的折线图仅供参考,毕竟数据量比较小,噪声较大。这里您可以看到,您关心的城市的数据,以及和其他省市的一个直观的对比。当您看到一些现象,想要深挖时,您就可以着手继续深入分析。

  当然,小编要上班,所以关心的是上海疫情的发展情况,所以这里展示的是上海的数据。我们可以看到上海市的确诊人数的增长率是处于下降水平,并且确诊人数中外地来沪人员占比较大。随着返工潮的来临,对于外来人员的防控就显得尤为重要了。

  当然,这些数据所展示的结论只能到这里。如果您想分析为什么外地来沪人员确诊人数较多,您可能需要关于外地来沪人员的详细数据。下面我们将提供一个关于海南省细部数据深入分析的例子,非常遗憾无法使用上海市的数据。

  温馨提醒——

  关于使用SAP分析云进行疫情分析的目的,是希望您能建立正确的观念,增强对您生活周围疫情严重程度的掌握,从而以正确的方法利用信息,加入这场持久的抗战。

  五、细部深入分析——以海南省疫情发展情况为例

  想要对于某个省市进行更深入的细部分析,就需要收集更加详细的数据,比如详细到每一个病例的各种属性。相信大家经常使用SAP分析云做分析,也能体会到我们深入分析需要颗粒度更细的数据。

  我们使用数据来自于海南省。这里真的得夸赞一下,海南省的信息公开工作非常优秀,可以追踪到病例与环境接触的各种细节。

  由于有了关于病例更加细节的属性,比如年龄、性别等,这里我们可以看到海南省确诊人数的性别分布以及年龄分布。可以看出,在海南省确诊的人中,感染者是不分男女的(当然,感染者也是不分国籍的,全世界都出现了确诊病例)。

  在年龄分布中,我们可以看到,各个年龄段都有分布,并且下方的智能洞察信息提醒我们,年龄大的确诊人数好像也没有显著性,各年龄段的人群都有可能被感染,无法断定老年人就一定比年轻人易感染。

  所以,我们无法得出年轻人不容易被感染的结论。这就警示我们年轻人树立正确的观念,必须做好防护,不能以年轻抵抗力强为由轻视自身健康状况。当然,老年人抵抗力普遍比较差,更需要精细呵护自己的健康,防止被感染。

  此外,如果需要深入分析,我们期望的数据其实需要如上类型的属性,比如还需要常住地,接触情况,迁徙路径等。这些数据虽然我们没有继续深入分析,但是通过浏览这些数据,我们自然地能够得出一些想法。当然,具体如果验证需要深入分析。比如,常住地是武汉的比较多(来自发源地),很多人是被自己的亲友感染的(接触时间比较长,并且很多是由老人传染给子女),海南本地居民感染(海南旅游业发达)等。当您对某一点特别感兴趣,SAP分析云帮助您做到深入分析,迅速验证您的想法。

  六、最后一点

  病毒可怕,疾病可怕,但并非无法战胜。

  如果您了解过相关的数据,其实这次SARS-Cov-19导致的COVID-19的死亡率远不如2003年SARS和历史上流感引发疾病的死亡率。

  科普:流感 (Influenza),流行性感冒,注意区分流行性感冒和感冒。流感和我们平常所说的感冒完全是两个概念,只是因为历史原因翻译相差不大。

  (这里强烈推荐张文宏医生18分钟的演讲《让流感不再肆虐,你必须知道的真相》,风趣幽默,干货满满,侵删)

  那么,为什么我们对这次疫情感到害怕呢?

  相信当您看了上面的科普之后,可以得出一个结论,我们只是对于未知感到过于恐惧罢了。

  所以,相信现代医学的进步,响应国家的号召,从自身做起注意防护,为了自己,也是为了他人!

  图示各类公开数据源参考网址:

  https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset/data#

  https://gisanddata.maps.arcgis.com/apps/opsdashboard/index.html#/bda7594740fd40299423467b48e9ecf6

  https://github.com/BlankerL/DXY-COVID-19-Data

  http://wst.hainan.gov.cn/yqfk/

0
相关文章