奇安信战“疫”日记七 张文武:用大数据分析疫情,把大海捞针变为按图索骥
中新网2月9日电 我的2020年春节开始于1月24日大年三十,那天很暖和,屋子里的干枝梅都开了。但是结束也是在那天,此后就是战斗。
大年三十(1月24日):接到战疫任务
那天下午3点多,我在客户群里看到了一则消息,“我们这里有大量的疫情相关数据,但是却摸不清头绪,无从下手,急需要数据分析模型。” 客户虽然没有直接向我们提要求,但是,想到客户目前一定是有数据支撑需求了,只是在大年三十期间不方便直接要求;另外我们平时也是数据处的数据分析的主力单位之一,关键时刻要让客户觉得奇安信靠得住。于是我主动跟客户取得了联系,获得了参与客户方支援会议的机会。跟领导简短汇报商量后,我马上预订了大年初一的机票,从乌鲁木齐飞往上海。
第二天,我从石河子出发了。当时,新疆的部分路段已经开始管制,我开了4个小时才赶到乌鲁木齐机场。父母非常不舍,执意一路同行。进了安检口,我看见他们还一直站在原地不愿离开。上了飞机,空姐给乘客发了很多有过年气氛的巧克力和小零食,但因为担心有感染病毒的风险,别还没打仗自己先倒下了,我就硬撑着,一直没敢摘掉口罩吃一口东西喝一口水。下了飞机,等了近一个小时才坐上出租车,双腿都冻僵了。
出发前我联系了数据团队的陈海燕,请她一起加入。她原本一年才能回两天家,接到消息后二话没说,大年初一凌晨4点便从山西出发,驱车14个小时返回了上海客户现场,与我汇合。几天后,张露赶到。她当时在安徽老家,疫情来的太突然,家里没有口罩,我紧急给她寄送了一些,她才得以出发,从安徽老家先到北京,再从北京转到了上海。
1月26日大年初二,第1个大数据疫情分析分队-上海分队成立,我任队长,马俊茂负责带领数据团队支援,杨占春负责带领研发团队支援。
大年初四(1月28日):指挥部成立
随着疫情的快速蔓延,奇安信大数据与态势感知公司陆续收到了某部委及全国多个省市的下属机关的紧急支援需求。该部委作为此次疫情防控的重要支撑单位,面临非常艰巨的数据分析任务,因此,第一时间向奇安信集团发出了数据分析建模的支撑请求,希望利用大数据技术分析辖区内的疫情扩散情况,为精准防控提供数据支撑。
疫情就是命令。1月28日,大数据疫情分析指挥部成立,奇安信副总裁、大数据与态势感知公司总裁李虎博士担任总指挥。
虎博是公司出了名的拼命三郎,但听说他这次的出征,还有些小故事。疫情发生前,妻子带着女儿陪同岳父岳母在海口某小镇旅行。因为疫情,虎博原计划在成都陪父母过完初二就返回北京,但远在海口的女儿却好几天持续高烧39度不退,孩子的症状虽然也是干咳,高烧,但凭经验和分析可以排除是新冠状病毒感染,而当地已经买不到合适的药,女儿只能靠物理降温。无奈之下,大年初三,虎博只能从成都买药送去海口,而此刻正是疫情蔓延的危险期,坐飞机等也容易携带病毒增加孩子染病的危险性。所幸一切安然,女儿吃了从成都带来的药后很快退烧。孩子一退烧,初四晚上,虎博士赶紧飞北京,就在海口机场候机的时候,妻子发来孩子全身突发大面积红疹的照片,此刻的虎博也是非常纠结。询问情况初步判断是头孢过敏、孩子应无大碍之后,虎博士依然登机赶赴北京战场。
大年初五(1月30日):战疫全面打响
众所周知,疫情发生以后有几百万人从武汉流向全国各地,有坐火车的、有坐飞机的还有自驾的,这些都有可能是潜在的病毒传播者。他们什么时候都到过哪些地方、接触过那些人,如此庞杂、海量的数据,一线的数据分析师需要从中抽丝剥茧,难度可想而知的。奇安信本身是一家安全公司,在感知网络安全态势方面无出其右,在大数据智能建模与分析实战方面,也耕耘了多年,研制了天工大数据智能建模平台,积累了很多实战技术经验和人才队伍。但面对疫情大数据分析而言,虽有相通之处,却也是一个新课题。
面对全新的需求,时间紧且任务重,疫情期间正值春节放假,现有人手严重不够。总指挥虎博士果断决定在子公司内部招募志愿者,奔赴一线或提供二线支持。这个号召立即得到了公司内部的热烈响应,短短5个小时,一支51人的志愿者团队就成立了,虎博士担任总指挥,其中一线团队由马俊茂统筹指挥、乜剑锋担任技术总师,二线团队由吴勇义统筹指挥。
北京的“战斗”很快打响,数据团队的李猛率先到达,在大部队到达前,先期开展工作,把平台部署、数据准备的工作先开展起来,并开始进行数据分析。
乜剑峰在大年初五一早接到需要去北京客户现场开会的通知。已囤好了食材宅在家多天,一直叮嘱家人尽量不要出门的他,第一反应就是戴上口罩直奔客户现场。同时,城市另一头赶来的李学在也火速赶到,并肩战斗。
王吉华也在大年初五参加了另一北京客户的紧急会议。她是五岁孩子的妈妈,家中老人们身体又不好,自己平常出差也很多,但接到通知吉华第一反应是:目前人员紧缺,能出一把力的就出一把,让这肆虐的疫情尽快过去。面对家人的担心,吉华向家人保证,一定好好保护自己,毅然返岗复工。会议中,客户表示疫情严重,北京是防控重点,要在全面开工之前控制疫情,请奇安信立即协助做数据分析支持。重中之重刻不容缓,虎博冲到了北京一线,全面指挥,确保效果和进度。毛军、甘俊华、秘焰、李猛也相继也加入了这场“北京保卫战”。
距离北京几千公里外,顺丰快递也不能准点到达的期间,在西宁带孩子(1岁半)的马俊茂准点快递了自己。大年初六乘坐早7点的火车奔赴一线(兰州)投入工作。当晚12点,完成第一阶段数据分析任务并转给后续一线同事接手,他又搭乘次日早7点飞机赶往北京,投入北京某局疫情数据分析专项工作。非常时期辗转到火车站、机场,俊茂说,自己心里也是害怕的,在兰州机场又给口罩加了两层。不过为了让更多人尽快回归安宁的生活,俊茂做出了坚定的选择。
大年初七,陈海霖加入战队,单兵独战至今,撑起甘肃疫情分析。大年初十,魏宁、王杨军、刘志宛、张柳溪、陈震宇先后从河北、广西、河南、陕西、山西赶到太原,当晚即加班到凌晨。由于地处偏僻且滴滴停运,也没有出租车,他们每天坚持步行往返客户现场和酒店。在贵阳,王天学主动请缨一个人驻场客户现场,其他人二线支持,以减少外地同事远赴贵州带来的感染风险。
家在遵义的陈旭,接到湖南需要支持疫情分析的任务后,克服各种困难,先到达贵阳,然后辗转到达长沙。
新的志愿者也来了,他们是全球鹰事业部的一线志愿者马亮、罗召,他们加入了上海小分队,为已经每天苦战14小时的我们带来了新的战斗力。
上海、北京、甘肃、太原、长沙……,有我们一线数据分析师战斗的身影,在他们的身后,还有一群二十多人的全力支持的二线志愿者队伍。这群勇敢的志愿者中,最令人动容的是此刻正深处战疫最前线的湖北境内的小伙伴们,他们是杨占春、姚道俊、李培道、周炎、胡文祥、姜威等,还有两位已经医学居家观察的杨建中、郑亚楠,来自于非数据分析岗位的售前顾问冯利、产品经理赵乙蓁、李军、全球鹰运营人员李世祥,以及研发和数据分析人员杨文帅、陈旭、陈小琴、刘彬彬、王勇、杨晓春、刘凌、秦世欢、李娜、刘强等。二线志愿者团队的领头羊是大数据事业部的总经理吴勇义,此前1月17日刚从武汉出差回来,且有比较严重的咳嗽症状,按规定必须居家隔离观察,此刻只能遗憾地待在家里,通过网络和电话来组织二线志愿者远程协同,全力以赴支持一线,形成合力一起向新冠状病毒抢时间。
数据一条条看,模型一个个建
病人确诊后,对于疫情防控而言最紧要的就是要最快速度立即通知密切接触者采取后续行动,比如居家医学观察等。而最难找的密切接触者就是与确诊病人并不认识的那群人,这是一件看起来简单但实际上极难的事情。利用传统的方法,挨家挨户排查,犹如大海捞针,速度慢找不全。幸运的是奇安信大数据与态势感知团队在过去大量实战中积累的大数据建模分析技术,把大海捞针变成按图索骥,依托天工大数据智能建模平台,利用大数据建模分析技术快速、准确找到确诊病人的密切接触者,进行隔离,切断病毒传播路径。
这项工作干起来其实很不容易。一线同事初到现场,首先要快速准确理清疫情分析所需的相关数据,这样才能很快开展相关分析工作。其次就要快速清洗、整理数据,然后才能够根据疫情分析需要针对性进行大数据建模研判分析。最后,为了保证结果数据的绝对准确性,避免造成疫情防控的人力浪费或错失良机,一线同事们对相关结果还要双人检验,一一验证,甚至有的结果数据因为原始数据质量不佳,还要通过人工进行补全,而为了加快速度,面对如此巨大的工作量,由于一线人手少,伙伴们每天都是凌晨12点后才离开客户现场。
随着时间的推移,数据的各字段信息逐步完整,数据本身的问题在逐渐减小,但数据量剧增,并且病情的判断标准也发生了变化,导致数据分析的难度陡然上升。况且疫情发展到这样一个地步,已经出现了二代甚至三代传播,数据分析的难度就更大了。为了提高效率,同时确保模型输出的数据结果快速而又准确,研发同事又专门连夜设计出了能够自动化数据处理的脚本文件,大大提高了现场大规模数据的处理和分析效率。
二线的工作一样辛苦。在紧张的工作氛围中,孩子的喧闹声、电视的声响仿佛都被屏蔽掉了,只听到键盘敲击的清脆声音。同事们的电话也彻夜不休,一行行代码在电脑屏幕上滚动着,用来打字的手都已经僵住了,一切为的就是准确、快速响应一线需求。
20多个模型、上亿条数据,“疫情态势图”助力精准决策
截止目前,在一线、二线同事的紧密配合下,依托奇安信天工大数据智能建模平台,专班共搭建了20多个数据分析模型,处理了超过上亿条数据,并且通过可视化技术,绘制出了精准的“疫情态势图”,为当地研判疫情态势、排查密切接触人员、控制传播途径,提供了精准的决策支撑。
上海的“战斗”也还在继续,从初一开始,我们已经持续进行了十多天数据分析和支撑。明天是元宵节,我抽空出去走了两条街终于发现了一家开门的便利店,买到了两包速冻汤圆,在老家石河子它们叫元宵。今天晚上我和项目组同事们一起煮了吃了,算改善伙食也算提前过节。不知为什么,我觉得格外香甜。愿疫情早日消散,大家都早日安全团圆。