云计算 频道

生物技术与AWS叠加催生基因测序新纪录

  【IT168 云计算】伴随着科技的发展,医疗行业也进入了崭新的智能化时代。春江水暖鸭先知,市场的规模动向,直接反映行业的发展起伏。近两年,由基因测序领导的精准医疗产业发展迅猛,从事二代测序基因检测的公司数目增速迅猛,其他传统IVD检测公司也开始相继涉足。可以看到,产业链上下游的公司都从各个角度开始切入精准医疗领域。

  人和未来生物科技有限公司(Genetalks,以下简称“人和未来”)是业内领先的生物科技公司,是一家依托基因和信息技术,为健康和医疗行业提供解决方案的高科技生物公司,业务包括遗传疾病和肿瘤筛查、精准健康管理、基因和健康信息技术解决方案等。

  在今年11月举行的第11届国际基因组学大会(ICG)——基因组云计算技术开发者大会(GCTA)上,人和未来在“数据压缩”和“计算加速”两个项目上,获得此次GCTA大会的冠军。刷新世界纪录的同时,保持了最低的计算成本。之所以取得如此傲人的成绩,人和未来首席技术官宋卓认为,一方面是基于人和未来多年来在基因测序领域所做的行业积累,另一方面就是科技进步为人类医学发展带来的福音,而此次科技助力的直接引擎,就是云计算。


▲人和未来首席技术官宋卓

  “数据压缩”与“计算加速”的项目意义

  众所周知,由于测序价格的降低,基因信息数据量近年来一直呈现远超摩尔定律的指数增长。基因测序往往产生大量数据,对于用户来说,如何让大量数据快速、稳定地上传至云端,并在更快、成本更低地进行并行化弹性计算,成为行业用户普遍面临的技术挑战。

  为了解决行业性的根本问题,作为世界范围内权威的基因组学术大会,ICG设置了云技术开发者专场,将数据的存储压缩与加速计算设置为比赛项目,让行业内的科技团队一起参与,提出最优的解决方案,共同解决行业内的根本问题。

  宋卓介绍,此次比赛共有全球300多家IT机构和团队参加,在高手云集的激烈角逐中,人和未来脱颖而出,靠的不是运气,而是跨学科跨领域的创新。“全基因组分析挑战是生物信息信与IT团队协同创新的结果。”

  BT(生物技术)与IT结合达成创新

  据了解,在计算加速项目上,去年已知最好的分布式计算成绩是1小时50分钟。而人和未来今年取得的成绩是18分钟,并且成本极低。用宋卓的话来说,这是一个数量级上的提升,一个质的变化。

  具体来说,人和未来采用了亚马逊AWS上的300台虚拟机,将分析时间从单台服务器的30个小时,缩短为18分钟,以机时费$16的超低价格,将全基因组计算费用带入百元时代。通过人和未来的方案,对比单台标准服务器,基因测序数据分析的速度提高了90倍,并可节约75%的云计算机时费用。

  当被问及如此低的机时费是如何做到的?宋卓表示,通常,“快速”与“低成本”是相互矛盾的。幸运的是,亚马逊AWS提供了非常灵活的竞价定价方式以及相应的特殊计算资源使用模式即AWS SPOT Instance竞价服务,使人和未来有机会同时追求“快速”与“低成本”成为可能。

  当然,虽然这种被称为SPOT Instance的竞价服务,是AWS面向公众提供的大众服务,

  但并非所有团队都能享有该服务所带来的红利。原因在于,Amazon EC2 竞价型实例是让用户能够对空闲 Amazon EC2 计算容量进行竞价,其定价完全由使用者出示的竞价价格来实时确定。在竞拍人少的情况下,这些机器的价格都非常低,大致是按需付费机器价格的10%左右。但天下没有免费的午餐,购买此类机器的使用者必须承担一定风险——即当实时价格高过你所出示的最高竞拍价格后,你的机器将被收回。因此,如果要使用如此低廉价格的机器,就必须有足够好的技术和系统设计来对抗机器随时可能被收回的风险。由于这样的风险和高技术门槛的因素存在,造成大量使用这类机器的用户通常并不多。

  做过高性能计算的人都知道,对单个计算规模很大的计算任务进行加速,绝不是简单的扩充机器就能完成的,分布式系统的IO通信会显著消耗系统性能,当系统规模达到一定程度后,IO处理不好,甚至会给全系统带来负加速。“为了克服IO墙,我们利用自主研发的高性能数据存储引擎作为基础块数据存储设施,通过精细地控制数据的分发与收集,以及平衡的带宽设计,成功绕过了IO墙问题,使得全系统性能在1000节点以内,近乎线性提升。”

  另外,在数据压缩领域,人和未来也做到了自己的技术创新。了解行业的人都知道,FASTQ文件无损压缩率的成绩优异是2015年LFQZ的14%,但速度过慢不适合大数据压缩;全基因组分析方向,利用分布式计算达到的最快纪录是2015年Churchill系统的1小时50分钟。

  为了克服压缩率难题,人和未来团队对压缩编码领域的几乎所有算法和理论都进行了系统地梳理和探索。“从最简单的Haffman编码、游程编码、LZ77到普通算数编码、范围编码、高阶算数编码,还深入探索了Context Model +算数编码技术以及PPM模型,以及其他压缩辅助技术,如BWT、MTF等。”宋卓表示。

  在研发攻坚战中,人和未来技术团队从大规模和高强度的研究中获益良多,最终在Context Model的预测模型上狠下功夫,通过对fastq不同数据行进行调优,达到了极高的压缩能力。团队在实现系统原型后,进行了大量CPU体系结构级别的性能优化。最后,成功地实现了比gzip高4倍的压缩率,压缩时间仅仅是gzip的1/6的压缩作品。

  AWS带来的价值

  对于参与此次大赛,人和未来前期在公有云选型的时候下了一番功夫,通过对比发现,AWS的优势在于资源弹性扩展,可以提供丰富的周边服务,并且网络的稳定性强。所以最终决定采用AWS公有云服务来支撑本次参赛过程,这次使用的开发平台和最终的使用平台都是在AWS上完成。

  人和未来采用了AWS EC2计算节点与S3存储等基础设施,并在其上对其功能进行优化,由优秀的IO平衡设计来弥补云计算节点间的通信延迟与宽带劣势。“我们在AWS上又构建了自己的数据存储体系,以及所有这些任务的调度、数据分发和收集,这是我们自主开发的专利技术。别的团队可能也会采用AWS服务,但是由于我们的强项是在于将对生物信息的理解融入云计算中,在架构设计上做到了创新,从而赢得比赛。”宋卓表示。

  实际上,人和未来早在两年前就开始在此领域做投入。在做这件事情的过程中,也获得了很多AWS的支持。宋卓认为,首先AWS有很好的技术支持,一些简单的问题,通过技术文档都能够找到相应的解决方案和答案。但随着系统规模在以不同数量级提升时,每上一个层次,都会遇到一些特定系统规模才会触发的各种问题。在此过程中,AWS都给人和未来提供了有效的支持。“所以,取得这样的成绩,跟平台本身也是密切相关的。尽管我们的技术解决方案不依赖于云平台,但用户如果想达到跟我们完全同等的效果,仍然需要使用AWS云平台。现阶段,人和未来正在积极寻求数据压缩和高性能计算方向的合作伙伴,希望通过技术创新,为用户带来更多实际价值。”宋卓介绍。

0
相关文章