全基因组关联分析Genome-wide association studyGWAS)是一种用来寻找某种基因变异与表型之间关系的方法,指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性SNP),从中筛选出与疾病相关的SNPs。研究人员在遗传统计学角度对GWAS进行了数据统计学方向的探讨和研究,以实现低成本、高效益地找到遗传标记与疾病间的关联,同时解决GWAS分析过程中出现的假阳性问题。

上海交通大学Bio-X研究院一直关注于全基因组关联分析。BIo-X研究院是2005年由NHGG(Neuropsychiatric and Human Genetics Group, 神经精神与人类遗传学研究室)2000年成立的Bio-X生命科学研究基地经过重组而成。Bio-X研究院在精神疾病和骨骼发育研究领域屡次取得国际水平的成就。2011年,Bio-X研究院开始使用华硕ESC1000超级计算机进行基因相互作用的分析。

GPU在基因相互作用分析中的应用

传统分析基因相互作用的方法是多因子降维法和逻辑回归法。逻辑回归的算法非常复杂,而多因子降维法是要罗列一堆的位点和基因,但基因组上位点和基因太多了,要分析所有位点和基因之间的关系,计算量相当庞大,因此研究人员用降维的方式,根据自己的程序或经验进行设定,减少了目标值后再从数据分析中进行验证,评估他认为和疾病最有关系的结果。但这个方式最大的缺点是在精减计算的过程中会丢失很多重要的信息。为了能够实现对全基因组所有位点进行分析,Bio-X研究人员采用了GPU技术。

领导这一课题研究的师咏勇博士,主要从事复杂遗传病相关基因及致病机理的研究、中国人群遗传背景研究、复杂遗传病系统生物学研究新方法的探索以及复杂遗传病系统生物学研究软件平台的开发。“一个基因组上有100万个位点,即便做两两相互作用的分析,也要有100万个平方的复杂度,而对于一台普通的CPU台式机来说,10万个位点的运算也要用1个月的时间,这对于我们来说无法接受。因为我们更看中随机情况下的模拟实验,我们要不断在随机的情况下计算我们的统计结果,这样得到的结果更接近于真实情况。而要做这件事情,势必要做海量计算。”师博士说,“在这种海量数据处理的压力下,我们急切需要能够快速、高效并准确处理这些数据的计算服务。而GPU计算在某些密集型科学计算领域代替CPU的解决方案已经有了很多成熟的案例,于是我们选择利用GPU技术来解决我们的计算问题。”

华硕服务器一直是GPU计算的积极推进者。对于浮点运算的要求超过每秒万亿次,如果缺乏有力的平台支撑,Tesla系统的威力将难以得到充分发挥,这也成为Bio-X中心选择华硕ESC1000的原因之一。华硕在主板制造领域的龙头地位为ESC1000提供了业界最值得信赖的系统搭建基础,为了解决位点运算高复杂性的问题,ESC1000采取Tesla卡并联计算方案(3Tesla C2070+1Quadro FX380图形卡),并全部在PCI-E Gen2 x16速度下运行,使计算核心总数达到1344个,创造高达每秒4万亿次的极致运算速度。

"在华硕ESC1000上,我们一天里可以对2000个样品的6-9条染色体进行基因填补(Imputation)计算,这样一个星期的时间,我们就可以完成一个基因组的计算,而这在CPU机器上是无法实现的。”师博士说。

此次向BIO-X中心提供华硕ESC1000产品的为华硕GPU核心战略合作伙伴苏州吉浦迅科技有限公司。为了让师博士团队在最短的时间能在GPU系统上进行基因相互作用分析,吉浦迅的工程师达到实验室现场安装并调试CUDA环境,确保师博士团队顺利运行其GPU程序。

经过一段时间的连续运行,师博士对ESC1000的运行效能表示了充分肯定:“基因位点的计算由于其计算量巨大,往往单次计算就需要十几个小时,期间一旦因电力供应不稳定或散热不充分导致系统死机,所造成的资源损失和时间损失将难以挽回。因此我们选择超级计算平台,希望其在进行持续性、高负荷运转时,同样能有极高的稳定性保证,而ESC1000很好地实现了这一点。”

华硕ESC1000充分考虑到用户的顾虑,量身定制了针对科学计算场景的高品质的1100W电源,并且通过80PLUS认证。一般电源(非80PLUS)的转换功率只有60%-70%,其余30%-40%功率全部变成热能散失在空气中。而华硕ESC1000的电源可达到超过80%的转换功率,意味着电源只把不到20%的电力转换成热量,充分保证了在提供充沛动力输出的同时还很好地提升了电能转化效率;系统即能稳定运行,又能节省电费开支。另外,ESC1000还提供了出色的散热解决方案,系统采用华硕独家的Cool&Quiet CPU散热器并板载导热管,后者可将芯片组产生的热量引导至后端I/O接口处的散热片上,并通过CPU风扇和机箱120mm大风扇及时排出,为平台稳定运行提供切实保障。

“到目前为止,对于许多疾病来说,人类只发现了一小部分遗传风险,因此还不能做到有效地预警某种疾病的发生,尤其是重大疾病。有了GPU技术,我们有机会在更多的样品用更为复杂的计算方法里挖掘与疾病相关的基因及变异位点,这样一来人类的生命科学又将会前进一大步”,师博士有信心地说。