五年前,由计算机科学家,生物医学研究人员和生物信息学家组成的团队着手将集体知识的力量带入基因组研究。他们在PLOS Biology中的新出版物分享了这一努力的成果,该分析平台可指导研究人员完成解释复杂基因组数据集的过程。
 
该小组获得了美国国立卫生研究院的资助,成立了“大数据卓越知识中心”。该中心由计算机科学教授和Willett系学者Saurabh Sinha(BSD / CABBI / GNDP / GSP)领导,包括伊利诺伊州和梅奥诊所的众多合作者,创建了首个此类分析平台,即知识引擎。基因组学(KnowEnG)。该中心的博士后研究员Charles Blatti和Amin Emad是该新出版物的第一作者。
 
(A)KnowEnG的典型工作流程步骤:云上的基因组分析。 (B)分析功能被组织为“管线”,用于诸如聚类,基因优先级排序,基因集分析和签名分析等常见任务。每个管道都提供各种选项来定制分析,包括使用先验知识。 (C)KnowEnG知识网络表示可以在分析过程中使用的先验知识。网络中的节点代表基因和生物学特性,边缘代表基因特性的注释或基因与基因的关系。网络内容在左侧进行了汇总,并在右侧显示了数据源的徽标。 KnowEnG,基因组学知识引擎; TCGA,《癌症基因组图集》。
 
“看到如此惊人的一群才华横溢的,令人敬畏的团队-研究人员,软件工程师,用户体验设计师,项目经理,教职员工,博士后,研究生,本科生甚至是高中生在过去的几年中所做的努力令人振奋。 Sinha说,“我们最终以一种我们所有人都引以为荣的产品而告终,并有望为全世界的基因组研究人员提供帮助。”
 
要了解KnowEnG影响基因组研究的潜力,重要的是要知道许多基因组研究的初始结果是一组感兴趣的基因:在两个不同实验条件下具有不同活性水平的基因,其携带的突变将健康细胞与肿瘤细胞区分开,或在具有不同健康状况的个体中表现出序列变异。
 
生物医学研究人员必须找到方法,将一系列不明显相关的基因转化为全面的解释:疾病状态是否影响患病组织的代谢率?实验疗法似乎有可能减慢肿瘤细胞分裂的速度吗?解决这一难题的一种常用方法是将一个实验数据集与不同基因的生物学重要性及其相互关系的现有知识联系起来。就像一个好奇的互联网用户使用一组搜索词一样,研究人员希望利用已知的全部信息。
 
但是,与互联网用户不同的是,近年来进行基因组研究的个人没有像Google这样的搜索引擎所提供的灵活性,可以无缝地收集各种信息源。他们也不能轻易地将这些信息应用到许多不同类型的分析中。取而代之的是,每个分析都必须是零碎的,从一个分析工具跳到另一个,每种工具都提供了有限的解释。这是KnowEnG消除的障碍。
 
“很多时候,您从一种分析开始,然后又想进行更多分析,”现为麦吉尔大学电气和计算机工程助理教授的埃马德说。 “关于KnowEnG,非常有用的一件事是,您可以一个接一个地流水线化这些不同的分析。您可以在KnowEnG中运行一个[分析]管道,获取结果,并以可以插入下一个管道的格式自动生成数据……因此您可以一个接一个地设置不同类型的分析。”
 
KnowEnG还具有独特的能力,可以利用和综合现有基因组信息的各种来源,将它们组合成一个庞大的“知识网络”,随着研究的不断发展和新基因组技术的出现,新的数据形式将随着时间的推移而不断扩展。
 
为了强调该中心已实现的功能,由Blatti和Emad领导的团队将以前发布的数据用作案例研究,在KnowEnG平台内重新分析结果并分享所揭示的新颖见解。
 
Blatti说:“我与Amin(Emad)紧密合作,试图设计一个模仿以前不使用先验知识的研究的研究,然后尝试通过知识指导的分析来展示我们可以超越这些研究的地方。” 。 Blatti现在是伊利诺伊州国家超级计算应用中心(NCSA)的研究科学家。
 
基因组学是一个令人难以置信的广阔领域,而KnowEnG的能力涵盖了整个领域。该平台使用户可以上传数据并针对各种人类基因组数据形式或来自19种模式生物中任何一种的基因组数据自定义逐步分析。
 
布拉蒂说:“即使该论文是关于人类癌症研究的论文,我们也试图针对伊利诺伊州研究的模型生物。” “这不仅是一个仅癌症的平台,而是一个更广泛的平台。”
 
生物数据管理方面的专家建议,数据集和工具应在研究界内可找到,可访问,可互操作且可使用(FAIR)。中心成员确保KnowEnG能够实现这些目标,使其可以通过Web门户免费获得,并促进各种其他访问方式。通过与Mayo Clinic的合作,他们还直接与生物医学研究的用户测试小组合作。
 
“我们试图彻底理解用户对数据的疑问,” NCSA医疗创新的合著者兼副总监Colleen Bushell说。 “我们的方法是然后设计一种清晰显示这些问题的答案,并预测下一组问题的方法。当我们简化数据视图时,实际上只是简洁地回答了其中一些问题,但是随着他们深入尝试理解数据时,我们提供了越来越多的细节,越来越多的解释。” Bushell提供了对KnowEng实现的监督并领导了由共同作者Lisa Gatzke和Matthew Berry领导的中心的可视化团队开发出创新的方式来表示平台内的复杂数据和分析过程,并创建了使生物学家易于管理其数据的用户体验,设置数据科学实验,并在云环境中执行它们。
 
该工作过程在很大程度上依赖于梅奥和伊利诺伊州生物医学研究人员在开发的每个阶段的反馈。
 
“对我来说,KnowEnG中心的博士后及其所涉及的是独特的机会和独特的环境,” Emad说。 “与Mayo诊所的人和其他在生物医学领域知识渊博的研究人员交谈,使我学到了很多东西。因此,对我来说,每一项任务都是学习的机会。”
 
尽管NIH为该中心提供的资金已经结束,但伊利诺伊州的癌症中心仍在提供资金,以使今年能够访问KnowEnG。 NCSA医疗保健创新计划办公室将继续努力发展。 NCSA在某种程度上是为了支持在伊利诺伊州开发的软件的寿命; KnowEnG的结构旨在适应随着时间的推移增加新形式的数据,新的分析过程和新的可视化策略。
 
“ NCSA致力于真正延续该平台,” Bushell说。 “这属于NCSA的使命,即赋予软件超越资金的生命。 。 。我们专注于与医疗保健和数据分析相关的工具,并与IGB研究人员紧密合作。我们希望人们知道这些工具将会存在。”