COVID-19大流行正在产生大量数据,这些数据正在产生大量积极的学术文献。为了帮助筛选这些成千上万的研究论文,并综合covid19知识,劳伦斯伯克利国家实验室的研究人员开发了一个文本挖掘工具,该工具由超级计算和机器学习提供动力。
 
该工具名为COVIDScholar,使用自然语言处理(NLP)扫描COVID-19上的学术论文,使搜索结果变得容易。3月中旬,白宫科技政策办公室(White House Office of Science and Technology Policy)呼吁对针对COVID-19的数据和文本挖掘的人工智能工具采取行动。在一周之内,伯克利实验室的研究人员就有了该工具的早期版本。
 
 
“我们的目标是做信息提取,这样人们可以找到不明显的信息和关系,“说Gerbrand Ceder,伯克利实验室的科学家是谁帮助领导该项目,在一次采访中与伯克利实验室。“这是整个机器学习和自然语言处理,将这些数据集应用。”
 
像这样的智能大数据分析工具对于理解COVID-19文献是必要的,这些文献很快就达到了压倒性的水平。“毫无疑问,作为科学家,我们无法跟上这些文献,”伯克利实验室的另一位科学家克里斯汀·佩尔松(Kristin Persson)领导了这个项目。“我们需要帮助,以便迅速找到相关论文,并在这些论文之间建立关联,而这些论文表面上看起来似乎并不是在讨论同一件事。”
 
在一个月内,该团队收集了该领域的61000多篇研究论文,每天大约有200多篇发表。COVIDScholar整合了自动的脚本,这些脚本将这些论文提取出来,标准化,并为搜索建立索引。“论文发表后15分钟内,它就会出现在我们的网站上,”该工具的主要开发人员之一Amalie Trewartha说。
 
表面上看,COVIDScholar是一个高级搜索引擎:它返回结果,按子类别分类,并推荐相似的文章。但很快,它的功能将深入得多。“我们准备在‘自动化科学’的自然语言处理方面取得重大进展,”另一位主要开发者约翰·达格德伦(John Dagdelen)说。“你可以利用机器学习模型中生成的概念表示来发现文献中没有同时出现的事物之间的相似性,这样你就可以找到应该连接但尚未连接的事物。”
 
为了运行COVIDScholar,研究人员求助于国家能源研究科学计算中心(NERSC)的超级计算机。NERSC目前的旗舰超级计算机是科里(Cori),这是一款Cray XC40系统,容量为14个Linpack petflops。(该公司之前基于xc30的旗舰产品Edison去年大约在这个时候退役。)
 
“不可能发生在别的地方,”特雷沃萨说。“我们取得的进展比在其他地方可能取得的进展要快得多。这就是伯克利实验室的故事。与我们在NERSC、加州大学伯克利分校生物科学部门的同事们一起工作,我们能够快速地重复我们的想法。”