根据Al Gara(英特尔数据中心集团研究员)的说法,随着我们使用新的计算、存储和通信技术以及神经形态学和量子计算芯片转向未来的未来,高性能计算和人工智能将越来越相互关联。Gara认为:“人工智能、数据分析和传统仿真的融合将导致系统具有更广泛的功能和可配置性以及相互影响。”

Gara为这个高性能计算和人工智能设定了非常积极的目标,硬件将提供超过一倍的双精度性能的可用性能。 他认为,如果用户专注于每个内存容量的计算,将会在整个体系结构中支付巨大的费用,并为系统软件和应用程序提供机会,通过E级以及更高的级别保持指数级的性能增长曲线,如下面的性能表所示。

图1:将支持HPC和AI的未来系统的架构目标。 注意:PiB是PB的内存容量

统一“三大支柱”

Gara提出的愿景是基于HPC的“三大支柱”:人工智能(AI)和机器学习(ML)的统一; 数据分析和大数据; 加上高性能计算(HPC)。 这意味着未来的用户将使用互相利用并通过内存进行交互的模型进行编程。

图2:统一“三大支柱”(来源英特尔)

更具体地说,英特尔正致力于可高度配置的Exascale系统,该系统可支持包括可扩展处理器、加速器、神经网络处理器、神经晶体芯片、FPGA、英特尔永久存储器、3D NAND以及定制硬件等基本新技术的升级。

图3:朝着高度可配置的未来迈进

Gara愿景中的共同点是,相同的体系结构将通过配置涵盖HPC、AI和数据分析,这意味着在这些不同的硬件后端需要有一致的软件故事来解决HPC + AI工作负载。

现在,通过在机器学习软件包(例如TensorFlow)中使用英特尔nGraphT库,现在已经有了非常真实的视觉感受。 从本质上讲,英特尔nGraph库被用作中间语言(类似于LLVM),可以在从CPU到FPGA,专用神经网络处理器等多种硬件平台上提供优化的性能。

英特尔人工智能产品部首席技术官Jason Knight写道:“我们将英特尔nGraph库看作是流行的深度学习框架优化传递,硬件后端和前端连接器生态系统的开端。

图4:对TensorFlow的XLA支持

总体而言,Gara指出,“HPC是真正的许多架构的发源地......和测试场地”,正如HPC程序员、研究人员和领域科学家不断拓展的架构空间和性能范畴:

  • 数据级别平行(从细粒到粗粒)
  • 节能加速器(计算密度和能源效率往往是相关的)
  • 利用各级可预测的执行(缓存到粗粒)
  • 集成的固定功能数据流加速器
  • 通用数据流加速器

技术机会

高性能计算和人工智能科学家将有机会获得并利用许多新的网络、存储和计算体系结构的性能功能。

特别是,高性能计算是光学技术的重要推动力,因为它是超级计算机最具挑战性和成本最高的元素之一。 出于这个原因,Gara认为,随着我们转向线性和环形器件以及光学器件,硅光子学正在改变,因为硅和光学器件的集成能力将带来显着的经济和性能优势,包括增长空间(从技术角度而言)使用多个波长的光进行通信。

英特尔持久内存等新型非易失性存储技术正在模糊内存与存储之间的界限。  Gara描述了一个用于E级超级计算机的新存储堆栈,但是当然这个堆栈也可以在通用计算集群上实现。

Gara观察到,关键在于这个堆栈是为了使用NVM存储而设计的。 结果将是任意对齐和事务大小的高吞吐量IO操作,因为应用程序可以通过新的用户空间NVMe / pmem软件堆栈执行超细粒度IO。 在系统级别,这意味着用户将能够在软件管理的冗余自我修复环境中使用跨同质、无共享服务器的可扩展通信和IO操作来管理大规模分布式NVM存储。 换句话说,高性能,大容量的可扩展存储可以支持大数据和内核算法,如日志运行时算法和稀疏和非结构化数据集上的数据分析。

研究人员正在利用内存性能和容量方面的进步来改变我们处理人工智能和高性能计算问题的方式。 从犹他大学到沙特阿拉伯阿卜杜拉国王科技大学(KAUST)都在做这方面的工作。

例如,犹他大学(University of Utah)科学计算和成像研究所的研究科学家Aaron Knoll博士强调了Ospray可视化软件包中对数运行时算法的重要性。 对数运行时算法对于大型可视化和Exascale计算非常重要。 基本上,运行时间随着数据量的增加而缓慢增加。 即使数据量增加了几个数量级,运行时间也会缓慢增长,因此对数增长非常重要。 否则,运行时间的增长可以防止计算在合理的时间内完成,从而避免了大容量计算机的好处。

结果,提供低延迟访问数据的大容量存储器(例如“fat”)计算节点是可以在自己的游戏中竞争和击败大规模并行加速器的使能技术。 犹他大学的研究表明,与128节点GPU集群相比,单个大内存(三TB)工作站可以提供具有竞争力的,甚至更优异的交互式渲染性能。 犹他州大学组还在探索使用Pkd树和其他快速的核心内方法进行原位可视化[PDF],以显示大型“直接”核心内技术是传统HPC可视化方法的可行替代方案。

在第二个例子中,KAUST与英特尔和东京工学院合作,一直在增强多核和多核处理器数值工具的生态系统。 考虑使用CPU技术以数学和计算的高效方式处理十亿乘十亿的矩阵。

数值线性代数是工程、物理、数据科学和机器学习中几乎所有应用的根源,非线性代数和快速多极方法(FMM)中这些贡献的重要性可以由非HPC科学家们理解。  FMM方法被列为20世纪十大算法之一。

结果表明,HPC科学家现在有能力解决更快,更大的密集线性代数问题和FMM相关的数值问题,而不是使用当前高度优化的库(如运行在相同硬件上的英特尔数学核心库(Intel MKL))的可能性。 这些方法已经在具有ExaFMM和HiCMA名称的高度优化的库中提供。

展望未来:神经形态与量子计算

代号为Loihi的新神经形态测试芯片可能代表了AI的相变,因为它们是“自学”的。 目前,数据科学家花费大量时间处理数据,以创建用于训练神经网络来解决复杂问题的训练集。 神经形态芯片消除了人类创建训练集的需要(例如,循环中没有人)。 相反,一旦神经形态硬件找到了解决方案,人类就需要验证准确性。

简单地说,神经形态计算利用与机器学习和深度学习中使用的传统神经网络完全不同的计算模型。 这个模型更准确地模仿生物大脑如何运作,所以神经形态的芯片只需通过观察其环境就能以事件驱动的方式“学习”。 而且,它们以非常节能的方式运行。 时间会告诉我们这是否有优势。 好消息是神经形态硬件现在变得可用了。

Gara表示,其目标是创建一个可编程架构,在当前架构下提供超过100倍的能源效率,从而有效解决人工智能难题。 他提供了稀疏编码,字典学习,约束满足,模式匹配以及动态学习和适应等实例。

最后,Gara介绍了量子计算方面的进展,通过与代尔夫特大学的合作,使得更好的Qubits(Quantum Bit),改善Qubits之间的连通性,开发可扩展的IO成为可能。 量子计算是非直观的,因为大多数人不能直观地理解纠缠或者同时存在多个状态的东西。 网络上仍然包含着滑铁卢大学的量子计算101等优秀资源,帮助人们理解这项技术正在迅速改进,并且如果实现的话,将永远改变我们的计算世界。

量子计算有利用通用计算机解决当前棘手的问题。  Gara强调了当前英特尔量子计算在量子化学,微体系结构和算法协同设计以及后量子安全密码学方面的应用。

概要

现在我们正在看到引入新的计算,存储和制造技术,迫使AI和HPC社区重新思考他们的传统方法,以便他们可以使用这些性能更高,可扩展和可配置的体系结构。  Al Gara指出,技术正在导致“三大支柱”的统一,这反过来又使得AI和HPC在数据中心的未来无法区分。