本周,NVIDIA备受瞩目的开普勒GPU终于揭开面纱,其承诺比其上一代Fermi架构的产品有更好的性能和能源效率。第一个产品是面向台式机和笔记本电脑市场的中档图形卡,而更强大的针对高性能计算的第二代开普勒GPU已经在规划中。

本周推出两个新产品,为面向桌面系统的GeForce GTX680和面向笔记本电脑的GeForce 600M,根据NVIDIA的报道,他们的能源效率上Fermi产品的两倍。虽然他们代表了比上一代更强大的图形处理器,新架构的首要设计主题是每瓦性能比,而不是每平方毫米性能。根据NVIDIA的Tesla GPU计算业务部门主管SUMIT Gupta表示,这是公司的战略架构一个根本性的变化。“这是第一次把更多的注意力放在功率上而不是面积”他说。

这是因为象所有芯片制造商一样,NVIDIA的增长最快的市场是在移动和笔记本/ ultrabook。它们的架构重点是在能源效率,当然也与功耗大的GPU计算市场相吻合,这也是为什么Tesla GPU在极度消耗能源的HPC服务器部分大放异彩!所以 Gupta说:“我们面对的每一个市场都是对功耗敏感的。”

在开普勒上提高电源效率很大程度上依赖于一个已经在尝试和真正的技术,即增加核心数量,同时降低时钟速度。但结构有所不同。在封装的下面,内核是在NVIDIA称为Streaming Multiprocessors (SMs)里。在Fermi版本里每个SM只有32个核心。而在开普勒上,他们减少了不成比例的控制逻辑单元,所以可以增加到192个核心。

核数增加是明显的。以GeForce GTX 680来说,它有1536核心,几乎是高端Fermi GPU的3倍(最高端的Fermi GPU只有512核心)。同时,他们降低了时钟频率,从Fermi芯片的1.5G Hz低到只是超过1 GHz一点而已。虽然每个核心现在要做的工作减少,但是因为数量更多,吞吐量增加,从而降低能耗。

CPU芯片制造商采用这一战略。但由于单个CPU内核的复杂性以及对有限带宽的依赖,核心数量的增加也开始停滞不前(没有CPU在一代产品里增加2倍的核心数)。此外,由于很多应用都依赖于单线程性能,CPU芯片制造商试图尽可能保持时钟速度的上线。象NVIDIA这样,把时钟速度降低1/3,这对CPU产品来说是闻所未闻的。

对于开普勒,NVIDIA声称与Fermi一代的GeForce GTX 580相比,每瓦性能提高一倍。对于实际游戏应用,新开普勒产品每瓦性能在1.1到2倍左右。在某些情况下,它可以做得更好。

例如,NVIDIA用他们Samaritan演示,这是体现逼真度的游戏,演示显示出3倍的性能提升。直到这个星期,这个演示需要2片GeForce GTX 580卡,共消耗732瓦。而现在,它可以在一块195瓦的GeForce GTX 680上跑。

为了支持所有的额外的吞吐量,内存带宽已经显著提高。GTX 680接口支持6.0 Gbps,比GTX 580的4.0 Gbps提高了50%以上。根据Gupta说,这是任何商业芯片里最高的内存带宽了。

更多的内核、更慢的时钟速度、更多的内存带宽——这些架构上的改变仍将发生在开普勒GPU第二代版本里,但高端产品的设计将主要针对GPU计算应用,这是下一代的Tesla产品的设计基础。

根据Gupta说,第二开普勒实施将包括很多的能力,这些在以游戏为导向的产品里是不存在。特别是将增加更多的双精度能力(这是大多数图形应用程序的要求),并包括新的计算特定功能。当然功耗会比现在发布的中端图形卡要高一些。

虽然该公司尚未公布任何第二代开普勒的资料,但人们期望核心数和双精度峰值性能会有两到三倍提升,内存带宽至少有50%的提升。时钟速度肯定会比现在Tesla M2090的1.3 GHz有所削弱,但不会比第一代开普勒游戏卡那样降低那么多。

据推测,NVIDIA将保持Tesla产品线225瓦的功率,所以工程师必须平衡核心数量和时钟。鉴于功耗的限制和核心数量的增加,NVIDIA应该会让单片Tesla卡的双精度性能介于1.3到1.5teraflops。另一方面,有不排除提供性能低,但功耗更低的产品的可能性。

不过我们很快就会知道了,因为NVIDIA可能会在5月的GPU技术大会上推出HPC开普勒。根据Gupta表示,该公司计划在第四季度投入生产这个版本。如果都按计划,新的开普勒的GPU将在今年年底前在超级计算机上运行。