创建巨大数据库可视化曾经需要高性能的努力,但这种情况正在开始改变。由麻省理工学院的研究人员Todd Mostak 和Samuel Madden开发的一个新的大规模并行数据库,称为MapD,它使用现成的gpu来处理复杂的空间和GIS的实时数据。该方法明显快于传统的基于cpu的系统。使用单个高性能GPU卡,Mostak说在渲染Twitter数据时有70倍加速。

麻省理工学院《技术评论》的一篇文章解释说,"新技术大通过将数据存储在图形处理单元(gpu)的显存中,而不是传统的中央处理单元(cpu)中大幅度提升计算速度。”

随着硬件价格的下降和社交媒体分析工具的进步使得可视化技术更为便利;然后,把大数据变成有用的动画还是一个耗时的过程,尤其是对于那些没有一个强大工作站或者集群的研究人员来说。

以前的技术需要花费数秒或更长的时间来将数据渲染成图像或动画,而MapD可以在毫秒内将百万个数据点转换成地图和动画。MapD技术可以处理不同类型的数据。

Mostak还是在哈佛大学读研究生的时候萌生这个想法的。他的论文关于研究“阿拉伯之春”时期埃及政治需要处理大概4千万Tweeter 物理定位数据,但是为交互式分析映射大数据库需要花费几天的时间。他的解决办法就是使用廉价的为游戏玩家使用的硬件,比如GPU,来建立他自己的数据库。

"通过构建工具以真正的互动方式来探讨这样的数据集,而且是以毫秒为单位,而不是几秒钟或几分钟的延迟,我们希望消除假设制定、测试、完善数据过程中的计算瓶颈。“Mostak说。

该技术的早期采用者之一将是阳光基金会,这是公开、透明的竞选资金。该组织将使用MapD分析22年来州和联邦的竞选捐款记录,看看2000万以上的捐款是如何按照捐助国、区域、民选官员和其他因素来划分的。

低成本分析工具和社交媒体数据的组合是可视化大数据推广的中坚力量,并将对企业、政府和学术界产生影响。例如,实时利用从移动设备和社交媒体流的地理数据能力将是一个巨大的资源用于流行病学和灾难反应小组。尽管MapD刚刚推出,研究小组已经计划扩大其硬件支持,包括英特尔协处理器(Phi)和通用x86处理器。Mostak也说他99%可能性会让MapD开放源代码。 他会保持一定的并行处理算法的专利,但会在一个开放源码许可中发布数据处理系统的基础和计算模块。