大数据在台湾蔚为风潮,无论是政府官员或贩夫走卒,人人皆听闻大数据的威力。因此,产业界及各级政府皆努力建置所谓的大数据平台,以搜罗及保存资料为己任,并导入资料的视觉分析工具,让领导者们能够快速地查看管理或施政成效,以客观数据来辅助主观评价,以分析辅助经验,以事实取代臆测。

这些当然都是好的进展,收集资料并整理成视觉化的分析图表,对于评估及掌控现况有非常大的帮助,让我们不再只能依直觉及经验做决策。

问题出在人们普遍认定这个阶度已算是成功导入大数据解决方案,其实,这只是把资料平台准备好而已,要充份发挥资料的价值,还没沾到边。

要发挥资料价值,不能光谈大数据,机器学习人工智能是绝对不该忽略的。事实上,这三者环环相扣:大数据是材料,机器学习是处理方法,人工智能是成品所呈现的特质。这个时代,搜集大量资料只呈现给人看,而不是拿来喂给计算机学习,让你的应用呈现人工智能,就跟采集大量松露结果拿来沾酱油一整碗吃掉一样可惜。

机器学习的定义是,在工程师不需要(通常是无法)详述完整方法的前提下,让计算机能自动根据资料来学习到如何预测结果、辨识规则及解释成因。

大数据的特色就是资料量大及维度高,当资料维度高于五或十以上,通常就已超出人类的归纳能力。例如,给你某超市1,000件商品的销量,人类无法依赖视觉图表,归纳出表现好的商品是因为售价、质量、包装、品牌、货架位置、广告、营销方式、折扣、口碑,或是销售员的推销造成的。

同样地,某公司1,000位员工的绩效,人类无法单纯基于图表以员工的性别、年纪、求学历程、在校成绩、就业历程、升职/加薪记录、差勤记录、年资、考核、同侪评价、与同侪/客户的互动等,来预测员工未来的表现及离职可能性。

这类型的分析工作,人类不行,机器学习可以。人类靠图表分析,能力十分受限;机器靠算法分析及归纳,效果可以远远超过人类。

可惜的是,虽然台湾对于大数据的追求是一等一的,对于机器学习的探询及认知,却是相对落后。根据Google搜寻趋势,比较全球GDP前50名的国家(除去Google未服务的国家,如中国),以对于大数据的热度来比较,台湾是世界第一,新加坡、香港、南韩及美国紧接在后。

但对于机器学习的关注,前五名依序为南韩、新加坡、香港、以色列及瑞士,台湾列在第六名。若以两者的比值,以机器学习相对于大数据的比值来看,台湾大幅落后多数国家,排名在最后几位。这显示我们对于大数据的热情有余,但相对而言,对于如何解放大数据的价值还不清楚,可惜了那些资料。

简单来说,拥有大数据,但不懂机器学习,就像在仓库里摆了几部跑车,却骑着脚踏车上路,以为有家里跑车的加持,脚踏车就可以骑得比汽车还快。

如同精灵宝可梦(Pokemon GO)需要有训练师才能发挥能力,拥有大数据后,我们也需要很多很多的机器学习专家(有人称呼为AI训练师),才能让手中的大数据真正发挥价值。

(作者是中央研究院信息科学研究所研究员、台湾资料科学协会理事长)