Amazon在AWS re:Invent大会宣布推出3项云端AI服务,将Amazon内部采用的机器学习与深度学习技术,以云端服务的型式提供给所有非机器学习专家的开发人员使用,包括图像辨识、文字转真人语音,以及如同Amazon Alexa的对话式应用服务。Amazon终于加入由Microsoft与Google领先的云端AI服务市场。

AWS(Amazon Web Services)执行长Andy Jassy表示,在Amazon有上千位工程师负责机器学习与深度学习等人工智能领域的技术,其实Amazon的多项服务早就已经采用机器学习与人工智能等技术,只是碍于公司文化风格而不太对外张扬。

机器学习与深度学习虽然是近年来非常热门的AI新兴技术,然而两者的技术门槛极高,不仅需要熟悉机器学习与人工神经网络算法的专家,流程中也需要高度仰赖技术专家处理机器学习算法、调校机器学习模型,再加上事前需搜集处理大量资料、整理训练用资料等手续,不只是流程繁复,而且针对不同的状况,例如辨识不同的物体影像,又或是针对不同的媒体如声音,则又必须整个流程再重复施行。

AWS推出云端AI服务所诉求就是解决上述困难,让非机器学习专家的软件开发人员也能使用机器学习与深度学习技术。整个流程中的资料处理、整理、算法、机器学习模型,以及类神经网络架构的扩充性等,都由AWS在云端架构中完成,而以API型式提供机器学习功能,让软件开发人员可以轻易呼叫使用图像辨识、自然语言处理等机器学习与深度学习的功能。

Amazon新推出的3项云端AI服务中,第一项是立基于深度学习技术的图像识别与分析服务-Amazon Rekognition。这个图像识别服务可分析物件、人脸及场景,以一张拍照者从汽车副驾驶座拍摄女性驾驶的照片为例,Amazon ReKognition可分析出汽车、户外、白天及驾车等标签,而从脸部辨识则可分析出女性、微笑与太阳眼镜。一旦图片带有这些特性标签,开发人员就能有许多进一步运用照片的方法。

第二项也是立基于深度学习技术的AI服务是Amazon Polly,它可将文字转换成真人发音的MP3档案,Andy Jassy举一个例子是,把“WA的气温70F”输入Polly,则可转成由真人发音说出:“华盛顿州的天气是华氏75度。”它其实是做了一些自然语言处理,再经由合成的真人发音输出音讯。目前Polly支援24种语言、47种语调,不过尚未有中文版。

第三项AI服务则是将Amazon Alexa语音助理的核心技术,透过云端提供使用,由于这是取自Alexa的核心技术,在命名上就把Alexa去掉头尾,成为人机对话服务Amazon Lex。

Amazon Lex立基于自然语言理解(Natural Language Understanding,NLU)、自动语音识别(Automatic Speech Recognition,ASR)及深度学习技术,将人类语言转换为计算机可处理型式,再将处理的结果转换为人类自然语言,也就是人机对话。随着Amazon Alexa带动新一波人机对话的应用模式,诸如Chatbot对话机器人、对话(Conversation)界面、对话平台也开始风行,而Amazon Lex则可做为这类应用的核心。

AWS产品策略总经理Matt Wood在现场示范以Lex开发的Chatbot应用,可透过语音或文字提出请求,例如询问订购飞往伦敦的机票,Lex系统会接着回问何时起程,一旦答覆了起程时间,Lex系统就会查询机票,一旦有机票可订,会再询问使用者是否确认订票,在使用者同意后,Lex系统就会驱动Amazon Lambda服务去订票。

另以饭店订房为例,当使用者说出订纽约市饭店房间后,系统先以自动语音识别技术转换为可理解的文字,并且断词,区分出“订”“纽约市”“饭店”“房间”等关键词,再由自然语言理解技术分析使用者要订房、住宿纽约市,接下来系统会询问使用者预计入住与退房的时间,驱动Amazon Lambda服务查询空房信息,在找到空房时再进一步透过语音确认是否要订房,一旦使用者确认要订房,再驱动订房服务,在订房成功后,再透过Amazon Polly服务,以语音回覆成功订房的讯息。这样的对话式互动让使用者觉得宛如真人客服。

目前Amazon Rekognition及Amazon Polly服务皆已对外提供,而Amazon Lex则是预览版。Amazon Lex的计价为文字每千次查询为0.75美元,语音每千次查询为4美元。