5月23日午間消息,“點34杯咖啡,人工需要兩分半,而AI收銀員只需要49秒”。在今日舉辦的“云棲大會·武漢峰會”上,阿里云展示了AI點餐技術(shù)。客戶以每秒5個字的速度,向一臺機(jī)器點單,并頻繁更換語句,這臺機(jī)器對每次對話均作出了精準(zhǔn)應(yīng)答。
在視頻中可以看到,點單環(huán)節(jié)包含了修改、刪除、加單等多輪對話,背后是公共場所強(qiáng)噪聲環(huán)境下的信號處理和語音識別、流式多意圖口語理解引擎、多模態(tài)人機(jī)交互等技術(shù)模塊的綜合使用。
值得一提的是,在整個交流過程中,沒有出現(xiàn)”hi,點單機(jī)“之類呆板的喚醒詞,可直接下單,這也更符合人與人的自然對話。
阿里巴巴語音交互首席科學(xué)家鄢志杰告訴新浪科技,如今機(jī)器對人類口語的理解能力帶到了新的高度,這完全打破了”語音喚醒+語音指令”傳統(tǒng)命令式交互方式,阿里云首創(chuàng)的流式多意圖口語理解引擎,極大地提升了對人類隨意、自然的口語表達(dá)的理解力,“這些模塊并非簡單級聯(lián),而是深度融合而形成了多模態(tài)語音交互方案。現(xiàn)在這套解決方案已經(jīng)在阿里云上開放,開發(fā)者開箱即用”。
阿里云方面介紹,這項解決方案除了可以做收銀員之外,還能在地鐵賣票。目前,上海地鐵已經(jīng)部署了這一技術(shù)。乘客直接說出目的地,售票機(jī)便可選擇合適的站點和路線。測試數(shù)據(jù)顯示,普通買票耗時往往超過30秒,而語音購票全程只需要10秒左右。