阿里巴巴達摩院發佈人工智能語音點餐方案
阿里巴巴達摩院機器智能技術實驗室自主研發的多模態語音交互方案可應用於餐廳點餐,提升餐飲業的運作效率及顧客的點餐體驗。
「兩杯拿鐵,需要做成冷的,少冰加脫脂奶,嗯……然後還要個卡布奇諾,放點焦糖,對了,一杯拿鐵在這裡吃,其它的帶走,哦,都是大杯的。」走進餐廳,不按次序條理點餐,也不用擔心服務員來不及接收訊息了。在人工智能持續發展下,機器系統可以解讀到這種不按次序條理的口語,在餐廳嘈雜環境下理解客戶所說的一字一句,並據此輸入修正後的點餐內容。這是近日阿里巴巴達摩院機器智能技術實驗室在阿里雲「雲棲大會‧武漢峰會」上發佈的一套多模態語音交互方案。
這套方案由阿里巴巴達摩院機器智能技術實驗室自主研發,並在阿里雲進行商業化輸出應用,當中包含機器智能技術實驗室在聲源定位、語音增強、人臉和圖像識別、自然語言處理、流式口語理解、長句多意圖理解及對話管理等等最新的前沿研究成果,所有核心技術為阿里巴巴獨家或自有專利技術,將逐步通過學術論文對外公開。
升級系統 只需數十秒就可完成點餐
這套方案的特點在於致力使用人與人之間的自然交流方式,來提供公共空間、特定應用場景下的自然人機交互體驗。這套方案在2017年12月時,已首次亮相,應用於上海地鐵語音售票概念機,而且在今年3月正式於上海南站服務市場,這套地鐵售票機應用的技術成功解決在公共場所嘈雜環境下的語音識別準確率問題。乘客不需要在繁複的地鐵線路上找出自己想要到的車站及路線,根據測試數據,普通的買票程序需要約30秒,而語音購票只需要10秒左右。
而這次發佈的語音點餐機,則為原有方案的進一步升級。新系統不但可以應用到新零售背景下的智能咖啡店,提高排隊點餐的效率,令整體過程更流暢;同時,一般的語音交互機器,都需要由人類發出「語音喚醒」,例如先說︰「Hi,點餐機」,叫醒機器之後才開始說出指令,不過阿里巴巴達摩院機器智能技術實驗室的流式多輪多意圖口語理解技術,就打破了這個常規,人類只需隨意說出指令,機器就可以自行理解需要。
在阿里雲「雲棲大會‧武漢峰會」現場示範,同樣的點餐內容,人工點餐用了2分37秒左右,而通過人工智能語音系統點餐,則只是用了不足50秒;而與自助點餐不同之處,就是利用語音,顧客只需直接說出想要的東西,而不用在屏幕上找東找西,更簡單方便。
這套多模態語音交互方案可以理解不按條理說出的口語化點餐內容。
可延展性 可迅速複製至各行業應用
更重要的是,此系統具有業務知識圖譜技術,可以結合到不同商業場景,迅速複製及應用於交通、新零售及城市服務等各行各業。
阿里巴巴機器智能技術實驗室語音交互智能首席科學家鄢志傑介紹,依託於業務知識圖譜自我調整的技術,這套方案能夠快速的在更多場景落地,目前已經落地的場景還有車內語音助手、電話智能客戶服務、可免遙控器操作的遠場語音電視、可精準區分多人對話的智能咪高風等。「未來我們希望實現公眾空間裡的萬物皆能對話。」
未來除了地鐵購票及餐廳點餐之外,車站機場的問路諮詢、醫院裡的掛號諮詢等更多不同的場景,都可以應用上這種多模態語音交互方案。
豐富經驗 技術已於多個領域推進實踐
事實上,阿里雲的「智能語音交互」已在智能語音領域實踐多方面的應用,包括法庭庭審記錄、智能客戶服務、視頻審核和實時字幕轉寫、聲紋驗證、物聯網等多個場景。全國有近300家法院和超過6,000家法庭在使用阿里雲的技術,每年有超過1.2億次客戶服務電話由阿里雲的智能語音交互方案來協助人類接聽。
在傳統語音交互產品方面,阿里雲智能語音交互研究的技術平台能夠精準轉換使用者的語音為對互聯網內容和服務的意圖,觸達手機、IoT設備、互聯網汽車、電視、智能音箱等各類終端,例如與斑馬網路、上汽合作的的榮威互聯網汽車、與海爾合作的人工智能電視等。
分享