阿里巴巴智能視覺技術讀懂圖文及CT圖 屢獲國際認可
阿里巴巴的智能視覺技術愈來愈精良,在多個方面都屢獲國際認可,具有領先地位。在文本閱讀、圖像識別,甚至應用於分析CT圖醫療診斷方面,都可見一斑。
以毫秒消化數千萬字 學習內容後對答如流
阿里巴巴AI技術(以下簡稱「阿里AI」)在MS MARCO文本閱讀理解挑戰賽中,創造了閱讀理解能力測試的新紀錄。阿里AI模型在英文閱讀理解比賽中,得分超越了Microsoft微軟及百度等機構,排名第一,接近人類理解水平。
MS MARCO挑戰賽是AI閱讀理解領域的權威比賽,包含100多萬個問題和300多萬篇文檔,相當於參賽機構提供的人工智能模型需要閱讀完維基百科中的所有文章。
阿里AI正在向人類思維模式發展,舉例如傳統AI閱讀,只可以針對某一特定領域,準備好問答數據,這個情況下,金融領域的AI就無法回答物流領域的問題了。
由阿里巴巴提出的「深度級聯機器閱讀模型」就帶來一大突破,可以模仿人類閱讀理解的過程,先對文檔進行快速瀏覽,並定位到可能回答問題的段落,然後針對相應的段落再深入精讀,並在「理解」後回答問題。即使是有4,300萬字的《大英百科全書》,阿里AI都可以在毫秒內讀完,並根據自己的理解,利用當中的內容回答不同的問題。
現時,阿里AI閱讀理解技術已大規模應用於阿里巴巴生態體系,包括淘寶、天貓及Lazada,提供了中文、英語及印尼語等多種語言的智能客戶服務。今年的天貓雙11全球狂歡節期間,阿里智能客服機械人「阿里小蜜」擔任了整個平台98%的客服諮詢量,相當於10萬名人工客服一天的工作量。
阿里巴巴達摩院自然語言首席科學家司羅表示︰「阿里AI在閱讀理解上擁有天然的場景優勢,海量商業在線諮詢為機器提供了豐富學習文檔,這是機器變得更加智能的前提。隨著閱讀理解能力進一步提高,人工智能未來將成為人們的私人老師和私人助理,幫人們閱盡天下知識並提供決策參考。」
圖像識別能力勝同儕 精準技術兼具成本優勢
日前,由史丹福大學發佈最新的DAWNBench深度學習推理排行榜,阿里雲在圖像識別性能及成本兩大方面位居榜首,打破了Amazon亞馬遜保持了長達8個月的紀錄,同時,這是在排行榜中首次出現中國科技公司。
史丹福大學的DAWNBench是人工智能領域中最高權威的比賽之一,要求參賽機構的計算平台對5萬張圖片進行精準識別及分類。根據該比賽的結果顯示,阿里雲識別圖片的速度比Amazon快2.36倍,比Google谷歌快5.28倍。
在這個圖像識別比賽之中,阿里雲計算平台的突破點在於針對圖像識別任務研發了加速框架,可以自動將深度學習推理模型從32比特壓縮至8比特,將佔用的計算資源減少了四倍,速度也相應提升了四倍。目前,阿里雲計算平台每秒可實現1,000萬次級別的深度學習性能。
肝病CT圖像分析挑戰 促進臨床醫療發展
值得一提的是,在全球「肝臟腫瘤病灶區CT圖像分割挑戰」(Liver Tumor Segmentation Challenge,LiTS)上,阿里巴巴從近百支科學家隊伍中脫穎而出,在辦識肝結節及肝癌的準確度方面均獲得第一。
LiTS由德國慕尼黑理工大學、以色列特拉維夫大學等高校、科研院所與國際頂級醫學圖像年會MICCA聯合舉辦,希望用創新的算法解決肝臟腫瘤病灶CT圖像的自動分割。
肝結節有可能是惡性腫瘤的先兆,對肝結節的準確測量可以輔助醫生做出決策和治療方案。但肝結節形態多樣,即使是同一個病人,結節的大小、形狀都不一樣,從而導致結節間灰度分佈差異大、或與周圍組織灰度相似,甚至沒有清晰的邊界。阿里巴巴雲人工智能中心的團隊打破了國際AI檢測肺結節準確度的世界紀錄,創造了全程無須人工干預的檢測方式,機器可以自動讀取病人CT序列,直接輸出檢測到的肺結節。
此外,該團隊還研發出技術,通過對CT圖像層間信息和層內信息融合的網絡結構分析解決肝結節類別多樣性的問題,當中採用到基於原子卷積的空間金字塔池化(Atrous Spatial Pyramid Pooling)、亞像素卷積(Sub Pixel Convolution)及多特徵融合等技術。這技術的下一步發展是用於判斷肝結節是否為惡性,對臨床醫療將有更大的促進作用。
負責這個項目的是阿里巴巴達摩院機器智能技術實驗室副主任華先勝。他表示,目前研究範圍已經覆蓋肺、肝、骨、心臟及腦等部位的疾病,涉及影像分析、自然語言處理及設備信號處理等相關技術,部分技術已經落地到實際的醫療診斷中。
華先勝是視覺識別和搜索領域的國際權威學者,曾獲國際電氣與電子工程協會院士 (IEEE Fellow)、美國計算機協會ACM傑出科學家。
分享