阿里雲通義開源首個多模態推理模型QVQ 視覺推理能力優異

訂閱阿里足跡

感謝你的訂閱!

阿里雲通義開源首個多模態推理模型QVQ 視覺推理能力優異

阿里雲近日發佈首個開源多模態推理模型QVQ-72B-Preview。該模型有強大的視覺理解和推理能力，在解決數學、物理、科學等領域的複雜推理問題上表現尤為突出。目前，QVQ-72B-Preview已在HuggingFace、Github以及阿里雲旗下AI社群魔搭社區等平台上開源。

QVQ評測表現

QVQ-72B-Preview 是由 Qwen 團隊開發的實驗性研究模型，專注於增強視覺推理能力。在考察模型視覺理解及推理的MMMU評測中，QVQ取得了70.3分，水平已達大學級別；在聚焦數學的視覺推理測試MathVista中，QVQ得分超過OpenAI o1，印證了其強大的圖形推理能力；在更具多樣性和學科廣度的MathVison評測中，QVQ表現超越Claude3.5及GPT4o，說明QVQ更擅長解決真實數學問題；在奧賽級別的OlympiadBench基準測試中，QVQ也展現了出色的視覺推理能力。

QVQ是一個會基於視覺進行深度思考推理的大模型。QVQ不但能感知更準確的視覺內容，並據此作出更細緻的分析推理，還會質疑自身假設，仔細審視其推理過程的每一步，經過深思熟慮後給出最後結論。QVQ可以輕鬆識別「梗圖」內涵；看真實照片可合理推斷出物體個數及高度等信息；在面對數學、物理、化學等各科學領域難題，QVQ能像人甚至科學家一樣，給出思考過程和準確答案。

此前，阿里雲發佈首個通義開源推理大模型QwQ（Qwen with Questions），發佈的預覽版本QwQ-32B-Preview在數學和編程領域表現出色，展現出相當於研究生水平的科學推理能力和強大的數學問題解決能力。

自2023年通義千問Qwen家族模型首次開源，截至目前，其衍生模型數已突破7.8萬個，成為全球規模最大的AI模型群之一。