「小紅書」成功遷移500PB數據湖至阿里雲 歷時一年涉及1,500人
中國知名互聯網公司「小紅書」近日成功將存儲了過去11年原始數據的數據湖零故障遷移至阿里雲,項目共有1,500人參與,遷移數據量高達500PB(petabyte)。
「小紅書」月活躍用戶突破3億,面對業務高速增長,,「小紅書」在線處理數據的需求不斷增加,同時離線處理所積累的歷史問題,也會在未來的切換中帶來更多成本與風險。為此,「小紅書」在2023年11月啟動遷雲項目,計劃一年內將數據湖遷移至阿里雲。
遷移過程遷移涉及結構化、半結構化和非結構化數據。遷移至阿里雲上後,數據湖可通過多個OSS Bucket支持納入統一資源池,實現多個Bucket共享資源池內的OSS吞吐及QPS能力。這樣的流控能力在面向「小紅書」複雜業務場景,可靈活調配資源,高效利用吞吐性能,降低不同業務租戶間的互相影響。阿里雲原生HDFS+DLA元數據可實現無縫對接Hadoop EMR體系,支持元數據線性擴展能力,輕鬆應對「小紅書」數百PB數據下的元數據線性增長。
據介紹,「小紅書」的遷雲項目經歷了三個階段。第一步,項目組首先解決標準問題,然後根據標準進行治理;第二步,完成治理後,項目在2024年5月正式進入雙跑階段。把數據拷貝到阿里雲上,兩邊同時跑數,驗證正確性與及時性;第三步,2024年8月,項目結束雙跑,進入割接階段。阿里雲團隊全程在現場保障,順利完成了割接。2024年11月,「小紅書」遷雲項目正式宣告結束。
在零故障的情況下,該項目遷移數據達500PB,執行任務11萬個,參與人數1,500人,涉及部門40多個。
立即訂閱阿里足跡,緊貼阿里巴巴集團最新發展動向,通過新聞故事及專題文章了解創新科技、電子商務及智能物流等新興議題的嶄新趨勢
分享