2024-08-15
AI高樓數據起!HPE多元AI儲存方案 助力加速智慧創新

圖說:HPE數據服務暨儲存方案事業群總經理蕭舜華(中)、數據服務暨儲存方案事業群資深技術經理吳銘哲(右)和數據服務暨儲存方案事業群產品經理郭宥均(左)。

在堪稱科技界年度盛會之一的「HPE Discover 2024」大會上,HPE偕同NVIDIA發表雙方聯手孕育的HPE Private Cloud AI。兩家公司合作緣由,在於意識到AI技術流於碎片化、複雜化,衍生諸多風險與障礙,導致企業AI進程延宕,甚至危及數據資產;雙方一致認為企業需要藉助像是HPE Private Cloud AI的一站式方案,藉此化繁為簡,真正專注發展AI應用,而非深陷AI底層架構的整合泥沼。

HPE 數據服務暨儲存方案事業群總經理蕭舜華表示,HPE Private Cloud AI為兼具算力、模型、數據三大主軸的一站式解決方案。關於算力,主要內容在於HPE對NVIDIA最新GPU、CPU與Superchip的支援。模型部分以Ezmeral Unified Analytics平台為主力,一來提供模型管理與維運功能,為資料科學家和資料工程師帶來MLOps綜效;二來提供Orchestration機制,實現GPU虛擬化目標。HPE另提供Ezmeral Data Fabric軟體,能以單一命名空間(Namespace)支援雲地不同位置的多元類型資料,形成統一資料平台。

至於數據,堪稱HPE Private Cloud AI中至關重要的一環,因為企業必須善用大數據,才能訓練最佳模型。為此HPE發展多樣性AI儲存方案,協助企業在空間、效能、成本取得平衡,得以因應不同AI生命週期(依序為資料收集、資料準備、模型訓練、模型推論階段)、不同AI工作負載展開最佳投資布局。

多元AI儲存方案,與各類AI 工作負載完美匹配

HPE 數據服務暨儲存方案事業群資深技術經理吳銘哲指出,有關前兩個AI工作階段,資料收集需有大空間收納海量原始資料(Raw Data),資料準備涉及清洗、標註作業,執行較多讀寫,對存取效能有較高要求。惟綜觀兩階段的演算需求,都不必然需要啟用GPU,故多數用戶傾向搭建效能適中、經濟實惠的儲存池。

至於後段的模型訓練和推論階段,對效能的要求明顯增高,皆需仰賴GPU算力,用戶有必要配置支援NVIDIA GPU Direct Storage(GDS)協定的儲存系統,使GPU直接讀取資料,藉以降低延遲、實現高速平行運算。

吳銘哲說,另由於不同模型,適用圖檔、影像、音訊、文字不同資料型態,資料量差異甚大,所需資料空間大小當然不同。基本上除文字型態的模型外,其餘大型訓練工作皆需數百TB以上空間,單靠本機磁碟(Local Disk)並不足以承載,須部署外部分享式儲存設備。此外,僅靠本機磁碟對專案的管理及資源調配共享也非常困難。

為滿足各類情境對儲存效能、空間、成本的不同需求,HPE悉心設計3套AI儲存方案。首先是HPE GreenLake for File Storage(GL4F),HPE透過VAST的技術移轉而催生GL4F作業系統,再將它搭載於新一代HPE Alletra Storage MP。GL4F採用獨特DASE(Disaggregated Shared-Everything)架構,便於用戶依實際需要分別擴充控制器節點、儲存節點,享有最大擴展彈性。

值得一提GL4F支援Similarity演算法,針對HPC資料或已壓縮過的資料(如MPEG-4、JPEG),仍發揮2:1到3:1壓縮比的減量效果,使All Flash成本趨近HDD-based陣列,加上廣泛支援GDS、NFS、SMB、S3多元協定,得以達到效能與成本完美平衡,全面承載AI四大工作階段。

其二是兼具大資料量、中低速性能、節省總擁有成本(TCO)訴求的Qumulo方案;HPE將Qumulo軟體整合於驗證過的自家儲存設備,讓用戶能以SSD快取搭配HDD儲存的配比結構,結合標準NFS存取協定,既可維持一定效能、又能降低建置成本,最適合承擔資料收集與準備任務。

第三則是為支援GDS協定、主打高速運算訴求的Weka方案,HPE將Weka軟體整合在經過認證的全快閃陣列,組成Turnkey搭售組合,內含已配置完成的網路節點與軟體,幫助用戶快速搭建高速平行存取架構,滿足模型訓練與推論作業需求。蕭舜華強調,不論Qumulo或Weka方案,後續均由HPE扮演單一支援窗口。

藉由統一數據平台,消弭資料搬移負擔

某金控業者建立模型開發區,由模型伺服器利用NFS、S3或CSI協定存取後端Teradata、Hadoop/Object的大數據,再經過資料集整理與整合後,展開訓練工作。

該業者考量資料拖拉耗時,往往一等就是數小時,故委請HPE協助建立一個能整合訓練環境的統一數據平台。為此HPE規劃以Ezmeral Unified Analytics為核心搭建數據平台計算層,同時部署Shared Storage,讓不同GPU伺服器、不同Project共同存取至單一數據平台。針對資料收集與準備,HPE擬以Qumulo或Ezmeral Data Fabric打造高性價比的大數據共用區;另以HPE GL4F構築高速存取環境,支持AI/ML模型訓練與推論,或GenAI的RAG、LLM訓練等重度任務。

總之在資料為王時代,大數據是AI的關鍵燃料。因此HPE透過多元AI儲存方案,協助企業輕易實現效能、擴充性與成本的均衡,順勢強化AI 生命週期管理效能,孕育偉大的智慧創新應用。