ChatGPT發布至今,AI大模型正在進入全新的生態模式,展開了一個全新的旅程,各個研究機構、公司都展開了一場關于大模型的比拼。據科技部新一代人工智能發展研究中心等機構發布的數據,中國10億參數規模以上的大模型已發布79個。但同時,企業在開發及實施大模型應用過程中面臨諸多挑戰,尤其是數據存儲方面。
多位業內人士對《中國經營報》記者表示,大模型時代,數據決定AI智能的高度。作為數據的載體,數據存儲成為AI大模型的關鍵基礎設施。國內要發展人工智能,并使這一產業得到高速的發展,一定要重視數據和信息的數字化記錄。如今,國內建設了大量的數據中心,算力相對較多,但存力較少,很多高價值的信息都沒有被記錄下來。
挑戰依舊
以ChatGPT為代表的大模型成功實現商業化落地,并引發了業界震動。人工智能也正在從感知理解走向生成創造。而AI大模型儼然成為互聯網的“新風口”,在這場AI帶來的新變革中,企業紛紛緊跟時代浪潮,建立自己的大模型。
但隨著大模型產業的快速發展,模型規模的快速膨脹,AIGC模型預訓練數據量呈現指數級增長,帶動算力需求爆發。從GPT-1到GPT-3,模型參數量從GPT-1的1.17億增加到GPT-3的1750億;訓練數據量也由GPT-1的5GB,增加到GPT-3的45TB。這也就導致面向AI大模型的數據準備時間長,數據來源分散,歸集慢。
華為數據存儲產品線總裁周躍峰表示,第一,在大模型訓練過程中,需要把分散到各個地方的數據進行歸集、預處理,然后再把它送給AI大模型。數據預處理的過程非常長,統計發現,上百個TB級的數據可能需要大概10天左右的準備時間,這個對于整個系統的高效利用是不利的;第二,多模態大模型以海量文本、圖片為訓練集,當前海量小文件的加載速度不足100MB/s,訓練集加載效率低;第三,大模型參數頻繁調優,訓練平臺不穩定,平均約2天出現一次訓練中斷,需要Checkpoint機制恢復訓練,故障恢復耗時超過一天;第四,大模型實施門檻高,系統搭建繁雜,資源調度難,GPU資源利用率通常不到40%。
周躍峰認為,AI大模型在進入各個企業的時候,實施門檻還是非常高,它需要非常專業的軟件、硬件甚至是維護工程師來進行實施并進行后續的維護。同時可以看到今天的大模型和算力的應用尤其是GPU的應用相對還是比較簡單、傳統的裸機系統,GPU資源的利用效率相對來說比較低。
存儲需求上升
“大模型時代,數據決定AI智能的高度。作為數據的載體,數據存儲成為AI大模型的關鍵基礎設施?!敝苘S峰表示。數據存儲成為解決AI大模型發展瓶頸的關鍵。
周躍峰解釋道:“目前大模型算力成本約占整個成本的25%,而數據清洗、預處理等工作,在不算數據存儲硬件的情況下,占到成本的22%。從這個角度看,數據機器存儲過程,在大模型時代越來越重要。這不僅僅是簡單的數據量變大,而且數據的處理過程,以及過程中對于硬件性能的要求越來越高?!彼J為,隨著大模型出現,數據存儲和處理相關領域未來會越來越有前景。
華為蘇黎士研究所數據存儲首席科學家張霽也認為,隨著數據源日趨豐富,很多企業開始關注數據安全問題,而數據存儲是數據安全的第一道防線。
為此,華為推出了OceanStor A310深度學習數據湖存儲與FusionCube A3000訓/推超融合一體機。
其中,OceanStor A310深度學習數據湖存儲,在數據準備到斷點接續,再到整個訓練/推理一條鏈的過程發力,用近存計算和高性能分布式文件存儲系統,實現從數據歸集、預處理到模型訓練、推理應用的AI全流程海量數據管理,為企業解決數據底座問題。
FusionCube A3000訓/推超融合一體機面向行業大模型訓練/推理場景,針對百億級模型應用,可提供拎包入住式的部署體驗。周躍峰表示,通過一體機方式,納入所有軟件,降低企業使用門檻,實現資源高效利用?!拔覀円蚕Mㄟ^這個手段,助推中國的AI成為真正的所謂的普惠AI,而不是頭部企業用的先進工具,而是讓它成為普適性的工具?!?/p>
對此,華為分布式存儲領域副總裁韓振興表示:“我們在這方面已經籌備了兩三年,因為我們之前就看到了AI的大趨勢。當然我們也確實是沒有預料到它突然爆發,但我們在很早就進行了籌備。所以當看到大模型開始的時候,便發布了這兩個新品,它們的性能指標高于整個業界60%以上?!?/p>