新策略:建構自主可控的主權AI能力
鑑於當前的地緣政治局勢與對資料主權的日益重視,我們的AI策略必須從「純雲端優先」轉向「混合雲與自主可控優先」。這意味著我們將大幅降低對單一公有雲AI服務的依賴,轉而投資建構自己的私有AI平台。此舉不僅是為了規避供應商鎖定與潛在的服務中斷風險,更是為了將AI核心能力內化,打造真正屬於企業的、可信賴的、具長期競爭力的智慧資產。這是一項長期而艱鉅的工程,需要穩健的規劃與持續的投入。
核心挑戰轉變
自主建構AI平台,意味著我們面臨的挑戰與純雲端方案截然不同。成功關鍵在於駕馭以下三大核心領域的複雜性:
硬體與基礎設施
從GPU採購、機房建置到多供應商(NVIDIA, AMD, Intel)硬體的整合與管理,對平台團隊的硬體工程能力提出極高要求。
軟體堆疊與整合
需自行搭建從底層Kubernetes、儲存,到上層MLOps、資料庫等完整開源軟體堆疊,整合難度遠高於使用雲端託管服務。
人才與維運
需要具備能管理複雜混合雲環境的SRE、MLOps及平台工程師。人才的招聘、培養與留任是長期挑戰。
務實的多年發展藍圖
我們提出一個為期超過兩年的四階段發展藍圖。此藍圖清晰地劃分了平台、資料、應用三個團隊在不同階段的任務與目標,並強調了他們之間的依賴關係。這是一個務實的計畫,旨在穩固地建立起我們的自主AI能力。
團隊協同作戰:價值傳遞鏈
在自主建構的模式下,三個團隊形成一條緊密的價值傳遞鏈。平台團隊提供穩定的「土地」,資料團隊在上面建設「工廠」,應用團隊最終產出「商品」。任何環節的延遲都會影響最終產出,因此跨團隊的溝通與協同至關重要。
平台團隊
提供運算、儲存與MLOps基礎設施
資料團隊
提供資料管道與RAG服務API
應用團隊
開發面向終端使用者的AI應用
自主AI技術堆疊
我們的私有AI平台將由多層次的開源與商業技術堆疊而成。滑鼠懸停在不同層級上可查看關鍵技術選項。
應用層 (Application)
前端: React, Vue
應用: 知識管理系統, 程式碼助手
資料與模型層 (Data & Models)
LLM模型: Llama3, Mistral, Mixtral (開源)
資料處理: Apache Spark, Airflow
MLOps與維運層 (MLOps & Orchestration)
實驗追蹤: MLflow, DVC
監控: Prometheus, Grafana
基礎設施層 (Infrastructure)
儲存: Ceph, MinIO (物件儲存)
網路: InfiniBand, RoCE
風險管理與治理框架
自主建構平台引入了新的風險維度。我們必須主動管理這些風險,以確保平台的穩定與安全。點擊風險項目可查看緩解策略。
硬體供應鏈風險
GPU等關鍵硬體交期長、價格波動大,可能嚴重影響計畫時程。
多供應商整合風險
整合不同廠牌的硬體與軟體堆疊,可能遭遇驅動程式、函式庫不相容等問題。
專業人才短缺風險
市場上熟悉私有AI平台建置與維運的人才稀缺且昂貴。
物理與網路安全風險
需自行負責資料中心的物理安全、網路存取控制與威脅防禦。
成本超支風險
初期硬體投資巨大,且長期維運、電力、人力成本難以精確預估。
開源軟體風險
依賴開源軟體可能面臨版本迭代、社群支援中斷或潛在安全漏洞等問題。