AI 訓練服務(UAI-Train)是面向AI訓練任務的大規模分布式計算平臺:基于P40的GPU云主機集群,為用戶提供最高達192TFlops的單精度計算能力;提供一站式訓練任務托管服務,自動化解決計算節點調度、訓練環境準備、數據上傳下載以及容災等問題;按需收費,成本可控,靈活便捷。
支持最高1機4卡P40節點,單機高達48TFlops的單精度計算能力。通過分布式擴展,最高可達192TFlops 單精度計算能力。
系統自動進行GPU節點調度,數據上傳下載,任務容災等工作,無須用戶擔心。
提供訓練任務標準輸出日志轉發和TensorBoard轉發功能,用戶可實時監控訓練狀態。
不同訓練任務數據間相互隔離、安全可靠。
操作簡單上手,提供可視化任務管理工具,提供交互式代碼調試工具。
按照實際計算消耗付費,收費更靈活、便捷,無需擔心資源浪費。
支持AI領域各種訓練任務:
提供圖形化任務部署界面,支持新建、查詢、中止、刪除等訓練任務管理操作。
支持TensorFlow和MXNet分布式訓練,自動配置分布式訓練節點和環境。
支持基于Jupyter的交互式訓練,用戶定制訓練環境、實時交互、隨時啟停。
支持實時查看訓練任務標準輸出日志。
支持實時查看TensorBoard。