崗位職責:
搭建AI平臺底層基礎(chǔ)設施,保障資源調(diào)度與容器化部署,支撐大規(guī)模AI訓練與推理任務的高效運行。
1.設計基于OpenStack/Kubernetes的混合云平臺,支持跨數(shù)據(jù)中心資源調(diào)度
2.構(gòu)建多集群管理方案,實現(xiàn)AI算力資源(CPU/GPU/NPU)的統(tǒng)一納管與動態(tài)分配
3.設計Ceph分布式存儲集群,優(yōu)化AI訓練數(shù)據(jù)集訪問性能
4.優(yōu)化網(wǎng)絡虛擬化技術(shù),提升AI模型訓練/推理吞吐量
5.開發(fā)智能調(diào)度算法,動態(tài)平衡計算資源與任務優(yōu)先級
6.優(yōu)化容器編排及自動化運維方案
7.實現(xiàn)AI算力資源的動態(tài)分配與監(jiān)控
任職要求:
1.5年以上云計算開發(fā)經(jīng)驗,本科及以上學歷,計算機相關(guān)專業(yè)
2.精通OpenStack/Kubernetes的部署及使用,有解決生產(chǎn)環(huán)境問題的經(jīng)驗
3.熟練掌握Linux環(huán)境編程,熟練掌握Python及相關(guān)衍生技術(shù)棧
4.熟悉分布式存儲(如Ceph)及網(wǎng)絡虛擬化技術(shù)
5.深入理解Kubernetes調(diào)度器、CRI運行時等核心模塊源碼
6.掌握OpenStack Nova/Neutron組件二次開發(fā),熟悉虛擬化技術(shù)(KVM/QEMU)
7.有AI算力池建設經(jīng)驗(如GPU資源池化、彈性訓練框架集成)
8.熟悉國產(chǎn)化云平臺(如OpenEuler+KubeEdge)適配改造