職位描述
核心職責? Kubernetes平臺建設? 1、設計并部署高可用K8s集群,優(yōu)化存儲(如Longhorn/Ceph)、網(wǎng)絡(Calico/Cilium)、監(jiān)控(Prometheus/Grafana)及日志(EFK/Loki)體系。 2、開發(fā)自動化運維工具,實現(xiàn)集群擴縮容、故障自愈、安全加固(RBAC/OPA/網(wǎng)絡策略)。 3、支持混合云/多云架構,整合公有云(AWS?EKS/AKS/GKE)與私有化資源。 CI/CD流水線設計與開發(fā)1、構建AI場景下的CI/CD全鏈路工具鏈,集成代碼管理(GitLab/GitHub)、流水線設計(Jenkins)、鏡像構建(Kaniko/Docker)、自動化測試(單元/集成/壓力測試)、滾動發(fā)布(Argo?Rollouts)及制品倉庫(Harbor/Nexus)。 2、實現(xiàn)AI模型訓練的CI/CD流程,支持分布式訓練任務調度、模型版本管理(MLflow/DVC)及自動化部署(KServe/Seldon)。 3、開發(fā)自定義GitOps工作流(Argo?CD/Flux),提升發(fā)布效率和可觀測性。 云容器開發(fā)環(huán)境? 1、搭建容器化AI開發(fā)機(基于VS?Code?Remote/NVIDIA?Container?Toolkit),支持GPU直通、代碼熱加載及多人協(xié)作。 2、優(yōu)化開發(fā)環(huán)境資源調度,按需分配CPU/GPU資源,降低閑置成本。 3、集成JupyterLab、PyCharm等IDE插件,提供開箱即用的AI研發(fā)環(huán)境。 GPU虛擬化與資源調度1、實現(xiàn)GPU虛擬化方案(vGPU/MIG/Kubevirt),支持細粒度資源切割(如1/8?GPU卡調度)。 2、開發(fā)K8s?GPU調度插件(如KubeShare/Gpu-Share),優(yōu)化AI任務排隊、搶占及資源利用率。 3、監(jiān)控GPU使用率、顯存占用及溫度,設計智能調度策略(結合Prometheus+自定義Operator)。 AI?Infra架構支持? 1、構建支持大規(guī)模分布式訓練的基礎設施,集成PyTorch?Distributed/Horovod等框架。 2、優(yōu)化模型推理服務(Triton/TorchServe),實現(xiàn)自動擴縮容、金絲雀發(fā)布及A/B測試。 3、與數(shù)據(jù)團隊協(xié)作,打通數(shù)據(jù)流水線(Kafka/Airflow)、特征存儲(Feast)與模型服務鏈路。 任職要求? 技術能力? 1、精通Kubernetes生態(tài)(Helm/Operator/CRD)及至少一種公有云容器服務(ACK/EKS/GKE)。 2、熟悉CI/CD工具鏈(Jenkins/GitLab?CI/Argo),具備Pipeline即代碼(Jenkinsfile/GitLab?CI?YAML)開發(fā)經(jīng)驗。 3、掌握GPU虛擬化技術(vGPU/MIG/Kubevirt)及調度策略,有NVIDIA?Docker/Kubernetes?Device?Plugin實戰(zhàn)經(jīng)驗。 4、熟悉AI研發(fā)流程(模型訓練/部署/監(jiān)控),了解MLOps工具鏈(MLflow/Kubeflow)。 5、熟練使用Python/Go開發(fā)運維腳本或Operator,具備自動化運維平臺開發(fā)經(jīng)驗。 經(jīng)驗要求? 1、3年以上云原生運維開發(fā)經(jīng)驗,主導過K8s集群搭建或AI?Infra建設項目。 2、有大規(guī)模GPU集群(50+節(jié)點)管理或性能調優(yōu)經(jīng)驗者優(yōu)先。 3、 熟悉Infra-as-Code(Terraform/Ansible)及監(jiān)控告警體系(****Manager/Thanos)者優(yōu)先。
企業(yè)介紹
傅利葉智能成立于2015年,是一家通用機器人平臺型企業(yè),以全棧式機器人核心技術為基石、以創(chuàng)新型機器人本體產(chǎn)品為載體,致力于通過智能技術變革各行各業(yè),讓人人享有美好生活。公司總部坐落于上海張江,聯(lián)動新加坡海外總部,構建國際化的研發(fā)、生產(chǎn)和銷售服務網(wǎng)絡。成立至今,傅利葉智能陸續(xù)獲得IDG、國中資本、沙特阿美、張江科投、軟銀愿景等國內外多家頂尖機構投資近10億元融資,并榮獲國家重點“專精特新”小巨人企業(yè)、工信部新一代人工智能技術攻關揭榜企業(yè)、上海市小巨人企業(yè)、上海市企業(yè)技術中心、中國工業(yè)設計獎等榮譽獎項。傅利葉智能自創(chuàng)立伊始,堅持聚焦通用機器人底層技術,不斷攻克核心零部件(執(zhí)行、感知)能力瓶頸,力爭以高性能機器人本體,為各類行業(yè)場景提供技術開放平臺,讓機器人技術真正通用化、普及化。公司研發(fā)團隊達數(shù)百名,覆蓋機械電子、軟件算法、工程測試等機器人領域全板塊,并自建高技術密度、醫(yī)療級機器人產(chǎn)品量產(chǎn)交付能力。2023年中,傅利葉智能正式發(fā)布首款通用雙足機器人產(chǎn)品GR-1,該產(chǎn)品具備流暢的外觀、優(yōu)異的運動能力,并將領先實現(xiàn)量產(chǎn)交付,在技術水平,商業(yè)化進展上皆具備全球突破性,引起行業(yè)廣泛專注。同時,傅利葉智能也已將通用機器人技術在醫(yī)療康復場景實現(xiàn)規(guī)模化應用,通過“智能康復港”產(chǎn)品矩陣,累計為全球超過40個國家和地區(qū)的2000多家客戶提供高性能康復機器人及綜合性解決方案。