職位描述
職責描述:1. 設(shè)計并開發(fā)分布式機器學(xué)習(xí)訓(xùn)練平臺和訓(xùn)練引擎;構(gòu)建萬卡集群架構(gòu)及混合云架構(gòu);2. 優(yōu)化訓(xùn)練引擎的計算、通信與存儲性能,包括GPU資源利用率、數(shù)據(jù)流水線、存儲和網(wǎng)絡(luò)架構(gòu)等關(guān)鍵環(huán)節(jié);3. 實現(xiàn)訓(xùn)練任務(wù)的自動容錯、動態(tài)擴縮容與資源調(diào)度策略,提升集群資源利用率;4. 與算法團隊緊密合作,抽象通用訓(xùn)練模式,提供靈活易用的API接口。任職要求:1.計算機、電子信息、機器人等專業(yè)碩士及以上學(xué)歷;2. 具有5年及以上訓(xùn)練系統(tǒng)開發(fā)或機器學(xué)習(xí)平臺架構(gòu)經(jīng)驗;3. 熟練使用至少一種深度學(xué)習(xí)訓(xùn)練框架并理解其設(shè)計架構(gòu)(Pytorch/Tensorflow/MindSpore/Paddle等);4. 熟悉機器學(xué)習(xí)開發(fā)流程,熟練使用Docker/K8S/KuberFlow等基礎(chǔ)設(shè)施,具備較好的問題解決能力;5. 具備良好的系統(tǒng)設(shè)計和問題解決能力,能夠獨立設(shè)計和優(yōu)化復(fù)雜的架構(gòu),愿意探索和追蹤前沿技術(shù)。優(yōu)先條件:1. 有成功的大規(guī)模機器學(xué)習(xí)平臺建設(shè)經(jīng)驗者優(yōu)先;2. 有大數(shù)據(jù)計算/存儲/通信等系統(tǒng)級優(yōu)化經(jīng)驗;3. 熟悉MegatronDeepSpeedColossalAIOneFlow等開源框架以及分布式訓(xùn)練集群架構(gòu)者優(yōu)先。
企業(yè)介紹
卓馭提供量產(chǎn)輔助駕駛和高級別自動駕駛系統(tǒng)(涵蓋L2~L4)及自研核心零部件,為多種價位多種動力類型的乘用車提供靈活多樣的量產(chǎn)輔助駕駛解決方案。卓馭幫助合作伙伴解決難題,服務(wù)消費者提升體驗,推動汽車智能化能力的全面普及。卓馭起步于2016年,從車載項目小組逐步發(fā)展為組織建制完整的獨立公司。憑借多年積累的感知、機器學(xué)習(xí)、定位、決策、規(guī)劃、控制技術(shù)與智能硬件的量產(chǎn)經(jīng)驗,以及高規(guī)格的流程體系、產(chǎn)品安全、網(wǎng)絡(luò)安全等車規(guī)全棧認證,持續(xù)為車企客戶帶來先進好用可落地的輔助駕駛解決方案。目前卓馭已獲得大量主流汽車品牌合作項目,量產(chǎn)項目不斷上市。卓馭擁有涵蓋銷售、研發(fā)、制造、供應(yīng)鏈、質(zhì)量及各職能部門的完整建制組織,截止2024年底,核心研發(fā)人員超2000人,覆蓋感知、決策規(guī)劃、高性能計算、功能安全、系統(tǒng)工程等專業(yè)領(lǐng)域。在智能制造與質(zhì)量體系建設(shè)方面,卓馭亦建立起一支超過400人的工程團隊,其中90%的工程師來自知名OEM與Tier1廠商,可為智能技術(shù)量產(chǎn)提供強力支持。