職位描述
工作內(nèi)容 :1.大模型數(shù)據(jù)體系建設(shè):構(gòu)建多語言和多模態(tài)的數(shù)據(jù)處理流程和實(shí)驗(yàn)鏈路,優(yōu)化數(shù)據(jù)的篩選與配比策略,探索動(dòng)態(tài)數(shù)據(jù)調(diào)整、多階段訓(xùn)練和課程學(xué)習(xí)等方法提升數(shù)據(jù)質(zhì)量和多樣性,優(yōu)化大模型的訓(xùn)練效果;2.合成數(shù)據(jù)探索:探索大規(guī)模合成數(shù)據(jù)方法,應(yīng)用于復(fù)雜任務(wù)、推理、代碼和多模態(tài)等場景。制定合成數(shù)據(jù)在預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)等不同訓(xùn)練階段的應(yīng)用策略,并深入研究數(shù)據(jù)擴(kuò)展規(guī)模定律、數(shù)據(jù)多樣性和模型坍塌等基礎(chǔ)問題,推動(dòng)數(shù)據(jù)驅(qū)動(dòng)的性能突破。職位要求:1.扎實(shí)的算法功底,熟悉自然語言處理和機(jī)器學(xué)習(xí)技術(shù),對大模型和AGI有信仰;2.熟悉Python/Java等編程語言,動(dòng)手能力強(qiáng),ACM/ICPC、NOI/IOI等比賽獲獎(jiǎng)?wù)邇?yōu)先;3.熟悉PyTorch/Megtron/Huggingface等框架并有實(shí)際項(xiàng)目經(jīng)驗(yàn);4.熟悉Transformer/BERT/GPT等主流模型,有大模型預(yù)訓(xùn)練、對齊、強(qiáng)化等經(jīng)驗(yàn);5.在領(lǐng)域內(nèi)頂級會(huì)議或期刊發(fā)表過高水平論文,主導(dǎo)或參與過有影響力的開源項(xiàng)目,在權(quán)威評測或比賽中取得優(yōu)秀名次者優(yōu)先。符合京東價(jià)值觀:客戶為先、創(chuàng)新、拼搏、擔(dān)當(dāng)、感恩、誠信。
企業(yè)介紹
京東科技集團(tuán)是京東集團(tuán)旗下專注于以技術(shù)為產(chǎn)業(yè)服務(wù)的業(yè)務(wù)子集團(tuán),致力于為企業(yè)、金融機(jī)構(gòu)、政府等客戶提供全價(jià)值鏈的技術(shù)性產(chǎn)品與解決方案。依托人工智能、大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)前沿科技能力,京東科技打造出了面向不同行業(yè)的產(chǎn)品和解決方案,以此幫助全社會(huì)各行業(yè)企業(yè)降低供應(yīng)鏈成本,提升運(yùn)營效率,成為值得產(chǎn)業(yè)信賴的數(shù)字合作伙伴。融合了原京東數(shù)科及云與AI兩大技術(shù)業(yè)務(wù)板塊,京東科技現(xiàn)已成為整個(gè)京東集團(tuán)對外提供技術(shù)服務(wù)的核心輸出平臺(tái),擁有豐富的產(chǎn)業(yè)理解力、深厚的風(fēng)險(xiǎn)管理能力、用戶運(yùn)營能力和企業(yè)服務(wù)能力,能面向不同行業(yè)為客戶提供行業(yè)應(yīng)用、產(chǎn)品開發(fā)與產(chǎn)業(yè)數(shù)字化服務(wù)。截至2020年6月末,在政府及其他客戶服務(wù)領(lǐng)域,京東科技服務(wù)了超過40家城市公共服務(wù)機(jī)構(gòu),在全國建立了50多個(gè)城市云服務(wù)基地,此外也建立了龐大的線下物聯(lián)網(wǎng)營銷平臺(tái),擁有自營和聯(lián)盟媒體點(diǎn)位數(shù)超過1,500萬,覆蓋全國超過300座城市以及6億多人次;在金融機(jī)構(gòu)服務(wù)領(lǐng)域,京東科技已為包括銀行、保險(xiǎn)、基金、信托、證券公司在內(nèi)的超600家各類金融機(jī)構(gòu)提供了多層次數(shù)字化解決方案;在商戶與企業(yè)服務(wù)領(lǐng)域,已為超100萬家小微商戶、超20萬家中小企業(yè)、超700家大型商業(yè)中心等提供了包括業(yè)務(wù)和技術(shù)在內(nèi)的數(shù)字化解決方案。目前京東科技擁有1萬多名員工,其中70%以上為研發(fā)和專業(yè)人員,并且擁有多位入選IEEE Fellow的科學(xué)家。截止2020年底,集團(tuán)累計(jì)申請專利3540個(gè),在AAAI、IJCAI、CVPR、KDD、NeurIPS、ICML、ACL、ICASSP等國際AI會(huì)議上共發(fā)表相關(guān)論文近350篇。在人工智能領(lǐng)域,京東科技在語音與聲學(xué)、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、知識圖譜、語義、對話等技術(shù)領(lǐng)域不斷深耕,并已在多項(xiàng)國際性學(xué)術(shù)賽事中斬獲19項(xiàng)世界頭名榮譽(yù),與美國斯坦福大學(xué)、中國科技大學(xué)等多所國內(nèi)外高校合作建立人工智能實(shí)驗(yàn)室,充分展開產(chǎn)學(xué)研一體化實(shí)踐。此外,在國際獨(dú)立權(quán)威調(diào)研機(jī)構(gòu)Forrester最新發(fā)布的《中國預(yù)測分析與機(jī)器學(xué)習(xí)解決方案廠商評測2020Q4》中,京東科技參評,躋身“不凡表現(xiàn)者”領(lǐng)域,同時(shí)京東NeuHub人工智能開放平臺(tái)累計(jì)調(diào)用量已高達(dá)萬億次。在云計(jì)算領(lǐng)域,截至目前,京東科技累計(jì)建基地及落地城市云超過50個(gè),注冊用戶超過87萬,4萬+企業(yè)用戶,實(shí)現(xiàn)100%云上訂單,擁有全球排名前列規(guī)模Docker集群之一和中國排名前列的GPU集群之一。在物聯(lián)網(wǎng)領(lǐng)域,京東科技在2014年率先進(jìn)行業(yè)務(wù)布局并發(fā)布自主研發(fā)、跨品牌、跨品類的智能家居互聯(lián)互通平臺(tái)。目前,IoT平臺(tái)連接高質(zhì)量設(shè)備超2億臺(tái);連接設(shè)備品類超230種;品牌超1000家;連接超4000款智能家居設(shè)備,交互次數(shù)超過27億;累計(jì)服務(wù)2600萬家庭。在區(qū)塊鏈領(lǐng)域,京東科技研發(fā)了自主可控、全面開源的底層引擎,并打造了業(yè)界知名的“京東智臻鏈”技術(shù)品牌,其中,“智臻鏈防偽追溯平臺(tái)”已合作品牌商超1,000 家,落鏈數(shù)據(jù)超10 億級,消費(fèi)者“品質(zhì)溯源”查詢次數(shù)超750 萬次。依托京東集團(tuán)整體深厚的生態(tài)平臺(tái)與長期積累的技術(shù)實(shí)力,京東科技參與了多個(gè)國家重大科研項(xiàng)目:入選人工智能“國家隊(duì)”——科技部國家人工智能開放創(chuàng)新平臺(tái)名單,承擔(dān)起建設(shè)國家“新一代智能供應(yīng)鏈人工智能開放創(chuàng)新平臺(tái)”的重任;牽頭承擔(dān)科技部國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目“國家中心城市數(shù)據(jù)管控與知識萃取技術(shù)和系統(tǒng)應(yīng)用”、“國家新區(qū)數(shù)字孿生系統(tǒng)與融合網(wǎng)絡(luò)計(jì)算體系建設(shè)”、工信部公共服務(wù)平臺(tái)建設(shè)項(xiàng)目“面向人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)的應(yīng)用場景公共服務(wù)平臺(tái)建設(shè)”等多個(gè)國家科研項(xiàng)目。京東科技是科技創(chuàng)新與實(shí)體產(chǎn)業(yè)深度融合的數(shù)智化企業(yè),它脫胎于對供應(yīng)鏈的深刻理解和行業(yè)洞察,發(fā)展于對互聯(lián)網(wǎng)技術(shù)的突破創(chuàng)新,成長于對實(shí)體經(jīng)濟(jì)的服務(wù)和價(jià)值創(chuàng)造。