1.研發(fā)分布式訓(xùn)練加速方案,優(yōu)化并行策略方案例如:DP/TP/PP/MP/CP,提升千億參數(shù)模型訓(xùn)練吞吐量;
2.設(shè)計混合精度訓(xùn)練與顯存優(yōu)化方案,開發(fā)自適應(yīng)梯度壓縮、通信優(yōu)化模塊,實(shí)現(xiàn)單卡訓(xùn)練模型規(guī)模提升和降低分布式訓(xùn)練通信開銷;
3.開發(fā)量化壓縮工具鏈(支持GPTQ/AWQ等算法),實(shí)現(xiàn)模型8/4-bit無損量化部署;
4.設(shè)計多GPU推理調(diào)度策略,優(yōu)化顯存碎片管理與計算資源利用率;
5.跟進(jìn)vLLM/TensorRT-LLM/SGLang等前沿框架,探索MoE架構(gòu)/稀疏化訓(xùn)練等新型范式,將最新學(xué)術(shù)成果快速落地到工程實(shí)踐。
職位要求:
1.計算機(jī)相關(guān)專業(yè)碩士及以上學(xué)歷,3 年LLM系統(tǒng)優(yōu)化經(jīng)驗;
2.精通PyTorch/TensorFlow框架底層機(jī)制,具備CUDA/C 內(nèi)核開發(fā)能力;
3.掌握Megatron-LM/DeepSpeed/HuggingFace生態(tài)核心原理;
4.有千億參數(shù)模型訓(xùn)練優(yōu)化或百萬QPS推理服務(wù)落地經(jīng)驗者優(yōu)先;
5.熟悉NVIDIA GPU架構(gòu)與性能分析工具;
6.熟悉大模型推理服務(wù)架構(gòu)設(shè)計與微服務(wù)化部署。



-
IT服務(wù)·系統(tǒng)集成
-
500-999人
-
股份制企業(yè)
-
越城區(qū)曲屯路398號聯(lián)合大廈16層
-
物業(yè)投資拓展經(jīng)理 10000-15000元大渡口區(qū) 3年以上 本科成都市佳兆業(yè)物業(yè)管理有限公司
-
經(jīng)營預(yù)算員 面議大渡口區(qū) 應(yīng)屆畢業(yè)生 不限中冶建工集團(tuán)有限公司
-
供應(yīng)鏈-工藝技術(shù)見習(xí)工程師-重慶 5000-7000元大渡口區(qū) 應(yīng)屆畢業(yè)生 不限杭州海康威視數(shù)字技術(shù)股份有限公司
-
夜班領(lǐng)班/組長 面議大渡口區(qū) 應(yīng)屆畢業(yè)生 不限沃爾瑪(中國)投資有限公司
-
物業(yè)工程領(lǐng)班(南京秦淮) 面議大渡口區(qū) 應(yīng)屆畢業(yè)生 不限深圳天安智慧園區(qū)運(yùn)營有限公司
-
小時工240/天超輕松 面議大渡口區(qū) 應(yīng)屆畢業(yè)生 不限重慶夢然人力資源管理有限公司