1、負(fù)責(zé)公司算力平臺(tái)的架構(gòu)設(shè)計(jì)、部署、運(yùn)維與性能優(yōu)化,確保高效穩(wěn)定運(yùn)行。
2、開發(fā)與管理分布式計(jì)算、GPU/FPGA集群及高性能計(jì)算(HPC)環(huán)境,支撐業(yè)務(wù)算力需求。
3、設(shè)計(jì)算力資源調(diào)度策略,提升資源利用率和任務(wù)執(zhí)行效率。
4、監(jiān)控算力平臺(tái)運(yùn)行狀態(tài),及時(shí)定位并解決故障,保障系統(tǒng)安全與可靠性。
5、研究前沿算力技術(shù)(如異構(gòu)計(jì)算、并行計(jì)算等),推動(dòng)技術(shù)落地與業(yè)務(wù)場景結(jié)合。
6、協(xié)同算法、數(shù)據(jù)團(tuán)隊(duì)優(yōu)化計(jì)算任務(wù),降低資源消耗與成本。
1、本科及以上學(xué)歷,計(jì)算機(jī)、電子工程、高性能計(jì)算等相關(guān)專業(yè);
2、3年以上算力平臺(tái)開發(fā)、運(yùn)維或高性能計(jì)算相關(guān)經(jīng)驗(yàn);
3、熟悉以下至少一項(xiàng)技術(shù):分布式計(jì)算框架(如Kubernetes、Slurm、Spark等);GPU/FPGA編程(CUDA、OpenCL)或異構(gòu)計(jì)算優(yōu)化;
4、高性能計(jì)算集群管理與調(diào)度工具(如LSF、PBS);
5、掌握Linux系統(tǒng),熟悉腳本語言(Python/Shell)及C/C++等開發(fā)語言;
6、具備大規(guī)模算力資源監(jiān)控、故障診斷與性能調(diào)優(yōu)能力。
7、具備較強(qiáng)的團(tuán)隊(duì)協(xié)作和解決問題能力,對(duì)技術(shù)有熱情。
在求職過程中如果遇到扣押證件、收取押金、提供擔(dān)保、強(qiáng)迫入股集資、解凍資金、詐騙傳銷、求職歧視、黑中介、人身攻擊、惡意騷擾、惡意營銷、虛假宣傳或其他違法違規(guī)行為。請(qǐng)及時(shí)保留證據(jù),立即向平臺(tái)舉報(bào)投訴,必要時(shí)可以報(bào)警、起訴,維護(hù)自己的合法權(quán)益。
