發(fā)放方式:每月15日?????
1、持續(xù)優(yōu)化開源RL量化模型,能夠根據(jù)實際優(yōu)化目標確定方案,并且在強化學(xué)習(xí)各類方法中持續(xù)迭代。
2、負責深度強化學(xué)習(xí)(DRL)算法的研究、設(shè)計與工程實現(xiàn),涵蓋單智能體與多智能體場景;
3、開發(fā)并迭代經(jīng)典與前沿算法(如 DQN、PPO、SAC、TD3、A3C、MAPPO 等),提升樣本效率與收斂速度;
4、搭建端到端訓(xùn)練與評估量化交易的流水線,包括環(huán)境接口封裝、數(shù)據(jù)采集、指標監(jiān)控與超參調(diào)優(yōu);
5、設(shè)計能夠在模擬量化交易和真實交易場景中進行算法驗證與性能優(yōu)化;
1、計算機相關(guān)專業(yè)碩士及以上學(xué)歷
2、熟練掌握大模型continue pretrain, SFT, RLHF等優(yōu)化模型方法,能夠獨立開展相關(guān)研發(fā)工作,有大模型RL agent應(yīng)用落地經(jīng)驗者優(yōu)先;
3、持續(xù)跟蹤RL領(lǐng)域的最新進展,并結(jié)合自身業(yè)務(wù)能提出見解,拓展業(yè)務(wù)邊界;
4、扎實的代碼功底和工程開發(fā)能力,精通Linux 平合下的C++/Python 語言開發(fā),熟練掌握 llama-factory,verl等訓(xùn)練框架;對AGNET-TARS, Camel等agent框架有深入理解;
5、目標感強,善于分析和發(fā)現(xiàn)問題,拆解簡化,有較好的溝通和推動能力;
6、優(yōu)先考慮在 ACL、 EMNLP、NAACL、 NeurlPS、 ICLR、ICML 等會議發(fā)表論文的候選人。
7、ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比賽獲獎?wù)邇?yōu)先。
在求職過程中如果遇到扣押證件、收取押金、提供擔保、強迫入股集資、解凍資金、詐騙傳銷、求職歧視、黑中介、人身攻擊、惡意騷擾、惡意營銷、虛假宣傳或其他違法違規(guī)行為。請及時保留證據(jù),立即向平臺舉報投訴,必要時可以報警、起訴,維護自己的合法權(quán)益。
