崗位職責:
1、從事大語言模型(LLM)預訓練算法研究、訓練、應用,涉及多語言、知識增強、模型性能提升等方面;
2、基于RLHF范式的PPO強化學習算法優(yōu)化NLP模型生成效果,減少有害、敏感或偏見相關回復;
3、支持公司通用類和垂類大模型中的強化學習模塊研發(fā)。
?
崗位要求:
1、碩士及以上學歷,計算機、數(shù)學或自動化等相關專業(yè),兩年以上強化學習相關工作經(jīng)驗;
2、熟悉?actor-critic、Q-learning、PPO、off-policy?RL等強化學習算法,有完整訓練過PPO算法經(jīng)驗優(yōu)先;
3、對?RLHF基本原理有深入理解,有指導0-1構建數(shù)據(jù)集能力?和?訓練?RM模型經(jīng)驗者優(yōu)先;
4、追蹤了解業(yè)績最新研究成果,包括但不限于instructGPT、LLaMA等大模型;
5、在ICML、ICLR、NeurIPS、AAAI等會議或期刊上發(fā)表過論文者優(yōu)先。
6、具備良好的溝通能力,跨團隊協(xié)作能力,出色的規(guī)劃、執(zhí)行力,強烈的責任感,以及優(yōu)秀的學習能力。
職位福利:餐補、節(jié)日福利、交通補助、七險二金
職位亮點:央企正編,七險二金,餐補交通補貼