各大行业职位任你选
首次验证通过即注册BOSS直聘账号职位描述
1. 负责研发大语言模型强化学习算法,提升大模型在强化学习阶段的训练效率,以及提升大模型在数学、代码等自然科学领域的推理能力
2. 负责研发奖励和评价模型,包括细粒度的过程监督和奖励建模,覆盖复杂推理、指令遵循等各种任务
3. 参与后训练和推理阶段的Scaling Law研究,包括奖励模型训练、强化学习训练、推理阶段的Scaling Law
职位要求:
1. 硕士及以上学历,计算机科学或相关专业背景
2. 有大模型相关的研究经历,在post-training方向具备一定的训练经验,熟悉奖励模型建模,PPO/REINFORCE/RLOO等主流强化学习算法
3. 具备扎实的算法工程实现能力,熟悉Python编程语言和PyTorch深度学习框架,熟悉DeepSpeed/Megatron等主流分布式训练框架
4. 具备良好的分析和问题解决能力、优秀的工程素养,能够独立思考和解决实际问题
5. 具备较强的团队合作能力和沟通能力,能够与工程团队、业务团队、产品团队和其他技术团队紧密配合
加分项:
1. 在语言大模型和机器学习领域有科研或实践经验,在国际顶级会议/期刊发表过高质量论文
2. 在大数据处理、大规模分布式计算、分布式训练等

张先生 刚刚活跃
竞争力分析


BOSS 安全提示
BOSS直聘严禁用人单位和招聘者用户做出任何损害求职者合法权益的违法违规行为,包括但不限于扣押求职者证件、收取求职者财物、向求职者集资、让求职者入股、诱导求职者异地入职、异地参加培训、违法违规使用求职者简历等,您一旦发现此类行为, 请立即举报
了解更多职场安全防范知识工商信息
- 公司名称广东美的制冷设备有限公司
- 法定代表人王建国
- 成立日期2004-10-22
- 企业类型有限责任公司(中外合资)
- 经营状态存续
- 注册资金85400万人民币
工作地址

点击查看地图
精选职位
页面更新时间:2025-04-27