招聘中

强化学习算法专家

50-80K·18薪

广州 5-10年 硕士

...
五险一金定期体检带薪年假餐补交通补助节日福利零食下午茶
五险一金定期体检带薪年假餐补交通补助节日福利零食下午茶
强化学习算法专家 50-80K·18薪
...
五险一金定期体检带薪年假餐补交通补助节日福利零食下午茶
五险一金定期体检带薪年假餐补交通补助节日福利零食下午茶
广东美的制冷有限公司 查看所有职位

各大行业职位任你选

首次验证通过即注册BOSS直聘账号
+86
已阅读并同意BOSS直聘《用户协议》 《隐私政策》,允许BOSS直聘统一管理本人账号信息

公司基本信息

已上市

10000人以上

进出口贸易

查看全部职位
计算

职位描述

岗位描述:
1. 负责研发大语言模型强化学习算法,提升大模型在强化学习阶段的训练效率,以及提升大模型在数学、代码等自然科学领域的推理能力
2. 负责研发奖励和评价模型,包括细粒度的过程监督和奖励建模,覆盖复杂推理、指令遵循等各种任务
3. 参与后训练和推理阶段的Scaling Law研究,包括奖励模型训练、强化学习训练、推理阶段的Scaling Law
职位要求:
1. 硕士及以上学历,计算机科学或相关专业背景
2. 有大模型相关的研究经历,在post-training方向具备一定的训练经验,熟悉奖励模型建模,PPO/REINFORCE/RLOO等主流强化学习算法
3. 具备扎实的算法工程实现能力,熟悉Python编程语言和PyTorch深度学习框架,熟悉DeepSpeed/Megatron等主流分布式训练框架
4. 具备良好的分析和问题解决能力、优秀的工程素养,能够独立思考和解决实际问题
5. 具备较强的团队合作能力和沟通能力,能够与工程团队、业务团队、产品团队和其他技术团队紧密配合
加分项:
1. 在语言大模型和机器学习领域有科研或实践经验,在国际顶级会议/期刊发表过高质量论文
2. 在大数据处理、大规模分布式计算、分布式训练等

张先生 刚刚活跃

广东美的制冷有限公司·HR

竞争力分析

加载中...
个人综合排名:人中排名第
一般 良好 优秀 极好

BOSS 安全提示

BOSS直聘严禁用人单位和招聘者用户做出任何损害求职者合法权益的违法违规行为,包括但不限于扣押求职者证件、收取求职者财物、向求职者集资、让求职者入股、诱导求职者异地入职、异地参加培训、违法违规使用求职者简历等,您一旦发现此类行为, 请立即举报

了解更多职场安全防范知识

公司介绍

国内家用电器行业龙头公司,世界500强企业。
查看全部

工商信息

  • 公司名称广东美的制冷设备有限公司
  • 法定代表人王建国
  • 成立日期2004-10-22
  • 企业类型有限责任公司(中外合资)
  • 经营状态存续
  • 注册资金85400万人民币
查看全部

工作地址

广州海珠区美的集团总部
公司地址

点击查看地图

精选职位

页面更新时间:2025-04-27

快速完善简历,与Boss开聊

与在线Boss直接聊,最快当天拿offer

快速完善信息