职位&公司对比

招聘中

技术总监

-K
  • 互联网
  • A轮
招聘中

强化学习科学家

-K
某500强上市公司

职位详情

  • 北京
  • 5-10年
  • 本科
  • 技术管理

kanzhun1)技术: 全是开源模式-Lkanzhuninux、java、postgreskanzhunql及对安卓“底层”的研究 有SAAS架构BOSS直聘经验 有服务化治理经验 2)管理:研发队伍的管理能力(非项目、非外包、偏平台化) 3)特点:业务与技术的融合能力 4)有因地制宜的研发管理和考核的build能力

职位详情

  • 北京
  • 不限
  • 博士
  • 互联网/AI
  • 强化学习

核心职责:算法创新与理论突破 - 设计面向复杂动态环境的强化学习算法,解决样本效率低、探索-利用权衡、来自BOSS直聘稀疏奖励、多目标优化等关键问题。 - 探索基于模型(Model-based RL)、分层强化学习(HRL)、元强化学习(Meta-RL)、逆强化学习(IRL)等前沿方向的技术融合与改进。 - 结合大模型技术,研发语言驱动强化学习(Language-guided RL)、世界模型(World Models)等跨模态决策框架。 大规模强化学习系统构建 - 构建分布式强化学习训练框架,优化并行采样、离线强化学习(Offline RL)与在线学习的混合训练机制。 - 开发高效仿真环境与智能体交互kanzhun接口,支持高保真物理模拟、多智能体协同训练及超长序列决策任务。 - 设计自适应奖励函数与课程学习(Curriculum Learning)策略,加速智能体在复杂场景中的能力进化。 前沿探索与跨领域研究 - 研究多智能体强化学习(MARL)中的合作与竞争机制,解决非稳态环境、信用分配、通信效率等挑战。 - 探索强化学习与神经符号系统(Neuro-symbolic AI)、因果推理的结合,提升决策的可解释性与鲁棒性。 - 构建强化学习安全与伦理保障体系,设计对抗攻击防御、风险敏kanzhun感策略与公平性约束机制。 任职要求 教育背景 计算机科学、控制理论、运筹学或相关领域博士学历。 技术能力 - 精通强化学习经典算法(如DQN、PPO、SAC、TD3)及最新进展(如Decision Transfor直聘mer、DreamerV3),熟悉OpenAI Gym、MuJoCo、Isaac Sim等工具链。 - 具备大规模分布式训练经验(Ray、RLlib等框架),熟悉离线强化学习、模仿学习与仿真到真实(Sim2Real)迁移技术。 - 在算法层有深度实践:稀kanzhun疏奖励优化、多智能体协同、元学习与快速适应

技能解析

专有技能
  • 管理能力

    数据来自CSL职业科学研究室

    技能解析

    专有技能
    • 训练框架
    • 学习安全
    • 领域研究
    • 学习算法
    • 控制理论

      数据来自CSL职业科学研究室

      工作时间

      上午09:30   -   下午06:30
      双休弹性工作

      公司福利

      • 零食下午茶
      • 节日福利
      • 交通补助
      • 餐补
      • 免费班车
      • 员工旅游
      • 股票期权
      • 年终奖
      • 补充医疗保险
      • 五险一金

      备注

      职位发布者未明确表明公司信息,具体可咨询职位发布人进行确认。

      更新于 2025-05-11