职位&公司对比
职位详情
- 北京
- 5-10年
- 本科
- 技术管理
kanzhun1)技术: 全部是开源模式-Lkanzhuninux、java、postgreskanzhunql及对安卓“底层”的研究 有SAAS架构BOSS直聘经验 有服务化治理经验 2)管理:研发队伍的管理能力(非项目、非外包、偏平台化) 3)特点:业务与技术的融合能力 4)有因地制宜的研发管理和考核的build能力
职位详情
- 北京
- 不限
- 博士
- 互联网/AI
- 强化学习
核心职责:算法创新与理论突破 - 设计面向复杂动态环境的强化学习算法,解决样本效率低、探索-利用权衡、来自BOSS直聘稀疏奖励、多目标优化等关键问题。 - 探索基于模型(Model-based RL)、分层强化学习(HRL)、元强化学习(Meta-RL)、逆强化学习(IRL)等前沿方向的技术融合与改进。 - 结合大模型技术,研发语言驱动强化学习(Language-guided RL)、世界模型(World Models)等跨模态决策框架。 大规模强化学习系统构建 - 构建分布式强化学习训练框架,优化并行采样、离线强化学习(Offline RL)与在线学习的混合训练机制。 - 开发高效仿真环境与智能体交互kanzhun接口,支持高保真物理模拟、多智能体协同训练及超长序列决策任务。 - 设计自适应奖励函数与课程学习(Curriculum Learning)策略,加速智能体在复杂场景中的能力进化。 前沿探索与跨领域研究 - 研究多智能体强化学习(MARL)中的合作与竞争机制,解决非稳态环境、信用分配、通信效率等挑战。 - 探索强化学习与神经符号系统(Neuro-symbolic AI)、因果推理的结合,提升决策的可解释性与鲁棒性。 - 构建强化学习安全与伦理保障体系,设计对抗攻击防御、风险敏kanzhun感策略与公平性约束机制。 任职要求 教育背景 计算机科学、控制理论、运筹学或相关领域博士学历。 技术能力 - 精通强化学习经典算法(如DQN、PPO、SAC、TD3)及最新进展(如Decision Transfor直聘mer、DreamerV3),熟悉OpenAI Gym、MuJoCo、Isaac Sim等工具链。 - 具备大规模分布式训练经验(Ray、RLlib等框架),熟悉离线强化学习、模仿学习与仿真到真实(Sim2Real)迁移技术。 - 在算法层有深度实践:稀kanzhun疏奖励优化、多智能体协同、元学习与快速适应
技能解析
- 管理能力
数据来自CSL职业科学研究室
技能解析
- 训练框架
- 学习安全
- 领域研究
- 学习算法
- 控制理论
数据来自CSL职业科学研究室
工作时间
公司福利
- 零食下午茶
- 节日福利
- 交通补助
- 餐补
- 免费班车
- 员工旅游
- 股票期权
- 年终奖
- 补充医疗保险
- 五险一金
备注
职位发布者未明确表明公司信息,具体可咨询职位发布人进行确认。