「职位对比」魔利互通技术总监怎么样

技术总监

立即沟通

魔利互通

更换职位

强化学习科学家

立即沟通

某500强上市公司

更换职位

招聘中

职位详情

北京
5-10年
本科

技术管理

kanzhun1）技术：全部是开源模式-Lkanzhuninux、java、postgreskanzhunql及对安卓“底层”的研究有SAAS架构BOSS直聘经验有服务化治理经验 2）管理：研发队伍的管理能力（非项目、非外包、偏平台化） 3）特点：业务与技术的融合能力 4）有因地制宜的研发管理和考核的build能力

职位详情

北京
不限
博士

互联网/AI
强化学习

核心职责：算法创新与理论突破 - 设计面向复杂动态环境的强化学习算法，解决样本效率低、探索-利用权衡、来自BOSS直聘稀疏奖励、多目标优化等关键问题。 - 探索基于模型（Model-based RL）、分层强化学习（HRL）、元强化学习（Meta-RL）、逆强化学习（IRL）等前沿方向的技术融合与改进。 - 结合大模型技术，研发语言驱动强化学习（Language-guided RL）、世界模型（World Models）等跨模态决策框架。大规模强化学习系统构建 - 构建分布式强化学习训练框架，优化并行采样、离线强化学习（Offline RL）与在线学习的混合训练机制。 - 开发高效仿真环境与智能体交互kanzhun接口，支持高保真物理模拟、多智能体协同训练及超长序列决策任务。 - 设计自适应奖励函数与课程学习（Curriculum Learning）策略，加速智能体在复杂场景中的能力进化。前沿探索与跨领域研究 - 研究多智能体强化学习（MARL）中的合作与竞争机制，解决非稳态环境、信用分配、通信效率等挑战。 - 探索强化学习与神经符号系统（Neuro-symbolic AI）、因果推理的结合，提升决策的可解释性与鲁棒性。 - 构建强化学习安全与伦理保障体系，设计对抗攻击防御、风险敏kanzhun感策略与公平性约束机制。任职要求教育背景计算机科学、控制理论、运筹学或相关领域博士学历。技术能力 - 精通强化学习经典算法（如DQN、PPO、SAC、TD3）及最新进展（如Decision Transfor直聘mer、DreamerV3），熟悉OpenAI Gym、MuJoCo、Isaac Sim等工具链。 - 具备大规模分布式训练经验（Ray、RLlib等框架），熟悉离线强化学习、模仿学习与仿真到真实（Sim2Real）迁移技术。 - 在算法层有深度实践：稀kanzhun疏奖励优化、多智能体协同、元学习与快速适应

技能解析

专有技能

管理能力

数据来自CSL职业科学研究室

技能解析

专有技能

训练框架
学习安全
领域研究
学习算法
控制理论

数据来自CSL职业科学研究室

工作时间

上午09:30 - 下午06:30

双休、弹性工作

公司福利

零食下午茶
节日福利
交通补助
餐补
免费班车
员工旅游
股票期权
年终奖
补充医疗保险
五险一金

备注

职位发布者未明确表明公司信息，具体可咨询职位发布人进行确认。

职位&公司对比

技术总监

强化学习科学家

技术总监

强化学习科学家

职位详情

职位详情

技能解析

技能解析

工作时间

公司福利