职位&公司对比
职位详情
- 北京
- 5-10年
- 本科
- 系统架构
- J2EE开发
- 嵌入式开发
1、计算机专业或信息技术专业, 2、本科及以上学历; 3、深厚的技术背景,有多个中大型项目技术负责人的经验,具备大型互联网平台的后台开发经验; 4、精通主流webkanzhun服务器系统架构,熟悉J2EE架构,具备架构设计、调优、集成、开发能力; 5、精通主流数据库和中间件应用,熟悉各种网络协议BOSS直聘的开发; 6、熟悉视频/音频采集和传输转化和实时传输,熟悉视频/音频网络通讯传输协议和技术优化 7、熟悉来自BOSS直聘移动端开发技术(IOS/Ankanzhundroid), 8、最好有VR技术背景,有实际VR类应用开发经验优先 9、熟悉广阔的技术领域,包含硬件、嵌入式开发体系的经验者优先
职位详情
- 北京
- 不限
- 博士
- 互联网/AI
- 强化学习
核心职责:算法创新与理论突破 - 设计面向复杂动态环境的强化学习算法,解决样本效率低、探索-利用权衡、稀疏奖励、多目标优化等关键问题。 - 探索基于模型(Mod直聘el-based RL)、分层强化学习(HRL)、元强化学习(Meta-RL)、逆强化学习(IRL)等前沿方向的技术融合与改进。 - 结合大模型技术,研发语言驱动强化学习(Language-guided RL)、世界模型(World Models)等跨模态决策框架。 大规模强化学习系统构建 - 构建分布式强化学习训练框架,优化并行采样、离线强化学习(Offline RL)与在线学习的混合训练机制。 - 开发高效仿真环境与智能体交互接口,支持高保真物理模拟、多智能体协同训练及超长序列决boss策任务。 - 设计自适应奖励函数与课程学习(Curriculum Learning)策略,加速智能体在复杂场景中的能力进化。 前沿探索与跨领域研究 - 研究多智能体强化学习(MARL)中的合作与竞争机制,解决非稳态环境、信用分配、通信效率等挑战。 -来自BOSS直聘 探索强化学习与神经符号系统(Neuro-symbolic AI)、因果推理的结合,提升决策的可BOSS直聘解释性与鲁棒性。 - 构建强化学习安全与伦理保障体系,设计对抗攻击防御、风险敏感策略与公平性约束机制。 任职要求 教育背景 计算机科学、控制理论、运筹学或相关领域博士学历。 技术能力 - 精通强化学习经典算法(如DQN、PPO、SAC、TD3)及最新进展(如Decision Transformer、DreamerV3),熟悉OpenAI Gym、MuJoCo、Isaac Sim等工具链。 - 具备大规模分布式训练经验(Ray、RLlib等框架),熟悉离线强化学习、模仿学习与仿真到真实(Sim2Real)迁移技术。 - 在算法层有深度实践:稀疏奖励优化、多智能体协同、元学习与快速适应
技能解析
- 应用开发经验
- 应用开发
- 架构设计
- 移动端开发
- 系统架构
- 网络协议
- 网络通讯
- 嵌入式开发
- 后台开发
- 传输协议
- 主流数据库
- 开发能力
- 开发技术
- 开发经验
- 信息技术
- 熟悉J2EE
- 项目技术
数据来自CSL职业科学研究室
技能解析
- 训练框架
- 学习安全
- 领域研究
- 学习算法
- 控制理论
数据来自CSL职业科学研究室
工作时间
公司福利
- 五险一金
- 带薪年假
- 员工旅游
- 通讯补贴
- 交通补助
- 节日福利
- 零食下午茶
公司福利
- 零食下午茶
- 节日福利
- 交通补助
- 餐补
- 免费班车
- 员工旅游
- 股票期权
- 年终奖
- 补充医疗保险
- 五险一金
备注
职位发布者未明确表明公司信息,具体可咨询职位发布人进行确认。