职位&公司对比
职位详情
- 北京
- 5-10年
- 本科
- Linux
- 系统运维
- 运维
平常没事 有事真kanzhun忙 tomcat生产环境部署 BOSS直聘日常办公室网络维护 常用统计功能 日来自BOSS直聘志分析 负责项kanzhun目代码BOSS直聘上线
职位详情
- 北京
- 3-5年
- 本科
- 运维开发/DevOps
- AI
- Python/Shell
- 计算机相关专业
- 网络安全相关经验
- 运维经验
- 实施交付运维
- Ansible/Salt/Puppet
- Elasticsearch
- Docker
- 系统运维
- 运维开发经验
- 企业级
- IDC机房运维
- Kubernetes
## 系统运维工程师(大模型DevOps方向) ### 岗位职责 1. 负责大模型产品线DevOps体系的建设与优化,包括持续集成/持续交付(CI/CD)流程设计 2. 主导大模型训练工具的监控告警系统设计与开发,构建分布式系统健康度评估体系 3. 负责大模型训练集群的日常运维及性能调优,保障GPU算力资源的高效利用 4. 开发自动化运维工具链,实现大规模机器学习任务的部署、调度与资源管理 5. 搭建智能化的故障诊断平台,实现训练任务异常检测与根boss因分析自动化 6. 与算法团队紧密协作,优化分布式训boss练框架的部署架构与资源利用率 7. 跟踪前沿技术,探索AIOps在模型训练场景下的落地应用 ### 任职要求 1. 计算机相关专业本科及以上学历,3年以上云计算/DevOps领域经验 2. 精通Linux系统运维,熟练掌握Python/Go至少一种开发语言 3. 深入理解Docker/Kubernetes技术栈,有大规模容器集群管理经验 4. 熟悉Prometheus/Grafana/ELK等监控告警系统,具备二次直聘开发能力 5. 掌握Spark/Flink等大数据组件运维,了解TensorFlow/PyTorc直聘h等AI框架特性 6. 具备公有云(AWS/Azure/阿里云)运维经验,熟悉GPU服务器管理 7. 熟悉Jenkins/GitLab CI/Github Flow等CI/CD工具链,了解Argo Workflow等编排工具 8. 优秀的故障排查能力,对系统性能调优有成功实践经验 9. 良好的沟通能力,能与算法/研发团队高效协作 ### 加分项: - 熟悉大模型训练全流程技术栈(数据准备/分布式训练/模型部署),有项目落地经验者优先 - 有高并发分布式系统运维经验(万级节点规模优先) - 参与过MLOps平台建设或AI基础设施优化项目 - 持有CKA/CKAD/云计算相关认证 **申请方式:** 备注:系统运维-姓名-学历-工作年数
技能解析
- 网络维护
- 日常办公
数据来自CSL职业科学研究室
技能解析
- 故障排查
- 性能调优
- 训练框架
- 系统性能
- 流程设计
- 评估体系
- 自动化运维
- 机器学习
- 资源管理
- 管理经验
- 二次开发
- 沟通能力
- 高效协作
- 故障诊断
- 系统运维
- 系统运维工
- 开发能力
- 平台建设
- 模型训练
- 系统设计
- 分布式系统
- 好的沟通
- 开发语言
数据来自CSL职业科学研究室