职位&公司对比

职位详情

  • 北京
  • 5-10年
  • 本科
  • Linux
  • 系统运维
  • 运维

平常没事 有事真kanzhun忙 tomcat生产环境部署 BOSS直聘日常办公室网络维护 常用统计功能 日来自BOSS直聘志分析 负责项kanzhun目代码BOSS直聘上线

职位详情

  • 北京
  • 3-5年
  • 本科
  • 运维开发/DevOps
  • AI
  • Python/Shell
  • 计算机相关专业
  • 网络安全相关经验
  • 运维经验
  • 实施交付运维
  • Ansible/Salt/Puppet
  • Elasticsearch
  • Docker
  • 系统运维
  • 运维开发经验
  • 企业级
  • IDC机房运维
  • Kubernetes

## 系统运维工程师(大模型DevOps方向) ### 岗位职责 1. 负责大模型产品线DevOps体系的建设与优化,包括持续集成/持续交付(CI/CD)流程设计 2. 主导大模型训练工具的监控告警统设计与开发,构建分布式系统健康度评估体系 3. 负责大模型训练集群的日常运维及性能调优,保障GPU算力资源的高效利用 4. 开发自动化运维工具链,实现大规模机器学习任务的部署、调度与资源管理 5. 搭建智能化的故障诊断平台,实现训练任务异常检测与根boss因分析自动化 6. 与算法团队紧密协作,优化分布式训boss练框架的部署架构与资源利用率 7. 跟踪前沿技术,探索AIOps在模型训练场景下的落地应用 ### 任职要求 1. 计算机相关专业本科及以上学历,3年以上云计算/DevOps领域经验 2. 精通Linux系统运维,熟练掌握Python/Go至少一种开发语言 3. 深入理解Docker/Kubernetes技术栈,有大规模容器集群管理经验 4. 熟悉Prometheus/Grafana/ELK等监控告警系统,具备二次直聘开发能力 5. 掌握Spark/Flink等大数据组件运维,了解TensorFlow/PyTorc直聘h等AI框架特性 6. 具备公有云(AWS/Azure/阿里云)运维经验,熟悉GPU服务器管理 7. 熟悉Jenkins/GitLab CI/Github Flow等CI/CD工具链,了解Argo Workflow等编排工具 8. 优秀的故障排查能力,对系统性能调优有成功实践经验 9. 良好的沟通能力,能与算法/研发团队高效协作 ### 加分项: - 熟悉大模型训练全流程技术栈(数据准备/分布式训练/模型部署),有项目落地经验者优先 - 有高并发分布式系统运维经验(万级节点规模优先) - 参与过MLOps平台建设或AI基础设施优化项目 - 持有CKA/CKAD/云计算相关认证 **申请方式:** 备注:系统运维-姓名-学历-工作年数

技能解析

专有技能
  • 网络维护
  • 日常办公

    数据来自CSL职业科学研究室

    技能解析

    专有技能
    • 故障排查
    • 性能调优
    • 训练框架
    • 系统性能
    • 流程设计
    • 评估体系
    • 自动化运维
    • 机器学习
    • 资源管理
    • 管理经验
    • 二次开发
    • 沟通能力
    • 高效协作
    • 故障诊断
    • 系统运维
    • 系统运维工
    • 开发能力
    • 平台建设
    • 模型训练
    • 系统设计
    • 分布式系统
    • 好的沟通
    • 开发语言

      数据来自CSL职业科学研究室

      工作时间

      上午09:00   -   下午06:00
      双休弹性工作
      更新于 2025-05-08