职位&公司对比

招聘中

Kafka运维工程师

-K·薪
  • 计算机服务
  • 未融资
招聘中

GPU服务器工程师

-K·薪
  • 互联网
  • D轮及以上

职位详情

  • 上海
  • 1-3年
  • 本科
  • Kafka
  • 英文
  • 运维

1. 解熟悉Kafka技术栈概念kanzhun,有相关的项目经验 2. 能够通过Kafka技术做自动化手段的搭建 3. 英文能够沟通,英文面试环节 主要支持global业务的工作。能够顺利进行相关来自BOSS直聘的运维操作,同时能够进行运维场景的技术搭建工作,Entbosserprise Service Glob直聘al团队希望在印度,中国等地搭建运维团队。需要支持本地自动化手段的搭建等工作

职位详情

  • 上海
  • 5-10年
  • 大专
  • IDC机房运维
  • Python/Shell
  • 通信相关专业
  • 运维经验

【岗位职责】 1、集群运维和优化: 负责大规模GPU集群的日常运维,包括但不限于系统部署、配置管理、监控告警、故障排查与解决,确保集群的高效稳定运行。 负责大规模GPU集群的日常运维,包括但不限于系统部署、配置管理、监控告警、故障排查与解决,确保集群的高效稳定运行。 2、硬件测试选型: 负责服务器整机和重要配件的选型和测试,为采购提供选型依据。 负责服务器整机和核心配件的选型和测试,为公司采购提供可靠选型依据和行情价格,降低公司硬件风险和成本投入 3、性能调优: 统筹管理GPU资源和有效分配,优化集群资源利用率,提升AI训kanzhun练效率和吞吐量。 4、自动化建设: 开发和维护自动化运维脚本及工具,实现集群运维的自动化和智能化,降低人为操作风险,提高效率。 5、技术研究与应用: 深入了解AI训练流程和技术,跟踪最新GPU技术动态,探索并引kanzhun入新技术以提升系统性能和稳定性。 6、维护分布式存储系统:ceph、GPFS等。 7、管理虚拟化和容器化:管理kvm虚拟化和docker容器化环境。 8、建立完善的监控告警系统。 【任职要求】 1、5年以上技术领域相关工作经验,具备从0-1的项目落地研发经验。 1、操作系统:熟练掌握红帽系和debian系的主要操作系统(centos,redhat,rocky,deBOSS直聘bian,ubuntu等);能够进行操作系统内核编译、裁减和驱动适配等操作。 2、AI软硬件知识:包括GPU相关的硬件知识和AI开发栈的基础知识,能够配置AI所需基本类库和运行时环境。 3、深入理解分布式系统原理,有大规模服务器集群运维经验(千台物理服务器管理经验和能力) 4、能够熟练使用一门主流的编程语言(python、golang),独立来自BOSS直聘完成项boss目开发的能力。 5、存储知识和技能:能够部署和管理PB级别的分布式存储系统,例如ceph。 加分项: 有AI相关行业的从业经验和技术热情对行业有信仰 对IDC行业和互联网行业有比较开阔的视野和认知及有相关资源背景人脉

技能解析

专有技能
  • 能够沟通

    数据来自CSL职业科学研究室

    技能解析

    专有技能
    • 故障排查
    • 性能调优
    • 系统性能
    • 开阔的视野
    • 编程语言
    • 技术研究
    • 自动化运维
    • 分布式存储
    • 建立完善
    • 统筹管理
    • 管理经验
    • 提高效率
    • 研发经验
    • 分布式系统
    • 配置管理
    • 提升系统

      数据来自CSL职业科学研究室

      工作时间

      上午09:00   -   下午06:00
      双休弹性工作

      工作时间

      上午09:00   -   下午06:00
      双休弹性工作

      公司福利

      • 员工旅游
      • 带薪年假
      • 底薪加提成
      • 五险一金

      公司福利

      • 交通补助
      • 生日福利
      • 节日福利
      • 通讯补贴
      • 团建聚餐
      • 零食下午茶
      • 餐补
      • 员工旅游
      • 带薪年假
      • 全勤奖
      • 加班补助
      • 股票期权
      • 底薪加提成
      • 保底工资
      • 绩效奖金
      • 年终奖
      • 定期体检
      • 补充医疗保险
      • 五险一金
      • 薪酬
      更新于 2025-05-02