职位&公司对比
职位详情
- 上海
- 1-3年
- 本科
- Kafka
- 英文
- 运维
1. 了解熟悉Kafka技术栈概念kanzhun,有相关的项目经验 2. 能够通过Kafka技术做自动化手段的搭建 3. 英文能够沟通,英文面试环节 主要支持global业务的工作。能够顺利进行相关来自BOSS直聘的运维操作,同时能够进行运维场景的技术搭建工作,Entbosserprise Service Glob直聘al团队希望在印度,中国等地搭建运维团队。需要支持本地自动化手段的搭建等工作
职位详情
- 上海
- 5-10年
- 大专
- IDC机房运维
- Python/Shell
- 通信相关专业
- 运维经验
【岗位职责】 1、集群运维和优化: 负责大规模GPU集群的日常运维,包括但不限于系统部署、配置管理、监控告警、故障排查与解决,确保集群的高效稳定运行。 负责大规模GPU集群的日常运维,包括但不限于系统部署、配置管理、监控告警、故障排查与解决,确保集群的高效稳定运行。 2、硬件测试选型: 负责服务器整机和重要配件的选型和测试,为采购提供选型依据。 负责服务器整机和核心配件的选型和测试,为公司采购提供可靠选型依据和行情价格,降低公司硬件风险和成本投入 3、性能调优: 统筹管理GPU资源和有效分配,优化集群资源利用率,提升AI训kanzhun练效率和吞吐量。 4、自动化建设: 开发和维护自动化运维脚本及工具,实现集群运维的自动化和智能化,降低人为操作风险,提高效率。 5、技术研究与应用: 深入了解AI训练流程和技术,跟踪最新GPU技术动态,探索并引kanzhun入新技术以提升系统性能和稳定性。 6、维护分布式存储系统:ceph、GPFS等。 7、管理虚拟化和容器化:管理kvm虚拟化和docker容器化环境。 8、建立完善的监控告警系统。 【任职要求】 1、5年以上技术领域相关工作经验,具备从0-1的项目落地研发经验。 1、操作系统:熟练掌握红帽系和debian系的主要操作系统(centos,redhat,rocky,deBOSS直聘bian,ubuntu等);能够进行操作系统内核编译、裁减和驱动适配等操作。 2、AI软硬件知识:包括GPU相关的硬件知识和AI开发栈的基础知识,能够配置AI所需基本类库和运行时环境。 3、深入理解分布式系统原理,有大规模服务器集群运维经验(千台物理服务器管理经验和能力) 4、能够熟练使用一门主流的编程语言(python、golang),独立来自BOSS直聘完成项boss目开发的能力。 5、存储知识和技能:能够部署和管理PB级别的分布式存储系统,例如ceph。 加分项: 有AI相关行业的从业经验和技术热情对行业有信仰 对IDC行业和互联网行业有比较开阔的视野和认知及有相关资源背景人脉
技能解析
- 能够沟通
数据来自CSL职业科学研究室
技能解析
- 故障排查
- 性能调优
- 系统性能
- 开阔的视野
- 编程语言
- 技术研究
- 自动化运维
- 分布式存储
- 建立完善
- 统筹管理
- 管理经验
- 提高效率
- 研发经验
- 分布式系统
- 配置管理
- 提升系统
数据来自CSL职业科学研究室
工作时间
工作时间
公司福利
- 员工旅游
- 带薪年假
- 底薪加提成
- 五险一金
公司福利
- 交通补助
- 生日福利
- 节日福利
- 通讯补贴
- 团建聚餐
- 零食下午茶
- 餐补
- 员工旅游
- 带薪年假
- 全勤奖
- 加班补助
- 股票期权
- 底薪加提成
- 保底工资
- 绩效奖金
- 年终奖
- 定期体检
- 补充医疗保险
- 五险一金
- 薪酬