职位&公司对比
职位详情
- 上海
- 5-10年
- 本科
- DevOps
- Go
- 容器技术
- Python
DevOps 架构师 一、岗位描述 1、架构设计与优化:独立设计大型电商的 DevOps 架构,规划自动化运维和 CI/CD 流水线,确保架构具备高扩展性和可用性,满足高并发需求,基于阿里云,利用 Kubernetes 搭建并优化云原生架构,实现资源高效利用,助力业务快速迭代。 2、自动化运维技术实施:负责选型和使用 Ansible、Puppet 等自动kanzhun化运维工具,实现服务器配置自动化,提升运维效率。搭建并维护以Prometheus、Grafana 为主的监控体系,实时监测系统,保障系统稳定运行。 3、开发与集成工作:使用 Python、Go 等语言开发自动化脚本和工具,满足电商业务集成、部署和运维的特定需求。参与系统集成,促进不同系统和工具间的协作与数据流通。熟悉terraform等主流IaC的架构和使用,并有实际经验。 二、任职要求 1、工作经验:8 年以上 IT 工作经验,其中 5 年以上专注于大型电商自动化运维和 DevOps 架构工作。 2、技术技能:精通阿里云服务,能熟练用其搭建和优化架构BOSS直聘。熟悉Kubernetes,可独立完成集群管理。熟练掌握BOSS直聘 Python 或 Go 语言,具备开发复杂脚本和工具的能力。熟悉 gitlab、Jenkins 等运维工具,以及Prometheus、ELK 等监控和日志管理系统。 3、项目经验:深度参与大型电商 DevOps 架构设计与实施,推动自动化运维转型,提升系统稳定性和交付效率。有在高并发场景保障系统稳定运行的经验。
职位详情
- 上海
- 1-3年
- 本科
- 分布式技术
- Python
岗位职责 1、负责实现和优化大模型分布式训练以及在线推理系统,提升训练效率和推理性能,包括不限于:架构设计、算子开发、数据处理加速、Checkpoint保存与加载、通信优化等; 2、研究和优化大规模异构加速集群调度、存储、通信互联、监控、Profiling等组件,提升整体硬件利用效率; 3、研究并实现各种模型并行策略(DP/TP/PP/EP/CP)、混合精度、Zero、FSDP、MOE、FP8等技术,加速模型训练,优化显存开销; 4、设计和开发高效的离线、在线推理系统,优化TensorRT-LLM、ONNX-Runtime、vLLM等推理框架,加速整体推理性能; 任职要求 1、本科及以上学历,具有扎实的计算机基础,熟悉操作系统和网络,熟悉C/C++和Python编程语言,对数据结构&算法设计有较深刻的理解; 2、熟悉至少一种主流的深度学习框架,如Tensorflow或Pytorch;熟悉至少一种主流的模型推理框架,如TensorRT-LLM; 3、熟悉CUDA编程,掌握TensorRT、Cutlass、cuDNN等加速库,有内核级优化经验者优先; 4、具备大型分布式系统开发经验,熟悉MPI、直聘NbossCCL、Megatron-LM、Deepspeed、FSDP等相关技术; 5、责任心强,思路清晰,技术视野开阔,对业界新技术敏感,喜欢钻研,具有良好的学习能力并注重团队合作; 加分项 1、有大规模的大模型训练和推理优化经验者优先; 2、熟悉算子开发,有算子优化(如CUDA/Triton)经验者优先; 3、熟悉大模型算法设计,熟悉Transformer架构及其优化方法(如FlashAttention、PagedAttention)者优先; 4、了解Kubernetes以及分布式存储,有相关开发经验者优先; 5、有大型互联网系统(如搜索、推荐、广告)开发经验者优先; 6、有发表OSDI/MLSys等顶会论文,或ACM/ICPC等编程比赛获奖经历者优先;
技能解析
- 设计与优化
- 系统稳定性
- 自动化运维
- 提升系统
- 架构设计
数据来自CSL职业科学研究室
技能解析
- 深度学习框架
- 优化方法
- 深度学习
- 编程语言
- 注重团队合作
- 分布式存储
- 视野开阔
- 系统开发
- 注重团队
- 团队合作
- 数据结构
- CUDA
- C/C++
- 开发经验
- 模型训练
- 对数据结构
- 算法设计
- 分布式系统
- 学习能力
- 数据处理
- 模型算法
- 架构设计
数据来自CSL职业科学研究室
工作时间
公司福利
- 五险一金
- 补充医疗保险
- 定期体检
- 加班补助
- 年终奖
- 股票期权
- 带薪年假
- 员工旅游
- 餐补
- 通讯补贴
- 交通补助
- 节日福利
公司福利
- 五险一金