职位&公司对比

招聘中
某知名企业
招聘中

分布式训练框架工程师

-K·薪
某中型跨领域投资公司

职位详情

  • 上海
  • 10年以上
  • 本科
  • 强化学习
  • 大模型算法
  • 自然语言处理算法
  • 模型加速/性能优化
  • 图像算法
  • 多模态算法
  • Python
  • C/C++
  • 算法工程化经验
  • 发表算法相关优秀论文

工作职责 - 负责在跨境电商领域探索GenAI应用场景,设计和实现GenAI应用 - 参与制定公司GenAI应用技术路线,为公司的技术战略提供支持 - 追踪GenAI和LLM领域最新技术发展,引入新技术。 - 负责工程项目从开始到交付的全流程,包括细化需求、设计、编码、测试到部署和运营 - 运用工程最佳实,并不断改进团队流程以提高效率 - 在高速发展的初创企业环境中工作,采用敏捷开发,快速有效完成工作任务 任职要求 - 有多个GenAI应用场景开发的实际经验,包括但不限于内容生成,智能客服等。 - 有GenAI应用开发团队技术带头人的经验。 - 10年以上电商系统设计和开发经验。其中5年以上AI应用开发经验。 - 深入理解GenAI和LLM原理, 熟悉大模型相关技术,如ChatGpt, DeepSeek, Llama, Gemini, 豆包, 通义千问,文心一言等。熟悉AI Agent 开发,如 AutoGPT, LangChain, LangGraph 等。熟悉提示词工程。 - 有很强的自驱力,能快速学习并投入工作 - 优秀的人际交往能力和流利的英语(阅读和写作) - 本科及以上学历,boss计算机科学与工程或相关专业知名院校优先

职位详情

  • 上海
  • 不限
  • 本科
  • 深度学习
  • 模型加速/性能优化
  • 分布式训练
  • 团队管理经验
  • AI 训练基础设施
  • 大模型训练优化
  • GPU 加速 算子优化
  • RLHF(PPO 训练)优化
  • AI 计算平台

职位描述 负责构建和优化大规模 AI 训练基础设施,提升大模型训练效率与性能。你将主导分布式训练系统的架构设计与优化,研发高效的计算来自BOSS直聘加速方案,确保系统的扩展性和稳定性,并推动大模型训练策略的持续优化。 岗位职责 1. 分布式训练基础设施开发 o 设计并实现分布式机器学习训练框架,优化数据处理、分布式计算和通信效率。 o 负责 AI 计算平台的架构与优化,提升系统扩展性和稳定性。 2. 大模型训练优化 o 研发混合并行(TP、PP、DP、MOE 等)技术,提高训练吞吐量和计算效率。 o 优化超大规模 MOE(Mixture of Expert直聘s)训练策略,实现低 Drop 率、高通信效率的 Router 设计。 o 设计高效的通信感知(Communication-Aware)计算优化方案,如 Parallel Linear。 3. GPU 计算加速与工具开发 o 研究 GPU 加速技术,优化 AI 计直聘算平台的性能,开发相应的高性能计算工具和库。 o 负责 Triton 算子优化、CUDA Kernel 开发及大规模训练加速方案。 4. 超长序列预训练与 RLHF 训练优化 o 负责 128k+ 超长序列预训练优化,提升 Attention 计算效率。 o 研究并优化 RLHF(PPO 训练),提高 Training & Generation 并行效率boss,优化 KV Cache Offload-Prefetch 机制。 5. 性能分析与优化 o 深入分析训练性能,精准定位并解决计算、通信、存储瓶颈,充分挖掘硬件资源潜力。 o 复现并优化最新大模型架构(LLaMA、DeepSeek、InternLM、FLUX 等),跟进前沿研究并推动落地。 任职要求 1. 教育背景与经验 o 本科及以上学历,计算机、人工智能等相关专业,5 年以上 AI 相关开发经验。 o 有大规模分布式计算、存储和训练系统开发经验,具备大模型训练优化经验者优先。 2. 技术能力 o 深度学习框架:精通至少一种训练框架的底层架构,如 PyTorch(优先)、DeepSpeed、Megatron-LM、FSDP、FairScale 等。 o 并行训练:熟悉 TP、PP、DP、MOE、FSDP 等大规模分布式训练方法,具备优化经验者优先。 o 计算优化:具备 GPU 计算优化能力,熟悉 CUDA、Triton、NCCL、RDMA、通信优化等技术。 o 系统架构:了解 AI 计算平台的架构,熟练掌握 AI 关网络技术、容器化技术(Docker、Kubernetes)。 3. 综合能力 o 具备良好的数据分析和问题解决能力,能够精准优化训练效率。 o 具备优秀的业务理解能力,能够结合业务需求优化训练策略。 o 紧跟 AI 领域最新研究进展,并能快速复现、落地相关论文。 加分项 • 具备超长序列 Transformer 训练优化经验(如 Mamba、RWKV)。 • 参与过千亿级参数大模型训练项目,有 FSDP、ZeRO、Activation Checkpointing 经验。 • 具备 RLHF(PPO 训练)优化经验,熟悉 Offload 及异步

技能解析

专有技能
  • 人际交往
  • 应用开发经验
  • 完成工作
  • 技术路线
  • 应用开发
  • 科学与工程
  • 技术发展
  • 人际交往能力
  • 提供支持
  • 完成工作任务
  • 阅读和写作
  • 交往能力
  • 提高效率
  • 敏捷开发
  • 系统设计
相同技能
  • 开发经验

数据来自CSL职业科学研究室

技能解析

专有技能
  • 深度学习框架
  • 优化能力
  • 训练框架
  • 分布式计算
  • 理解能力
  • 架构设计
  • 研究进展
  • 良好的数据分
  • 数据分析
  • 机器学习
  • 训练方法
  • 优化方案
  • 模型训练
  • 数据处理
  • 提升系统
  • 解决能力
  • 问题解决能力
  • 性能分析
  • 良好的数据分析
  • 深度学习
  • 设计与优化
  • 深入分析
  • 系统架构
  • 系统开发
  • 问题解决
  • CUDA
  • 业务理解能力
  • 人工智能等
相同技能
  • 开发经验

数据来自CSL职业科学研究室

公司福利

  • 五险一金
  • 补充医疗保险
  • 定期体检
  • 年终奖
  • 股票期权
  • 带薪年假
  • 免费班车
  • 交通补助
  • 节日福利
  • 零食下午茶

公司福利

  • 交通补助
  • 生日福利
  • 节日福利
  • 高温补贴
  • 团建聚餐
  • 零食下午茶
  • 餐补
  • 带薪年假
  • 节假日加班费
  • 股票期权
  • 年终奖
  • 定期体检
  • 补充医疗保险
  • 五险一金

备注

职位发布者未明确表明公司信息,具体可咨询职位发布人进行确认。

备注

职位发布者未明确表明公司信息,具体可咨询职位发布人进行确认。

首页 | 上海招聘 · 机器学习招聘 | 上海机器学习招聘 | 某知名企业AI应用专家(外企居家办公+高薪资不卡年纪)招聘 | 某知名企业AI应用专家(外企居家办公+高薪资不卡年纪) 怎么样
更新于 2025-05-13