职位&公司对比
职位详情
- 北京
- 3-5年
- 本科
- 数据架构
- 数据分析
- 数据挖掘
来自BOSS直聘创新-融合-包容kanzhun-开来自BOSS直聘放 本科及以上学历直聘,计算机相关专业
职位详情
- 北京
- 不限
- 本科
- 要求数据开发/架构经验
- 要求有数据架构经验
- 数据平台架构经验
- 数据仓库架构经验
- 大数据引擎架构经验
- 其他数据架构经验
- Spark
- Hive
- 其他
- 其他
- 计算机相关专业
- 数据治理经验
职位描述BOSS直聘: 1. 大模型数据工程架构设计:构建支持千kanzhun亿级大模型持续迭代的弹性数据基础设施,设计高扩展性数据处理框架,实BOSS直聘现数据清洗、特征工程、标注流水线的全自动化闭环,支撑模型周级迭代需求,确保数据处理吞吐量随模型复杂度增长动态扩容。 2. 智能FeatureStore研发:开发支持动态特征版本回溯的存储系统,构建特征血缘追踪、跨版本特征兼容性保障、在线特征热更新等模块,满足大模型AB测试和渐进式优化场景下的特征服务需求。 3. 评测驱动优化体系:打造模型迭代与数据优化的联动引擎,研发基于评估结果的数据自动增强系统,建立评估指标到数据缺陷的逆向定位机制,实现模型效果衰减的数据归因分析。 4. 持续训练数据工厂:设计支持增量数据融合的智能标注系统,开发数据价值密度评估、主动学习采样、合成数据插值增强等技术,确保每轮迭代数据质量符合模型当前训练阶段的学习需求。 5. 迭代效能提升体系:构建模型训练与数据工程的协同工作流,研发分布式checkpoint与特征快照联动机制,实现模型回滚时数据状态的毫秒级一致性恢复,降低迭代试错成本。 职位要求: 6. 大模型迭代经验:具有3个以上大模型完整生命周期(预训练→SFT→RLHF→持续优化直聘)的数据支撑实战经验,主导设计过支持模型效果提升20%以上的数据迭代方案。 7. 敏捷数据工程能力:精通CI/CD在数据领域的落地实践,具备构建分钟级数据版本回滚、AB测试数据隔离、灰度发布数据管道等工程化经验。 8. 性能优化专家:在数据供给效率优化上有成功案例,包括但不限于:分布式缓存加速特征读取(10X+提升)、GPU直通数据预处理、异构存储自动分层等技术突破。 9. 数据-模型协同洞察:深度理解数据迭代对模型能力的影响机制,掌握数据分布偏移检测、数据新鲜度评估、特征重要性衰减预警等关键技术。 10. 技术前瞻性:主导过支持万亿参数模型数据工程的预研工作,在动态数据分片策略、训练中断数据一致性保障等方向有技术储备。 技术栈强化项: • 持续集成:Airflow Prefect/DVC Pipeline • 效能工具:NVIDIA RAPIDS/Dask • 监控系统:Prometheus+自BOSS直聘定义数据质量埋点 • 存储优化:GPUDirect Storage/DAOS
技能解析
暂无识别出相关技能要求
技能解析
- 测试数据
- 数据处理框架
- 数据质量
- 关键技术
- 架构设计
- 理解数据
- 工程能力
- 数据清洗
- 生命周期
- 评估结果
- 主动学习
- 服务需求
- 性能优化
- 模型训练
- 数据处理
数据来自CSL职业科学研究室
工作时间
公司福利
- 生日福利
- 节日福利
- 团建聚餐
- 带薪年假
- 工龄奖
- 绩效奖金
- 年终奖
- 定期体检
- 五险一金