职位&公司对比
职位详情
- 北京
- 5-10年
- 本科
- 数据处理
- 数据库开发
- 数据挖掘
岗位职责: 1、设计和开发 BOSS直聘数聚力 数据系统 2、优化现有的数据系统,高性能、低成本 3、与产品和设计团队协作,满足业务需要 4、提高数据系统研发团队的工程化,引入最佳实践 boss 任职要求: 1、计算机相关专业本科以上学历,8年以上工作经验,3年大数据架构相关经验,负责过日均 TB 级、总体 PB 级别的数据系统总架构 2、对于 Flink、Spark、Hadoop、HBase、Kafka、ElasticSearch 等数据系统有深入研究 3、熟悉 SQL/NoSQL 数据库技术,有实际生产项目应用经验; 4、精通Linux/Unix环境,精通Java/C++开发,同时熟悉Scala开发语言经验者优先 5kanzhun、具备优秀的团队意识和沟通能力,学习能力和主动性强,具有钻研精神,充满kanzhun激情,乐于接受挑战kanzhun。
职位详情
- 北京
- 不限
- 本科
- 要求数据开发/架构经验
- 要求有数据架构经验
- 数据平台架构经验
- 数据仓库架构经验
- 大数据引擎架构经验
- 其他数据架构经验
- Spark
- Hive
- 其他
- 其他
- 计算机相关专业
- 数据治理经验
职位描述: 1. 大模型数据工程架构设计:构建支持千亿级大模型持续迭代的弹性数据基础设施,设计高扩展性数据处理框架,实现数据清洗、特征工程、标注流水线的全自动化闭环,支撑模型周级迭代需求,确保数据处理吞吐量随模型复杂度增长动态扩容。 2. 智能FeatureStore研发:开发支持动态特征版本回溯的存储系统,构建特征血缘追踪、跨版本特征兼容性保障、在线特征热更新等模块,满足大模型AB测试和渐进式优化场景下的特征服务需求。 3. 评测驱动优化体系:打造模型迭代与数据优化的联动引擎,研发基于评估结果的数据自kanzhun动boss增强系统,建立评估指标到数据缺陷的逆向定位机制,实现模型效果衰减的数据归因分析。 4. 持续训练数据工厂:设计支持增量数据融合的智能标注系统,开发数据价值密度评估、主动学习采样、合成数据插值增强等技术,确保每轮迭代数据质量符合模型当前训练阶段的学习需求。 5. 迭代效能提升体系:构建模型训练与数据工程的协同工作流,研发分布式checkpoint与特征快照联动机制,实现模型回滚时数据状态的毫秒级一致性恢复,降低迭代试错成本。 职位要求: 6. 大模型迭代经验:具有3个以上大模型完整生命周期(预训练→SFT→RLHF→持续优化)的数据支撑实战经验,主导设计过支持模型效果提升20%以上的数据迭代方案。 7. 敏捷数据工程能力:精通CI/CD在数据领域的落地实践,具备构建分钟级数据版本回滚、AB测试数据隔离、灰度发布数据管道等工程化经验。 8. 性能优化专家:在数据供给效率优化上有成功案例,包括但不限于:分布式缓存加速特征读取(10X+提升)、GPU直通数据预处理、异构存储自动分层等技术突破。 9. 数据-模型协同洞察:深度理解数据迭代对模型能力的影响机制,掌握数据分布偏移检测、数据新鲜来自BOSS直聘度评估、特征重要性衰减预来自BOSS直聘警等关键技术。 10. 技术前瞻性:主导过支持万亿参数模型数据工程的预研工作,在动态数据分片策略、训练中断数据一致性保障等方向有技术储备。 技术栈强化项: • 持续集成:Airflow Prefect/DVC Pipeline • 效能工具:NVIDIA RAPIDS/Dask • 监控系统:Prometheus+自定义数据质量埋点 • 存储优化:GPUDirect Storage/DAOS
技能解析
- 数据架构
- 学习能力和
- C++开发
- 沟通能力
- 团队协作
- 数据库技术
- 团队意识
- 学习能力
- 开发语言
数据来自CSL职业科学研究室
技能解析
- 测试数据
- 数据处理框架
- 数据质量
- 关键技术
- 架构设计
- 理解数据
- 工程能力
- 数据清洗
- 生命周期
- 评估结果
- 主动学习
- 服务需求
- 性能优化
- 模型训练
- 数据处理
数据来自CSL职业科学研究室
工作时间
工作时间
公司福利
- 餐补
- 免费班车
- 补充医疗保险
- 五险一金
公司福利
- 生日福利
- 节日福利
- 团建聚餐
- 带薪年假
- 工龄奖
- 绩效奖金
- 年终奖
- 定期体检
- 五险一金