职位&公司对比
职位详情
- 北京
- 3-5年
- 本科
- Hadoop
- 数据挖掘
- 机器学习
职位描述: 1. 大数据平台的设计、开发和数据分析等工作; 2. 对海量用户行为数据进行分析处理,建立用户画像; boss 任职要求: 1. 计算机及相关专业,本科毕业3年以上工作经验或硕士毕业1年以上工作经验; 来自BOSS直聘2. 熟悉Hadoop、Hive、Hbase、ElasticSearch、Spark、Kafka等常用的相关框架,具备相关项目应用研发kanzhun经验; 3. 熟悉Linux/Unix操作系统,熟练掌握java/scala/python等一种或多种编程语言; 4. 有Hadoop集群的搭建、维护和优化经验; 5. 有扎实的数据结构和算法基础,对推荐算法、数据挖掘算法有一定的认识和理解; 6. 强烈的责任心与主动性,具有高度的责任感与团队合作精神,有BOSS直聘良好的沟通能力,对数据敏感; 7. 具有Hadoop平台下数据挖掘实现经历优先; 8. 有电信,金融行业建模经验优先;
职位详情
- 北京
- 3-5年
- 本科
- Java
- PostgreSQL原理/源码
- 要求数据开发经验
- Spark原理/源码
- 大数据引擎开发经验
- Flink原理/源码
- 数据建模经验
- Kafka
- MySQL/SQL Server
- 非外包类
- 实时数仓开发经验
- 计算机相关专业
- 数据平台开发经验
- Flink
- 数据治理经验
- SQL
- 数据库内核开发经验
- MySQL原理/源码
- Elasticsearch
- Spark
- 数据仓库开发经验
- Python
- 数学/统计相关专业
1. 职位描述: 数据全流程管理 :负责大模型(LLM)相关数据的采集、清洗、预处理及标注流程设计与优化,确保数据质量与可用性,为模型训练提供坚实基础。 数据服务接口开发 :设计与开发数据服务接口(RESTful/gRPC),实现与上下游系统(标注平台、训练集群、业务应用等)的高效对接,保障数据流转顺畅。 数据处理流水线构建 :构建高效、可扩展的数据处理流水线,支持多源异构数据(APIBOSS直聘/日志/数据库)的实时 / 批量同步,满足模型对大规模数据的需求。 数据存储架构优化 :优化数据存储架构,设计基于向量数据库(如 Milvus/Pinecone/FAISS)的检索与缓存策略,提升数据检索效率与性能。 自动化工具开发 :开发自动化工具,提升数据标注、质量校验和版本管理的效率,降低人力成本,提高工作精准度。 模型服务化支持 :参与模型服务化落地,支持特征工程与BOSS直聘向量化数据的高效生产与交付,助力模型快速部署与应用。 数据质量评估与改进 :参与数据质量评估体系设计,制定数据标注规范与标准;与算法团队合作,分析模型性能瓶颈并提出数据层面的改进方案,持续提升模型效果。 多模态数据探索 :探索多模态数据(文本、图像、视频等)的处理与融合技术,拓展数据应用场景,提升模型的综合性能。 数据增强与合成 :研究数据增强、合成数据生成等技术,优化数据多样性及规模,缓解数据稀缺问题,增强模型的泛化能力。 2. 任职要求 教育背景 :计算机科学、人工智能、数据工程或相关专业本科及以上学历。 编程能力 :精通 Python 编程,熟悉 Go/Java 至少一种后端语言,具备扎实的数据结构与算法基础,能够高效处理复杂数据问题。 数据接口开发 :掌握分布式数据接口开发技术(如 FastAPI/Flask/gRPC),熟悉消息队列(Kafka/RabbitMQ),保障数据服务的高并发与稳定性。 向量数据库技术 :熟悉向量数据库原理及优化技巧(索引构建、相似性检索、分布式部署),能够根据业务需求选择合适的向量数据库并进行性能调优。 数据中台经验 :具备数据中台开发经验,了解 ETL 工具(Airflow/Luigi)及数据血缘管理,能够构建完善的数据管理体系。 深度学习框架 :熟悉主流深度学习框架(PyTorch/TensorFlow)及大模型技术原理,了解 Transfor来自BOSS直聘mer 架构及训练流程,与算法团队紧密协作。 云原生技术 :了解云原生数据服务(AWS S3/Redis/ElasticSearch),掌握 Docker/K8s 部署能力,能够灵活运用云资源进行数据处理与模型部署。 数据工程工具链 :掌握数据工程工具链(如 Hadoop/Spark/Dask/Pandas),具备 TB 级数据处理经验,熟练应对大规模数据挑战。 数据标注与版本管理 :熟悉数据标注工具(Label Studio/Prodigy 等)及数据版本管理(DVC/Git),确保数据标注的准确性和可追溯性。 数据隐私与合规 :了解数据隐私与合规要求(如 GDPR),熟悉数据脱敏与安全处理技术,保障数据的合法合规使用。 3. 任职资格 数据工程经验 :5 年以上数据工程经验,具备数据管道(Data Pipeline)全链路开发案例,能够独立完成复杂数据项目的实施。 大模型项目经验 :2年以上大模型项目经验,有完整参与 LLM 数据全流程建设(从原始数据到训练就绪数据)的案例,熟悉大模型的数据需求与特点。 向量数据库项目经验 :实际参与过向量数据库选型、性能调优或高并发数据服务接口开发项目,能够根据业务场景做出合理的技术决策。 图数据库与知识图谱 :熟悉图数据库(Neo4j/JanusGraph)与知识图谱数据构建,能够拓展数据的应用维度。 数据服务性能优化 :具备大模型数据服务 API 性能优化经验(如响应延迟 <100ms)直聘,为业务应用提供高效的数据支持。 MLOps 系统对接 :主导过数据平台与 MLOps 系统的技术对接(如集成 W&B/MLflow),促进数据与模型开发的协同。
技能解析
- 数据分析等
- 团队合作精神
- 维护和优化
- 数据结构和算法
- 编程语言
- 数据结构和算
- 用户行为数据
- 建模经验
- 数据进行分析
- 数据敏感
- 和数据分析
- 数据分析
- 数据挖掘算法
- 与团队合作
- 沟通能力
- 合作精神
- 研发经验
- 好的沟通
- 用户行为
- 数据挖掘
- 算法基础
- 团队合作
- 数据结构
数据来自CSL职业科学研究室
技能解析
- 深度学习框架
- 性能调优
- 自动化工具
- 部署能力
- 数据质量
- 流程设计
- 评估体系
- 数据库原理
- 数据应用
- 数据存储
- 熟悉数据
- 数据库技术
- 开发经验
- 性能优化
- 模型训练
- 项目的实施
- 数据标注工具
- 数据处理
- 改进方案
- 合法合规
- 数据标注
- 处理复杂
- 数据管理
- 技术原理
- 性能优化经验
- 技术决策
- 深度学习
- 设计与优化
- 数据处理经验
- 流程管理
- 数据服务
- 版本管理
- 编程能力
- 知识图谱
- 数据支持
- 人力成本
- 开发技术
- 数据结构与算
- 分布式数据
- 消息队列
- 数据结构与算法
- 接口开发
- 管理体系
- 架构优化
- 算法基础
- 团队合作
- 数据结构
数据来自CSL职业科学研究室
工作时间
工作时间
公司福利
- 五险一金
- 补充医疗保险
- 定期体检
- 全勤奖
- 年终奖
- 股票期权
- 带薪年假
公司福利
- 五险一金
- 补充医疗保险
- 定期体检
- 年终奖
- 带薪年假
- 员工旅游
- 餐补
- 节日福利
- 零食下午茶
- 全额公积金