职位&公司对比

招聘中
  • 培训/辅导机构
  • 不需要融资
招聘中
  • 分类信息
  • 不需要融资

职位详情

  • 北京
  • 5-10年
  • 本科
  • Hadoop
  • 推荐算法
  • 数据挖掘

尚硅谷年薪50万+招聘大数据Hadoo直聘p讲师 尚硅谷需要你满足的: 1、软件工程或计算机相关专业相关专业,本科及以上学历,特别优秀者可适当放宽条件; 2、熟悉大数据分析处理(Hadoop,HDFS,MapReduce,Hbase,Pig,Hive,Zookeeper、Spark、Srtorm)等技术,有Hadoop集群搭建,管理,优化经验; 3、有数据挖掘、数据分析、数据仓库、推荐算法等开发经验者优先; 4、表达能力强,声音清晰自然,个性开朗,乐于与人交流; 5、有过大数据培训课程授课经验者优先; 6、熟练掌握大数据处理技术的典型应用场景; 尚硅谷更给予你的: 1、年薪 30-50 万、完善的保险、休假政策 2、加入尚硅谷核心团队,给你一个可以完全释放能力的平台 3、专业的团队,强大的品boss牌影响力,助你成为业内名师,桃李天下 关于尚硅谷: 高速发展的尚硅谷,给力的薪资,广阔的空间boss,靠谱务实的团队,足够释放你的小宇宙! 如果你有强烈加入一个靠谱boss团队的欲望,对教育有敬畏之心,并渴望高薪,欢迎推荐加入尚硅谷kanzhun! 尚硅谷官网:www.atguigu.com

职位详情

  • 北京
  • 3-5年
  • 本科
  • Java
  • PostgreSQL原理/源码
  • 要求数据开发经验
  • Spark原理/源码
  • 大数据引擎开发经验
  • Flink原理/源码
  • 数据建模经验
  • Kafka
  • MySQL/SQL Server
  • 非外包类
  • 实时数仓开发经验
  • 计算机相关专业
  • 数据平台开发经验
  • Flink
  • 数据治理经验
  • SQL
  • 数据库内核开发经验
  • MySQL原理/源码
  • Elasticsearch
  • Spark
  • 数据仓库开发经验
  • Python
  • 数学/统计相关专业

1. 职位描述: 数据全流程管理 :负责大模型(LLM)相关数据的采集、清洗、预处理及标注流程设计与优化,确保数据质量与可用性,为模型训练提供坚实基础。 数据服务接口开发 :设计与开发数据服务接口(RESTful/gRPC),实现与上下游系统(标注平台、训练集群、业务应用等)的高效对接,保障数据流转顺畅。 数据处理流水线构建 :构建高效、可扩展的数据处理流水线,支持多源异构数据(API/日志/数据库)的实时 / 批量同步,满足模型对大规模数据的需求。 数据存储架构优化 :优化数据存储架构,设计基于向量数据库(如 Milvus/Pinecone/FAISS)的检索与缓存策略,提升数据检索效率与性能。 自动化工具开发 :开发自动化工具,提升数据标注、质量校验和版本管理的效率,降低人力成本,提高工作精准度。 模型服务化支持 :参与模型服务化落地,支持特征工程与向量化数据的高效生产与交付,助力模型快速部署与应用。 数据质量评估与改进 :参与数据质量评估体系设计,制定数据标注规范与标准;与算法团队合作,分析模型性能瓶颈并提出数据层面的改进方案,持续提升模型效果。 多模态数据探索 :探索多模态数据(文本、图像、视频等)的处理与融合技术,拓展数据应用场景,提升模型的综合性能。 数据增强与合成 :研究数据增强、合成数据生成等技术,优化数据多样性及规模,缓解数据稀缺问题,增强模型的泛化能力。 2. 任职要求 教育背景 :计算机科学、人工智能、数据工程或相关专业本科及以上学历。 编程能力 :精通 Python 编程,熟悉 Go/Java 至少一种后端语言,具备扎实的数据结构与算法基础,能够高效处理复杂数据问题。 数据接口开发 :掌握分布式数据接口开发技术(如 FastAPI/Flask/gRPC),熟悉消息队列(Kafka/RabbitMQ),保障数据服务的高并发与稳定性。 向量数据库技术 :熟悉向量数据库原理及优化技巧(索引构建、相似性检索、分布式部署),能够根据业务需求选择合适的向量数据库并进行性能调优。 数据中台经验 :具备数据中台开发经验,了解 ETL 工具(Airflow/Luigi)及数据血缘管理,能够构建完善的数据管理体系。 深度学习框架 :熟悉主流深度学习框架(PyTorch/TensorFlow)及大模型技术原理,了解 Transformer 架构及训练流程,与算法团队紧密协作。 云原生技术 :了解云原生数据服务(AWS S3/Redis/ElasticSearch),掌握 Docker/K8s 部署能力,能够灵活运用云资源进行数据处理与模型部署。 数据工程工具链 :掌握数据工程工具链(如 Ha来自BOSS直聘doop/Spark/Dask/Pandas),具备 TB 级数据处理经验,熟练应对大规模数据挑战。 数据标注与版本管理 :熟悉数据标注工具(Label Stkanzhunudio/Prodigy 等)及数据版本管理(DVC/Git),确保数据标注的准确性和可追溯性。 数据隐私与合规 :了解数据隐私与合规boss要求(如 GDPR),熟悉数据脱敏与安全处理技术,保障数据的合法合规使用。 3. 任职资格 数据工程经验 :5 年以上数据工程经验,具备数据管道(Data Pipeline)全链路开发案例,能够独立完成复杂数据项目的实施。 大模型项目经验 :2年以上大模型项目经验,有完整参与 LLM 数据全流程建设(从原始数据到训练就绪数据)的案例,熟悉大模型的数据直聘需求与特点。 向量数据库项目经验 :实际参与过向量数据库选型、性能调优或高并发数据服务接口开发项目,能够根据业务场景做出合理的技术决策。 图数据库与知识图谱 :熟悉图数据库(Neo4j/JanusGraph)与知识图谱数据构建,能够拓展数kanzhun据的应用维度。 数据服务性能优化 :具备大模型数据服务 API 性能优化经验(如响应延迟 <100ms),为业务应用提供高效的数据支持。 MLOps 系统对接 :主导过数据平台与 MLOps 系统的技术对接(如集成 W&B/MLflow),促进数据与模型开发的协同。

技能解析

专有技能
  • 大数据分析
  • 数据仓库
  • 熟悉大数据
  • 软件工程
  • 广阔的空间
  • 品牌影响力
  • 数据分析
  • 表达能力
  • 表达能力强
  • 声音清晰
  • 数据挖掘
相同技能
  • 开发经验
  • 数据处理

数据来自CSL职业科学研究室

技能解析

专有技能
  • 深度学习框架
  • 性能调优
  • 自动化工具
  • 部署能力
  • 数据质量
  • 流程设计
  • 评估体系
  • 数据库原理
  • 数据应用
  • 数据存储
  • 熟悉数据
  • 数据库技术
  • 性能优化
  • 模型训练
  • 项目的实施
  • 数据标注工具
  • 改进方案
  • 合法合规
  • 数据标注
  • 处理复杂
  • 数据管理
  • 技术原理
  • 性能优化经验
  • 技术决策
  • 深度学习
  • 设计与优化
  • 数据处理经验
  • 流程管理
  • 数据服务
  • 版本管理
  • 编程能力
  • 知识图谱
  • 团队合作
  • 数据结构
  • 数据支持
  • 算法基础
  • 人力成本
  • 开发技术
  • 数据结构与算
  • 分布式数据
  • 消息队列
  • 数据结构与算法
  • 接口开发
  • 管理体系
  • 架构优化
相同技能
  • 开发经验
  • 数据处理

数据来自CSL职业科学研究室

工作时间

上午08:30   -   下午06:30
双休不加班

工作时间

上午08:30   -   下午05:30
双休不加班

公司福利

  • 五险一金
  • 带薪年假
  • 员工旅游
  • 节日福利

公司福利

  • 五险一金
  • 补充医疗保险
  • 定期体检
  • 年终奖
  • 带薪年假
  • 员工旅游
  • 餐补
  • 节日福利
  • 零食下午茶
  • 全额公积金
更新于 2025-05-12