职位&公司对比
职位详情
- 上海
- 1-3年
- 本科
- java爬虫
- python爬虫
- 自然语言处理
岗位职责: 1.负责爬虫软件工具和爬虫技术的选取; 2.负责爬虫采集器设计、开发、优化; 3.实现各种互联网来源的数据标准化处理入库; 任职要求: 1.本科及以上学历,能力优秀者可放宽到大专学历; 2.精通bossHTTP协议,熟悉各种WEB认证机制,掌握nutch\solr\lucece\heritrix等工具来自BOSS直聘优BOSS直聘先考虑; 3.一年以上JAVA/PYTHON使用开发经验,熟悉数据库架构,在PDF文本化、表格提取、图像OCR、文本清理、智能识别某一方面有一定的特长; 4.工作认真负责,能够快速学习各种新技术,有强烈的专研精神和解决问题能力。
职位详情
- 上海
- 3-5年
- 本科
- 爬虫
- 数据工程
- 大模型数据收集与清洗
职位描述 1、构建和管理支撑大型机器学习模型的数据基础kanzhun设施,参与收集、处理、清洗各种渠道的原始数据,包括但不限于网页数据、多模态数据、科研数据等。 2、设计kanzhun和实现数据存储、处理和分析的解决方案。 3、开发数据清洗、转换和加载(ETL)流程,以支持模型训练和评估。 4、优化数据管道的性能,确保数据流的高效和稳定。 5、与科研团队、机器学习训练工程团队密切合作,建立数据系统迭代流程。 职位要求 1、拥有计算机科学、数据科学或相关领域的本科及以上学位。 2、至少3年在数据工程或相关领域的工作经验。 3、精通至少一种编程语言,如Python、Jkanzhuna直聘va或Scala。 4、熟悉大数据技术栈,包括Hadoop、Spark、Kafka等,有使用数据库(如SQL、NoSQL)和数据仓库的经验。 5、熟悉数据建模、数据治理和数据质量来自BOSS直聘控制的最佳实践。 6、具备出色的问题解决能力和分析能力及良好的沟通能力和团队合作精神。 加分项: 1、对机器学习和深度学习有基本的了解和兴趣。 2、有搜索、推荐、广告等业务数据的处理经验。 3、有大模型数据收集与清洗、数据质量评估经验者。
技能解析
- JAVA
- 熟悉数据库
- 开发经验
- HTTP协议
- 解决问题
- PYTHON
- 解决问题能力
- 熟悉数据
数据来自CSL职业科学研究室
技能解析
- 数据仓库
- 熟悉大数据
- 数据质量
- 业务数据
- 编程语言
- 沟通能力和
- 质量控制
- 数据收集
- 数据存储
- 数据科学
- 机器学习
- 沟通能力
- 分析能力
- 模型训练
- 合作精神
- 解决能力
- 使用数据
- 问题解决能力
- 团队合作精神
- 密切合作
- 深度学习
- 团队合作
- 数据清洗
- 问题解决
- 数据技术
- 解决方案
- 数据治理
- 数据建模
- 好的沟通
- 熟悉数据
数据来自CSL职业科学研究室
工作时间
公司福利
- 五险一金
- 加班补助
- 年终奖
- 带薪年假
- 员工旅游
- 餐补
- 节日福利
备注
职位发布者未明确表明公司信息,具体可咨询职位发布人进行确认。