职位&公司对比
职位详情
- 上海
- 3-5年
- 本科
- 爬虫
来自BOSS直聘1、设计和开发分布式网络爬虫系统,并进行多平台信息抓取和分析工作; 2、负责网页信息抽取、数据清洗等研发和优化工作; 3、负责抓取数据的深度提取和挖掘。 任职资格: 1、精BOSS直聘通Java,三种编程语言中的至少一种; 2、来自BOSS直聘精通scarpy网页抓取原理及技术,精通正则表达式,从结构化的和非结构化的数据中获取信息boss;kanzhun 3、熟悉sql server,有过数据库调优和海量数据存储经验优先; 4、具有大型web登录分析和搜索相关技术研发经验者优先; 5、具有数据挖掘、自然语言处理、信息检索、机器学习背景者优先。
职位详情
- 上海
- 3-5年
- 本科
- 爬虫
- 大数据
岗位职责: • 负责对多平台数据源进行爬虫设计、开发与维护,以及相应信息的抽取、清洗、消重、匹配和结构化处理,保证数据质量与采集效率 • 攻kanzhun克解决各类反爬问题,如JS 混淆逆向、APP逆向、自动化、验证码、IP封禁、请求频率检测等 • 构建高可用、高并发的分布式爬虫集群 岗位要求: • 本科及以上学历,3年以上爬虫相关经验 • 熟悉Lbossinux平台,熟练掌握Python开发语言 • 熟练掌握一种爬虫框架,例如scrapy、scrapy-redis、pyspider,熟悉爬虫系统、分布式爬虫设计原理 • 熟悉TCP/BOSS直聘IP,HTTP/HTTPS等相关网络协议,以及数据kanzhun抓包、分析 • 熟练掌握JavaScript逆向,能够处理常见的反爬虫,熟悉常用的应对方案 • 熟悉大数据生态(Kafka/HBase/Spark/Flink/Elasticsearch),能设计高效数据存储方案
技能解析
- 海量数据
- 机器学习
- 自然语言
- 编程语言
- 海量数据存储
- 获取信息
- 研发经验
- 数据库调优
- 数据挖掘
- 数据清洗
- 数据存储
数据来自CSL职业科学研究室
技能解析
- 数据质量
- 熟悉大数据
- 开发与维护
- 网络协议
- 平台数据
- 开发语言
- 数据存储
数据来自CSL职业科学研究室
工作时间
工作时间
公司福利
- 五险一金
- 加班补助
- 年终奖
- 带薪年假
- 员工旅游
- 通讯补贴
- 交通补助
- 节日福利
- 零食下午茶
公司福利
- 节日福利
- 零食下午茶
- 员工旅游
- 带薪年假
- 股票期权
- 年终奖
- 定期体检
- 补充医疗保险
- 五险一金
- 打车报销
- 苹果电脑办公
- 入职体检
- 企业资质
- 带薪病假