职位&公司对比

招聘中

爬虫工程师

-K
  • 大数据
  • A轮
招聘中

爬虫高级技术员

-K
  • 咨询
  • 不需要融资

职位详情

  • 杭州
  • 1-3年
  • 本科
  • 数据挖掘
  • 后端开发
  • Java

岗位职责来自BOSS直聘: 1、参与设计kanzhun和开发爬虫kanzhun系统 2、参与爬虫数据监控和数据分析系统的设计与开发 3、参与业务系统支撑需求梳理与设计 kanzhun 职位要求: 1、熟练掌握Python/Java等一到两种开发语言,具备开发爬虫系统和相关支撑系统的能力 2、擅长各类爬虫分析策略设定和防屏蔽规则设计,熟悉爬虫IP管理池、分布BOSS直聘式爬虫设计机制,对于爬虫效率和质量的控制具备一定的经验 3、熟悉各类开源爬虫组件机制工作原理,具备一定的二次开发能力 4、熟练掌握MySQL数据库设计和开发经验,掌握一定的NOSQL数据库开发经验,诸如MongoDB,Hbase等数据库

职位详情

  • 杭州
  • 1-3年
  • 本科
  • Scrapy
  • Fiddleer、Charles
  • Python
  • 接受应届毕业生

岗位职责: 1.全网数据爬取:负责从小红书、淘宝、京东、抖音、快手、拼多多、微信、微博、Instagram、Amazon等国内外主流平台采集数据。 2.能够爬取多模态内容格式,如视频、音频、图片、文本,并处理多模态内容之间的相互转化。 3.处理复BOSS直聘杂网页结构和反爬机制,解决各类反爬问题,如JS混淆逆向、验证码等。 4.负责参与设计爬虫系统,维护通用的爬虫框架,能快速应对和解决新的爬虫需求。 5.研究最新的爬虫技术和工具,持续改进系统的性能和可靠性。 6.数据清理与预处理:对爬取数据进行去重、去噪、结构化、标签提取,确保数据质量,并进行数据的储存优化。 7.爬虫技术迭代升级:跟踪最新爬虫技术,优化现有爬取策略,提高采集效率,降低被封风险。 8.跨团队协作:与数据分析kanzhun团队、咨询洞察团队协作,提供高质量数据支持,优化分析与建模效果。 任职要求: 1. 学历与经验要求 本科及以上学历,计算机科学、数据工程等相关专业优先。 1-3年爬虫开发经验,熟悉基本爬虫架构及反爬机制,具备分布式爬虫架构搭建能力,并能优化数据处理流程。 2. 技术能力要求 精通Python,熟练使用Scrapy等爬虫框架,熟悉Puppeteer/Playwright等自动化框架。 精通各种抓包工的使用,包括但不限于Fiddleer、Charles等。 精通js逆向,熟悉AST、OB混淆、补环境等技能。 熟悉Redis、MongoDB、MySQL等数据库。 熟悉Linux常见命令,有docker、k8s经验。 具备处理验证码的能力,如OCR(Tesseract、PaddleOCR)、点击验证码绕过等。 具备数据清理、预处理能力,熟悉Pandas、Numpy等数据处理工具。 具备高并发爬取能力,能够使用多线程、异步爬取提高效率。 具备分布式架构经验,能使用Scrapy-Redis、Kafkaboss、Celery等工具优化爬取任务调度。 熟悉各大平台的反爬策略,了解WebSocket、GraphQL、APP爬取等技术,研究和破解电商及自媒体 app 反爬策略,能够应对复杂的数据获取需求。 3. 软技能要求 1)高度自驱力:愿意持续学习最新爬虫技术,主动优化爬取策略,提升数据获取效率。 2)独来自BOSS直聘立抗压能力:面对高强度数据需求,能够掌控项目,独立解决问题,快速响应紧急情况。 3)团队协作:能够与数据分析团队、AI团队紧密配合,优化数据处理链路。 4)问题解决能力:具备独立Debug能力,能够高效定位爬虫异常,并快速修复。 薪资范围: 年薪12-20万+,具体薪酬面议。 其他要求: 对AI、数据智能、产品创新感兴趣,愿意探索更智能的数据采集方法。 具备创业精神,愿意与公司长期成长,构建领先的数据爬取系统者优先。 工作地点:杭州/嘉兴嘉善

技能解析

专有技能
  • 和数据分析
  • 数据监控
  • 二次开发
  • SQL数据库
  • 开发能力
  • 数据库开发
  • 系统的设计
  • NOSQL
  • 开发语言
  • 数据库设计
相同技能
  • 数据分析
  • 开发经验

数据来自CSL职业科学研究室

技能解析

专有技能
  • 问题解决能力
  • 处理复杂
  • 数据质量
  • 分布式架构
  • 解决问题
  • 数据支持
  • 问题解决
  • 独立解决
  • 团队协作
  • 抓包工具
  • 提高效率
  • 紧急情况
  • 数据处理流程
  • 独立解决问题
  • 数据处理
  • 解决能力
  • 数据采集
相同技能
  • 数据分析
  • 开发经验

数据来自CSL职业科学研究室

工作时间

上午09:00   -   下午06:00

工作时间

上午09:00   -   下午06:00
双休弹性工作

公司福利

  • 生日福利
  • 节日福利
  • 有无线网
  • 团建聚餐
  • 零食下午茶
  • 餐补
  • 带薪年假
  • 加班补助
  • 股票期权
  • 年终奖
  • 定期体检
  • 五险一金

公司福利

  • 有无线网
  • 法定节假日三薪
  • 节假日加班费
  • 加班补助
  • 保底工资
  • 五险一金
更新于 2025-05-14