职位&公司对比

招聘中

爬虫工程师

-K
  • 互联网
  • 天使轮
招聘中

爬虫高级技术员

-K
  • 咨询
  • 不需要融资

职位详情

  • 杭州
  • 1-3年
  • 本科
  • 数据采集
  • 数据抓取
  • python爬虫

1、主导爬kanzhun虫系统的架构设计和开直聘发; 2、导爬虫核心算法的设计和优化; 3、指导项目团队成员的日常开工作,解决开发中的技术问题,满足数据爬取需求。

职位详情

  • 杭州
  • 1-3年
  • 本科
  • Scrapy
  • Fiddleer、Charles
  • Python
  • 接受应届毕业生

岗位职责: 1.全网数据爬取:负责从小红书、淘宝、京东、抖音、快手、拼多多、微信、微博、Instagram、Amazon等国内外主流平台采集数据。 2.能够爬取多模态内容格式,如视频、音频、图片、文本,并处理多模态内容之间的相互转化。 3.处理复杂网页结构和反爬机制,解决各类反爬问题,如JS混淆逆向、验证码等。 4.负责参与设计爬虫系统,维护通用的爬虫框架,能快速应对和解决新的爬虫需求。 5.研究最新的爬虫技术和工具,持续改进系统的性能和可靠性。 6.数据清理与预处理:对爬取数据进行去重、去噪、结构化、标来自BOSS直聘签提取,确保数据质量,并进行数据的储存优化。 7.爬虫技术迭代升级:跟踪最新爬虫技术,优化现有爬取策略,提高采集效率,降低被封风险。 8.跨团队协作:与数据分析团队、咨直聘询洞察团队协作,提供高质量数据支持,优化分析与建模效果。 任职要求: 1. 学历与经验要求 本科及以上boss学历,计算机科学、数据工程等相关专业优先。 1-3年爬虫开发经验,熟悉基本爬虫架构及反爬机制,具备分布式爬虫架构搭建能力,并能优化数据处理流程。 2. 技术能力要求 精通Python,熟练使用Scrapy等爬虫框架,熟悉Puppeteer/Playwright等自动化框架。 精通各种抓包工具的使用,包括但不限于Fiddleer、Charles等。 精通js逆向,熟悉AST、OB混淆、补环境等技能。 熟悉Redis、MongoDB、MySQL等数据库。 熟悉Linux常见命令,有docker、k8s经验。 具备处理验证码的能力,如OCR(Tesseract、PaddleOCR)、点击验证码绕过等。 具备数据清理、预处理能力,熟悉Pandas、Numpy等数据处理工具。 具备高并发爬取能力,能够使用多线程、异步爬取提高效率。 具备分布式架构经验,能使用Scrapy-Redis、Kafka、Celery等工具优化爬取任务调度。 熟悉各大平台的反爬策略,了解WebSocket、GraphQL、APP爬取等技术,研究和破解电商及自媒体 app 反爬策略,能够应对复杂的数据获取需求。 3. 软技能要求 1)高度自驱力:愿意持续学习最新爬虫技术,主动优化爬取策略,提升数据获取效率。 2)独立抗压能力:面对高强度数据需求,能够掌控项目,独立解决问题,快速响应紧急情况boss。 3)团队协作:能够与数据分析团队、AI团队紧密配合,优化数据kanzhun处理链路。 4)问题解决能力:具备独立Debug能力,能够高效定位爬虫异常,并快速修复。 薪资范围: 年薪12-20万+,具体薪酬面议。 其他要求: 对AI、数据智能、产品创新感兴趣,愿意探索更智能的数据采集方法。 具备创业精神,愿意与公司长期成长,构建领先的数据爬取系统者优先。 工作地点:杭州/嘉兴嘉善

技能解析

专有技能
  • 技术问题
  • 架构设计
  • 开发工作

    数据来自CSL职业科学研究室

    技能解析

    专有技能
    • 问题解决能力
    • 处理复杂
    • 数据质量
    • 分布式架构
    • 解决问题
    • 数据支持
    • 问题解决
    • 数据分析
    • 独立解决
    • 团队协作
    • 抓包工具
    • 提高效率
    • 开发经验
    • 紧急情况
    • 数据处理流程
    • 独立解决问题
    • 数据处理
    • 解决能力
    • 数据采集

      数据来自CSL职业科学研究室

      工作时间

      上午09:00   -   下午06:00
      双休弹性工作

      公司福利

      • 有无线网
      • 法定节假日三薪
      • 节假日加班费
      • 加班补助
      • 保底工资
      • 五险一金
      更新于 2025-05-12