职位&公司对比

招聘中
  • 建筑工程咨询服务
  • 不需要融资
招聘中

爬虫工程师

-K·薪
  • 互联网
  • 未融资

职位详情

  • 郑州
  • 1-3年
  • 本科

岗位职责: 1负责分布式网络爬虫系统设计,搭建系统框架,开发分布式网络爬虫系统。 2、负责数据的抓取、提取、数据分析等工作,满足业务部门对数据的需求。 3、设计和优化数据抓取策略,能够应对各种反爬策略,提高数据抓取的效率和质量。 4、理解数据需求,快速响应和解决数据相关问题。 5、建立和维护数据抓取任务的监BOSS直聘控系统直聘,确保数据抓取的稳定性和及时性。 任职要求: 1、计算机相关专业本科及以上学历,有2年以上爬虫开发经验。 2、精通Python语言,至少熟练掌握主流爬虫框架中的一种; 3、熟悉常见反BOSS直聘爬机制,验证码识别,IP代理池、应用Ip池、js逆向、headers认证和cookie等; 4、有来自BOSS直聘处理大规模数据的经验,对分布式爬虫有实际操作经验者优先。 5、良好的问题解决能力,善于沟通和团队合作,喜欢研究新技术,能够在压力下工作。

职位详情

  • 郑州
  • 3-5年
  • 本科
  • python
  • 计算机软件
  • 分布式爬虫
  • 爬虫开发
  • 数据采集
  • 金融

职位描述: 1、负责网络爬虫系统平台的架构设直聘计与开发(如抓取调度,多样化抓取,页面解析和结构化抽取)、技术选型; 2、研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、混淆加密,算法还原,so层,页面跳转等难点攻克,提BOSS直聘升网页抓取的效率和质量; 3、对抓取后的数据进行清洗、存储等,并持续优化平台,以便满足各种爬取业务需求。 岗位要求: 1. 精通Linu来自BOSS直聘x/UNIX,精通Python语言,至少熟练掌握主流爬虫框架中的一种; 2. 了解各种加密算法,在破解验证码方面有丰富经验,能够独立解决js反爬和模拟登陆问题; 3. 熟练掌握正则表达式、XPath、CSS等网页信息抽取技术; 4. 熟悉常见反爬机制,验证码识别,IP代理池、应用Ip池、headers认证和cookie等; 5. 熟练掌握应直聘用Selenium、PhBOSS直聘antomJS、Splash、Puppeteer实施动态抓取; 6. 熟悉熟练使用charles、fiddler等抓包工具者优先; 7. 熟悉数据清洗,能够用numpy、pandas、jieba等工具对数据进行处理者优先; 8. 熟悉mysql、mongodb、redis、rabbitMQ、kafka、spark者优先; 9. 对有金融数据抓取清洗经验优先; 工作时间: 上午8:30-12:00,下午13:00-5:30,周末双休,国家法定节假日正常带薪休假。 薪资待遇:10000-12000,年底13薪 试用期3个月 条件优异者,工资面议。

技能解析

专有技能
  • 问题解决能力
  • 善于沟通
  • 数据分析等
  • 数据分析
  • 开发经验
  • 善于沟通和
  • 数据相关
  • 系统设计
  • 理解数据
  • 团队合作
  • 解决能力
  • 问题解决

    数据来自CSL职业科学研究室

    技能解析

    专有技能
    • 加密算法
    • 独立解决
    • 熟悉数据
    • 抓包工具
    • 架构设计
    • UNIX
    • 数据清洗

      数据来自CSL职业科学研究室

      工作时间

      上午09:00   -   下午06:00

      工作时间

      上午09:00   -   下午06:00
      双休不加班

      公司福利

      • 五险一金
      • 工龄奖
      • 带薪年假
      • 员工旅游
      • 节日福利

      公司福利

      • 五险一金
      • 带薪年假
      • 节日福利
      • 零食下午茶
      更新于 2025-05-16