职位&公司对比
职位详情
- 杭州
- 1-3年
- 本科
- 数据挖掘
- 后端开发
- Java
岗位职责来自BOSS直聘: 1、参与设计kanzhun和开发爬虫kanzhun系统 2、参与爬虫数据监控和数据分析系统的设计与开发 3、参与业务系统支撑需求梳理与设计 kanzhun 职位要求: 1、熟练掌握Python/Java等一到两种开发语言,具备开发爬虫系统和相关支撑系统的能力 2、擅长各类爬虫分析策略设定和防屏蔽规则设计,熟悉爬虫IP管理池、分布BOSS直聘式爬虫设计机制,对于爬虫效率和质量的控制具备一定的经验 3、熟悉各类开源爬虫组件机制工作原理,具备一定的二次开发能力 4、熟练掌握MySQL数据库设计和开发经验,掌握一定的NOSQL数据库开发经验,诸如MongoDB,Hbase等数据库
职位详情
- 杭州
- 1-3年
- 本科
- Scrapy
- Fiddleer、Charles
- Python
- 接受应届毕业生
岗位职责: 1.全网数据爬取:负责从小红书、淘宝、京东、抖音、快手、拼多多、微信、微博、Instagram、Amazon等国内外主流平台采集数据。 2.能够爬取多模态内容格式,如视频、音频、图片、文本,并处理多模态内容之间的相互转化。 3.处理复BOSS直聘杂网页结构和反爬机制,解决各类反爬问题,如JS混淆逆向、验证码等。 4.负责参与设计爬虫系统,维护通用的爬虫框架,能快速应对和解决新的爬虫需求。 5.研究最新的爬虫技术和工具,持续改进系统的性能和可靠性。 6.数据清理与预处理:对爬取数据进行去重、去噪、结构化、标签提取,确保数据质量,并进行数据的储存优化。 7.爬虫技术迭代升级:跟踪最新爬虫技术,优化现有爬取策略,提高采集效率,降低被封风险。 8.跨团队协作:与数据分析kanzhun团队、咨询洞察团队协作,提供高质量数据支持,优化分析与建模效果。 任职要求: 1. 学历与经验要求 本科及以上学历,计算机科学、数据工程等相关专业优先。 1-3年爬虫开发经验,熟悉基本爬虫架构及反爬机制,具备分布式爬虫架构搭建能力,并能优化数据处理流程。 2. 技术能力要求 精通Python,熟练使用Scrapy等爬虫框架,熟悉Puppeteer/Playwright等自动化框架。 精通各种抓包工具的使用,包括但不限于Fiddleer、Charles等。 精通js逆向,熟悉AST、OB混淆、补环境等技能。 熟悉Redis、MongoDB、MySQL等数据库。 熟悉Linux常见命令,有docker、k8s经验。 具备处理验证码的能力,如OCR(Tesseract、PaddleOCR)、点击验证码绕过等。 具备数据清理、预处理能力,熟悉Pandas、Numpy等数据处理工具。 具备高并发爬取能力,能够使用多线程、异步爬取提高效率。 具备分布式架构经验,能使用Scrapy-Redis、Kafkaboss、Celery等工具优化爬取任务调度。 熟悉各大平台的反爬策略,了解WebSocket、GraphQL、APP爬取等技术,研究和破解电商及自媒体 app 反爬策略,能够应对复杂的数据获取需求。 3. 软技能要求 1)高度自驱力:愿意持续学习最新爬虫技术,主动优化爬取策略,提升数据获取效率。 2)独来自BOSS直聘立抗压能力:面对高强度数据需求,能够掌控项目,独立解决问题,快速响应紧急情况。 3)团队协作:能够与数据分析团队、AI团队紧密配合,优化数据处理链路。 4)问题解决能力:具备独立Debug能力,能够高效定位爬虫异常,并快速修复。 薪资范围: 年薪12-20万+,具体薪酬面议。 其他要求: 对AI、数据智能、产品创新感兴趣,愿意探索更智能的数据采集方法。 具备创业精神,愿意与公司长期成长,构建领先的数据爬取系统者优先。 工作地点:杭州/嘉兴嘉善
技能解析
- 和数据分析
- 数据监控
- 二次开发
- SQL数据库
- 开发能力
- 数据库开发
- 系统的设计
- NOSQL
- 开发语言
- 数据库设计
- 数据分析
- 开发经验
数据来自CSL职业科学研究室
技能解析
- 问题解决能力
- 处理复杂
- 数据质量
- 分布式架构
- 解决问题
- 数据支持
- 问题解决
- 独立解决
- 团队协作
- 抓包工具
- 提高效率
- 紧急情况
- 数据处理流程
- 独立解决问题
- 数据处理
- 解决能力
- 数据采集
- 数据分析
- 开发经验
数据来自CSL职业科学研究室
工作时间
工作时间
公司福利
- 生日福利
- 节日福利
- 有无线网
- 团建聚餐
- 零食下午茶
- 餐补
- 带薪年假
- 加班补助
- 股票期权
- 年终奖
- 定期体检
- 五险一金
公司福利
- 有无线网
- 法定节假日三薪
- 节假日加班费
- 加班补助
- 保底工资
- 五险一金